• 19 апреля 2018, четверг
  • Москва, ул.Варшавское шоссе д.9 стр.1

Moscow Spark #4

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

2192 дня назад
19 апреля 2018 c 19:00 до 21:30
Москва
ул.Варшавское шоссе д.9 стр.1

Всем привет! Новый год, новый Spark, новый Moscow Spark! Мы стартуем новый сезон нашего замечательного мероприятия 19 апреля на Мансарде Rambler&Co. Фреймворк не стоит на месте и мы тоже, в этот раз представим новый сайт сообщества и опробуем формат со звездой из-за рубежа.

Темы докладов:

Павел Клеменков, Chief Data Scientist @ Nvidia / Data Wizard @ BigDataTeam

Что нового в Spark 2.3?

В докладе я рассмотрю три главные, на мой взгляд, новые фичи Apache Spark: continuous streaming, streaming ml и vectorized udf. На примерах рассмотрим, чем отличается continuous streaming от microbatch, насколько он быстрее и какие ограничения с этим связаны. Разберем насущную проблему всех специалистов по машинному обучению: как же запилить модель в прод и сделаем это с помощью нового, унифицированного интерфейса Streaming ML. И, в заключении, рассмотрим, как разработчики побороли, кажется, финальную боль производительности PySpark  c помощью векторизации UDF.

 

Олег Ивченко, Ассистент @ МФТИ / Data Wizard @ BigDataTeam
Павел Ахтямов, Разработчик-аналитик @ Vicman Development / Data Wizard @ BigDataTeam

MOOC по Big Data: дать каждому по кластеру и проверить решения!

В прошлом году наша команда (BigDataTeam) совместно с Яндекс запустила специализацию Big Data for Data Engineers. Уникальность этой специализации состоит в том, что решения студентов тестируются на реальном кластере. Запуск подобной инфраструктуры и её интеграция с Coursera оказался довольно трудоемким делом и поставил перед нами множество интересных инженерных задач. О них мы и расскажем в докладе. А именно:

  • как собрать Spark-кластер с Jupyter внутри Docker-контейнера
  • как встроить в Coursera свой pipeline проверки заданий с помощью интерфейса LTI
  • как передать Jupyter-ноутбук на production-кластер и проверить его на нём

 

Дмитрий Лахвич [KrivdaTheTriewe], Senior Research Engineer @ Tookitaki /  Data Engineer @ Максимателеком

Apache Spark on Kubernetes the easy way.

Одним из новшеств Apache Spark 2.3 стала экспериментальная поддержка Kubernetes в основной ветке. В данном докладе я рассмотрю как архитектуру самого Kubernetes, его деплой, базовую настройку в минимальной конфигурации, так и деплой Apache Spark приложений в Kubernetes. Будут рассмотрены некоторые тонкости настройки, а также вопрос зачем же нам нужен еще один планировщик (scheduler) и какие он приносит бенефиты.

 

Мероприятие бесплатное, а регистрация обязательна.

С нас пицца и чай!

Начало в 19.00.
Место: Варшавское шоссе, д. 9, стр. 1, подъезд №5. Мансарда Rambler&Co

Обязательно зарегистрируйтесь и возьмите с собой паспорт, чтобы вас пропустила охрана бизнес-центра!

Приходите, будет интересно!

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше