19 мая 2018

Минск, OK16

Что такое #datafestby?

Data Fest2 Minsk – это неформальная конференция, которая объединит исследователей, разработчиков и всех, кому интересен data science во всех его проявлениях.

  • Никакого буллшита! Лучшие спикеры с передовыми результатами из индустрии
  • Крутые доклады на любой вкус с морем новых знаний, скиллов и знакомств
  • Не просто конференция, но еще и отличная вечеринка нетворкинг

Data Fest Minsk 2017 прошел в минском Парке высоких технологий. Смотрите, как это было: 237 снимков и 10 видео.

Программа

10:00 – 11:00 Регистрация участников

11:00 – 11:15 Открытие Data Fest2 Minsk

Поток I

  • Vladimir Iglovikov

    Владимир

  • 11:15 – 12:15 Как быстро надо бежать, чтобы не отстать: ML edition

    Владимир Игловиков, Computer Vision Engineer @Lyft, PhD in Physics at UC Davis, Kaggle Grandmaster.

    Как быть востребованным на конкурентном рынке труда Кремниевой Долины. Статьи, технологии, конкурсы, соратники, настрой и другие важные аспекты становления дата сайнтиста.

    12:15 – 12:45 Кофе-пауза

  • Арсений

  • 12:45 – 13:15 Как решать задачи NLP без знания языка

    Арсений Анисимович, Lead Research Scientist @Once Dating

    Char-level CNN для обработки текстов: советы, трюки и подводные камни. Мы пройдемся по character-level подходам и посмотрим, можно ли сделать модель для решения специфических проблем в многоязычных ситуациях, не опираясь на большие датасеты.

  • Валентин

  • 13:15 – 13:45 DeepPavlov: библиотека для создания диалоговых систем

    Валентин Малых, исследователь в лаборатории нейронных систем и глубокого обучения @МФТИ, Москва

    Библиотека DeepPavlov содержит в себе отдельные код, тренированные модели и вспомогательные утилиты для создания диалоговых систем (чатботов).

    13:45 – 14:45 Обед

  • Виктор

  • 14:45 – 15:30 Распознавание и учёт светофоров беспилотным автомобилем

    Виктор Отлига, разработчик направления беспилотных автомобилей @Яндекс

    Светофоры - один из главных типов объектов, влияющих на движение автомобиля в городе. Обычно у человека не возникает проблем с тем, чтобы определить цвет светофора и понять, как он влияет на дорожную ситуацию. А сложно ли беспилотному автомобилю справиться с задачей учёта светофоров при планировании своего поведения? Думаете, что это крайне простая и понятная задача? На самом деле, всё не так тривиально, как может показаться на первый взгляд. В докладе мы попробуем разобраться, какие есть подводные камни у этой задачи и как можно с ними бороться.

  • Сергей

  • 15:30 – 16:00 Superresolution для видео с помощью Generative Adversarial Networks

    Сергей Овчаренко, Senior Research Engineer @Яндекс

    Как можно улучшать видео и изображения с помощью GAN'ов, почему подходы из статей про superresolution не работает на реальных данных и как мы это исправили.

    16:00 – 16:30 Кофе-пауза

  • Евгений

  • 16:30 – 17:00 Анализ и разметка больших данных в приложениях eCommerce

    Евгений Бабахин, Data Scientist @Profitero

    Часто бывает, что удается скачать большие объемы неструктурированных данных (текстов, картинок) из открытых источников, однако возникает вопрос их разметки под конкретную задачу. Я расскажу, как с проблемой разметки и пополнения тренировочного множества справляются в компании Profitero. А также рассмотрю пример использования такого подхода в задаче по определению брендов продуктов в онлайн-магазинах.

  • Дмитрий

  • 17:00 – 17:30 Как безопасно использовать стекинг в продакшене

    Дмитрий Палевский, Data Scientist @WorkFusion

    To stack or not to stack? Или как увеличить точность предсказания для задачи извлечения информации до 99%-100% за счет применения валидационной модели 2-го уровня.

  • Дима

  • 17:30 – 18:15 Как анализировать гигабайты данных на обычном ноутбуке

    Дима Королев, Head of Machine Learning @FriendlyData

    Часто бывает, что данных — единицы или десятки гигабайт, что не очень мало, но и не очень много. В такой ситуации анализировать их с помощью sed / jq / grep / awk уже выходит слишком медленно, а заливать их в Hadoop-кластер — слишком расточительно. Я расскажу про свой опыт прохождения пути "от баша и скриптов" к нативному коду, который двумя разными способами приводит нас к возможности локально, на обычном ноутбуке, "бегать" по данным со скоростью больше гигабайта в секунду, сводя время одной итерации "идея - имплементация - обработка - результат" к единицам секунд.

    18:15 – 18:45 Кофе-пауза

  • Александр

  • 18:45 – 19:15 Доставка и эксплуатация обученных моделей на production. Опыт 2ГИС.

    Александр Радионов, руководитель сервисов Поиска и ML @2ГИС

    2ГИС — справочник и карта организаций России, Украины, Казахстана и других стран, с более чем 40 миллионами пользователей в месяц. Справочник содержит миллионы организаций и каждый день их сайты меняются. Расскажем о процессе непрерывной (почти) интеграции Machine Learning-сервисов с бекендами для выверки работоспособности и отсутствия 18+ контента на сайтах компаний.

  • Дмитрий

  • 19:15 – 19:45 Как сегментировать 150 млн человек

    Дмитрий Щегрикович, Senior Data Scientist @Wargaming, кандидат ф.-м. наук

    Рассмотрю варианты применения методов кластеризации для нужд описания пользователей от идеи до финального решения на примере реальных задач команды Data Science компании Wargaming. Расскажу все тонкости продажи бизнесу идей проектов, подходы к решению непосредственно аналитических задач, проверки устойчивости решений, вид автоматизированного решения.

    Поток II

  • Влад

  • 12:45 – 13:15 Доменная адаптация в компьютерном зрении

    Влад Павлович, Software Engineer @WANNABY

    Одна из основных проблем методов глубинного обучения - недостаточные объёмы обучающей выборки. В докладе пойдет речь о возможностях применения доменной адаптации изображений для решения этой проблемы.

  • Денис

  • 13:15 – 13:45 Трекинг состояния человека: в поиске лучшего решения

    Денис Пирштук, Head of Data Science, Facemetrics @Facemetrics

    Мы рассмотрим особенности задач, в которых камера, используется для отслеживания состояния человека, будь то его активность, эмоциональное или физическое состояние человека, и сравним возможные подходы к их решению. В этой области обычно модели обучают на датасетах, созданных в лабораторных условиях. Однако у некоторых исследователей получаются модели, которые точнее и намного более устойчивы на новых реальных данных, чем у большинства коллег. В чем же отличия?

    13:45 – 14:45 Обед

  • Юрий

  • 14:45 – 15:15 О некоторых косяках в анализе данных

    Юрий Кашницкий, Data Scientist команды предиктивной аналитики @Mail.Ru Group, инициатор открытого курса OpenDataScience по машинному обучению

    Всем людям свойственно косячить. Data Scientist-ы – не исключение. Поговорим о граблях, на которые наступают специалисты по анализу данных. Откуда они берутся – только ли невнимательность или неумение программировать? Или плохое знание математики? Порой эти косяки можно поправить за один вечер, а порой и весь проект может загнуться. Мы рассмотрим пример одной крупной задачи и поговорим о косяках в ней.

  • Николай

  • 15:15 – 16:00 Как работать с научными статьями

    Николай Карелин, кандидат ф.-м. наук, Lead Developer / Data Scientist @CIB

    Для того чтобы подобрать хороший алгоритм или модель для работы с данными, зачастую приходится обработать десятки, а то и сотни статей из arXiv.org, NIPS и массы других мест. Но как оценить, насколько хорошая та или иная статья? В своем докладе, я расскажу о том как статьи пишут, где и как их искать, чем отличаются публикации из разнных источников, как практически работать со статьями.

    16:00 – 16:30 Кофе-пауза

  • Артур

  • 16:30 – 17:00 Как идентифицировать токсичные комментарии

    Артур Степаненко, независимый подрядчик

    Хаки и трюки обучения нейронных сетей для классификации и анализа тональности текстов, файнтюнинг в задачах NLP, оптимизация ROC AUC и продвинутые техники ансамблирования на пример Kaggle-соревнования.

  • Александр

  • 17:00 – 17:30 Еще один вариант решения задачи Instance segmentation

    Александр Буслаев, разработчик алгоритмов компьютерного зрения @Mapbox, Kaggle Master, победитель множества соревнований по машинному обучению

    Задача instance segmentation считается на порядок более сложной, чем semantic segmentation. Обычно под эту задачу больше подходят решения, так или иначе использующие детекторы. Я расскажу, как в некоторых случаях можно свести эту задачу к более простой и обкатанной задаче семантической сегментации с классическими архитектурами encoder-decoder и победить с таким подходом в двух конкурсах.

  • Евгений

  • 17:30 – 18:00 Изобразительные лики

    Евгений Нижибицкий, руководитель направления компьютерного зрения @Rambler. Kaggle Master. Победитель и призер картиночных контестов на топкодере. Выпускник ВМК МГУ и Школы анализа данных Яндекса.

    Обзор различных ликов, обнаруженных в deep learning соревнованиях на kaggle и не только. За прошедший год докладчику не удалось поучаствовать практически ни в одном соревновании без обнаружения оных. Рассказы о том, как по недосмотру или лени организаторов занять первое место с моделью-бейзлайном или получить значительную часть ответов теста, включены. Хотелось бы верить, что по итогу выступления хотя бы на несколько людей, открывающих данные перед стаканьем глубоких сеток, станет больше.

    Регистрация закончена

    Ждем вас на Data Fest² Минск!

    Вопросы и ответы

    А нельзя обойтись без регистрации?

    Количество желающих посетить Data Fest превышает возможности площадки, поэтому мы выберем N (лучших или случайных) участников из кандидатов, основываясь на данных анкет.

    А участие точно бесплатное?

    Конференция Data Fest бесплатна для всех участников. Но вам всё равно нужно обязательно зарегистрироваться.

    А что если я не попаду в заветный список?

    Увы, ничего не поделаешь, на конференцию вы не попадете. Но не расстраивайтесь, мы планируем транслировать видео всех докладов! А еще можно присоединиться к обсуждению в Open Data Science Slack канале.

    Когда я получу приглашение на конференцию?

    Обработка заявок на участие займет какое-то время. Первую половину приглашений мы вышлем за 2 недели до конференции, а вторую – примерно за неделю.

    Будут ли доступны видеозаписи докладов после конференции?

    Мы выложим в свободный доступ все видеозаписи с презентациями спустя месяц после конференции.

    Говорите, стрим докладов можно будет посмотреть онлайн?

    Да, ссылку на трансляцию мы опубликуем прямо здесь, на сайте.

    Как будут отбираться заявки?

    Главный критерий отбора – это опыт в области data science и ваше желание посетить конференцию.

    У меня есть еще вопросы!

    Пишите напрямую организаторам: Кате из Space [email protected] и Арсению из ODS [email protected]

    Генеральный партнер

    Партнеры

    Партнер кофе-паузы

    Партнер афтерпати

    Партнер-участник

    Партнер видеозаписи

    Информационный партнер

    Организаторы

    SPACE Production – профессиональная команда организаторов IT конференций и митапов

    ODS – крупнейшее русскоязычное Data Science сообщество, более 12000 участников по всему миру