Data Fest2 Minsk – это неформальная конференция, которая объединила исследователей, разработчиков и всех, кому интересен data science во всех его проявлениях.
Читайте, как это было:
В минском ОК16 прошел Data Fest² – вторая неформальная конференция разработчиков и исследователей в сфере data science, «праздник данных и угарная тусовка», организованная командой SPACE.
В этот раз была выбрана площадка на заводе МЗОР в 1300 квадратных метров, поскольку желающих поучаствовать было в два раза больше, чем в прошлом году.
Один из организаторов мероприятия Алексей Натекин (основатель сообществ Open Data Science, DataSouls) рассказал dev.by, почему его сделали бесплатным и как открытый код помогает технологиям.
Владимир
Владимир Игловиков, Computer Vision Engineer @Lyft, PhD in Physics at UC Davis, Kaggle Grandmaster.
Как быть востребованным на конкурентном рынке труда Кремниевой Долины. Статьи, технологии, конкурсы, соратники, настрой и другие важные аспекты становления дата сайнтиста.
Арсений
Арсений Анисимович, Lead Research Scientist @Once Dating
Char-level CNN для обработки текстов: советы, трюки и подводные камни. Мы пройдемся по character-level подходам и посмотрим, можно ли сделать модель для решения специфических проблем в многоязычных ситуациях, не опираясь на большие датасеты.
Валентин
Виктор
Виктор Отлига, разработчик направления беспилотных автомобилей @Яндекс
Светофоры - один из главных типов объектов, влияющих на движение автомобиля в городе. Обычно у человека не возникает проблем с тем, чтобы определить цвет светофора и понять, как он влияет на дорожную ситуацию. А сложно ли беспилотному автомобилю справиться с задачей учёта светофоров при планировании своего поведения? Думаете, что это крайне простая и понятная задача? На самом деле, всё не так тривиально, как может показаться на первый взгляд. В докладе мы попробуем разобраться, какие есть подводные камни у этой задачи и как можно с ними бороться.
Евгений
Евгений Бабахин, Data Scientist @Profitero
Часто бывает, что удается скачать большие объемы неструктурированных данных (текстов, картинок) из открытых источников, однако возникает вопрос их разметки под конкретную задачу. Я расскажу, как с проблемой разметки и пополнения тренировочного множества справляются в компании Profitero. А также рассмотрю пример использования такого подхода в задаче по определению брендов продуктов в онлайн-магазинах.
Дима
Дима Королев, Head of Machine Learning @FriendlyData
Часто бывает, что данных — единицы или десятки гигабайт, что не очень мало, но и не очень много. В такой ситуации анализировать их с помощью sed / jq / grep / awk уже выходит слишком медленно, а заливать их в Hadoop-кластер — слишком расточительно. Я расскажу про свой опыт прохождения пути "от баша и скриптов" к нативному коду, который двумя разными способами приводит нас к возможности локально, на обычном ноутбуке, "бегать" по данным со скоростью больше гигабайта в секунду, сводя время одной итерации "идея - имплементация - обработка - результат" к единицам секунд.
Александр
Александр Радионов, руководитель сервисов Поиска и ML @2ГИС
2ГИС — справочник и карта организаций России, Украины, Казахстана и других стран, с более чем 40 миллионами пользователей в месяц. Справочник содержит миллионы организаций и каждый день их сайты меняются. Расскажем о процессе непрерывной (почти) интеграции Machine Learning-сервисов с бекендами для выверки работоспособности и отсутствия 18+ контента на сайтах компаний.
Дмитрий
Дмитрий Щегрикович, Senior Data Scientist @Wargaming, кандидат ф.-м. наук
Рассмотрю варианты применения методов кластеризации для нужд описания пользователей от идеи до финального решения на примере реальных задач команды Data Science компании Wargaming. Расскажу все тонкости продажи бизнесу идей проектов, подходы к решению непосредственно аналитических задач, проверки устойчивости решений, вид автоматизированного решения.
Денис
Денис Пирштук, Head of Data Science, Facemetrics @Facemetrics
Мы рассмотрим особенности задач, в которых камера, используется для отслеживания состояния человека, будь то его активность, эмоциональное или физическое состояние человека, и сравним возможные подходы к их решению. В этой области обычно модели обучают на датасетах, созданных в лабораторных условиях. Однако у некоторых исследователей получаются модели, которые точнее и намного более устойчивы на новых реальных данных, чем у большинства коллег. В чем же отличия?
Юрий
Юрий Кашницкий, Data Scientist команды предиктивной аналитики @Mail.Ru Group, инициатор открытого курса OpenDataScience по машинному обучению
Всем людям свойственно косячить. Data Scientist-ы – не исключение. Поговорим о граблях, на которые наступают специалисты по анализу данных. Откуда они берутся – только ли невнимательность или неумение программировать? Или плохое знание математики? Порой эти косяки можно поправить за один вечер, а порой и весь проект может загнуться. Мы рассмотрим пример одной крупной задачи и поговорим о косяках в ней.
Николай
Николай Карелин, кандидат ф.-м. наук, Lead Developer / Data Scientist @CIB
Для того чтобы подобрать хороший алгоритм или модель для работы с данными, зачастую приходится обработать десятки, а то и сотни статей из arXiv.org, NIPS и массы других мест. Но как оценить, насколько хорошая та или иная статья? В своем докладе, я расскажу о том как статьи пишут, где и как их искать, чем отличаются публикации из разнных источников, как практически работать со статьями.
Александр
Александр Буслаев, разработчик алгоритмов компьютерного зрения @Mapbox, Kaggle Master, победитель множества соревнований по машинному обучению
Задача instance segmentation считается на порядок более сложной, чем semantic segmentation. Обычно под эту задачу больше подходят решения, так или иначе использующие детекторы. Я расскажу, как в некоторых случаях можно свести эту задачу к более простой и обкатанной задаче семантической сегментации с классическими архитектурами encoder-decoder и победить с таким подходом в двух конкурсах.
Евгений
Евгений Нижибицкий, руководитель направления компьютерного зрения @Rambler. Kaggle Master. Победитель и призер картиночных контестов на топкодере. Выпускник ВМК МГУ и Школы анализа данных Яндекса.
Обзор различных ликов, обнаруженных в deep learning соревнованиях на kaggle и не только. За прошедший год докладчику не удалось поучаствовать практически ни в одном соревновании без обнаружения оных. Рассказы о том, как по недосмотру или лени организаторов занять первое место с моделью-бейзлайном или получить значительную часть ответов теста, включены. Хотелось бы верить, что по итогу выступления хотя бы на несколько людей, открывающих данные перед стаканьем глубоких сеток, станет больше.
А нельзя обойтись без регистрации?
Количество желающих посетить Data Fest превышает возможности площадки, поэтому мы выберем N (лучших или случайных) участников из кандидатов, основываясь на данных анкет.
А участие точно бесплатное?
Конференция Data Fest бесплатна для всех участников. Но вам всё равно нужно обязательно зарегистрироваться.
А что если я не попаду в заветный список?
Увы, ничего не поделаешь, на конференцию вы не попадете. Но не расстраивайтесь, мы планируем транслировать видео всех докладов! А еще можно присоединиться к обсуждению в Open Data Science Slack канале.
Когда я получу приглашение на конференцию?
Обработка заявок на участие займет какое-то время. Первую половину приглашений мы вышлем за 2 недели до конференции, а вторую – примерно за неделю.
Будут ли доступны видеозаписи докладов после конференции?
Мы выложим в свободный доступ все видеозаписи с презентациями спустя месяц после конференции.
Говорите, стрим докладов можно будет посмотреть онлайн?
Да, ссылку на трансляцию мы опубликуем прямо здесь, на сайте.
Как будут отбираться заявки?
Главный критерий отбора – это опыт в области data science и ваше желание посетить конференцию.
У меня есть еще вопросы!
Пишите напрямую организаторам: Кате из Space [email protected] и Арсению из ODS [email protected]
Data Fest Minsk 2017 прошел в минском Парке высоких технологий. Смотрите, как это было: 237 снимков и 10 видео.