Текст уведомления здесь
Профессор Сколтеха Евгений БурнаевФото: из архива Евгения Бурнаева

«Важно, чтобы в какой-то момент не было объявлено: "Сейчас все запретим" — тогда точно ничего хорошего не получится»

Евгений Бурнаев — об актуальных задачах машинного обучения, непристроенности российских больших данных и трудностях создания сообщества дата-сайентистов в России

В августе — сентябре этого года в России впервые состоится Международная летняя школа по машинному обучению, на которой 14 исследователей будут читать студентам лекции и проводить семинары о самых передовых областях этой технологии. «Чердак» побеседовал с организатором школы, профессором Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных Евгением Бурнаевым о том, какие задачи сегодня стоят перед специалистами по машинному обучению и с какими трудностями сталкивается развитие этих технологий в России и в мире.
Добавить в закладки
Комментарии

[Ch.]: Каковы сейчас глобальные тренды в машинном обучении?

[Б]: Движение идет с двух сторон. С одной стороны, отечественные и зарубежные компании собирают данные и начинают активно применять методы предиктивной аналитики и машинного обучения. Данные собирают, например, в индустриальных процессах или при обработке пользовательской информации. На их основе строят предиктивные модели, с помощью которых можно заработать деньги, например более прицельно предоставляя пользователям услуги или оптимизируя производство. Это процесс «снизу». Но есть и процесс «сверху» — мировая тенденция к информатизации общества. Такими задачами и государство занимается. Например, в России сейчас идет разработка национальной стратегии в области искусственного интеллекта (ИИ). Это естественное эволюционное развитие, вызванное появившимися возможностями сохранять и обрабатывать огромные объемы данных. Если вы и так данные собираете и их накопилось много, встает вопрос, можно ли на их основе сделать что-то полезное. Сложность обработки этих данных снижается в том числе и потому, что дешевеют вычислительные ресурсы. Сегодня даже студент может за сравнительно небольшие деньги арендовать мощный сервер у той же компании Amazon и строить на нем предиктивные модели. Зачастую даже глубоких математических знаний не нужно, потому что многие библиотеки для построения моделей есть в открытом доступе и достаточно автоматизированы. Но главные прорывы совершаются все-таки за счет науки: возможности поисковиков «Гугл» и «Яндекс», беспилотные автомобили, голосовые помощники, приложения дополненной и виртуальной реальности основаны не только на новых возможностях вычислительной техники, но и на развитии новых технологий, таких как машинное обучение и глубокие нейронные сети, их приложениях для обработки видео, изображений и текста, речевых сигналов, методах параллельной обработки информации и т.п.

[Ch.]: Россия отстает от мировых тенденций или идет вровень? Или обгоняет?

[Б]: Много ученых в 90-х и позже перестали заниматься исследованиями, а часть  эмигрировала. Кроме того, существенно снизился спрос на «наукоемкую» продукцию, который в советское время частично определялся потребностями оборонных отраслей промышленности. Это естественным образом вызвало отставание России, хотя в некоторых, в основном теоретических, исследованиях еще сохранился конкурентоспособный потенциал. Однако определенная критическая «научная масса» еще есть, и сейчас делаются попытки восстановить научную среду.

[Ch.]: Какие попытки?

[Б]: Банально становится больше финансирования, появляются грантовые программы. По сравнению с тем, что было 10 лет назад, стало гораздо лучше. Это с одной стороны. С другой — есть математическая школа, и математическая подготовка достаточно хорошая, а это одна из важнейших компонент в подготовке специалистов по анализу данных, в этом смысле дела идут неплохо. В центральном регионе есть научные сообщества, в которые приходят молодые ребята, интересующиеся машинным обучением.

Но в целом общая картина не слишком радужная. Во-первых, в России конференций по теме машинного обучения очень немного, в отличие от той же Европы. Взять Францию или Германию — там событий, связанных с машинным обучением, намного больше. Та же Летняя школа машинного обучения проводилась во Франции, Германии, Испании и других странах уже 36 раз с 2002 года. А в России мы впервые собираемся ее проводить. Вторая проблема — есть большое количество молодых людей, интересующихся машинным обучением и имеющих желание заниматься научными изысканиями, но не так много профессуры среднего возраста, которая бы из этих студентов могла формировать полноценные научные группы, которые бы не просто пользовались методами, разработанными где-то и кем-то, но и создавали новые.

СПРАВКА «Чердака»
Международная летняя школа по машинному обучению (Machine Learning Summer School, MLSS) впервые пройдет в Москве с 26 августа по 6 сентября 2019 года, принимающей стороной и соорганизатором события выступит Сколковский институт науки и технологий (Сколтех). В программе MLSS 2019: 14 лекций и семинаров от экспертов с мировым именем, постерная сессия и презентации представителей индустриальных компаний об актуальных разработках в области ML. Рабочий язык школы
— английский.

[Ch.]: Потому что профессора вымываются в индустрию?

[Б]: Да, и студенты, которые могли бы стать профессорами, тоже вымываются. Ребята уходят в «Яндекс», Mail.ru и ряд других компаний за зарплатами. А они могли бы стать исследователями и новыми профессорами и проводить в том числе фундаментальные исследования в интересах этих же компаний, ведь сами компании в силу объективных причин готовы проводить такие исследования в достаточно ограниченном объеме и только при ожидаемом близком результате. Кто-то уезжает. Мало академической прослойки. Еще проблема — частное финансирование. Я получаю на Летнюю школу машинного обучения спонсорскую помощь от московских компаний, но это совершенно не те размеры, которые компании в той же Америке предоставляют университетам. Более того, чтобы какая-то крупная компания вкладывалась у нас в эндаумент университета — это весьма нетипичная история.

[Ch.]: Нет такой культуры?

[Б]: В царской России определенные меценаты были, в СССР они не требовались, потому что была совершенно другая система, а сейчас такого рода инициативы, видимо, еще не успели в полной мере зародиться. Четвертая проблема — вычислительные мощности. Google, например, построил огромные вычислительные мощности под свои инициативы, связанные с ИИ. Там используются не только стандартные серверы с графическими карточками, но и специализированная архитектура, которую они сделали под свои задачи. Это вещь, без которой прорывные технологии ИИ невозможны.

[Ch.]: В России ничего подобного нет?

[Б]: В России есть отдельные островки. В Сколтехе, например, сделали кластер «Жорес», хорошо заточенный под машинное обучение. Там более сотни передовых графических карточек для обучения нейронных сетей, связанных специальным интерфейсом. В «Яндексе» есть нечто подобное, Samsung недавно открыл в Москве исследовательский центр — там тоже определенные вычислительные мощности развернуты, в Иннополисе, может быть. Естественно, значительные вычислительные мощности есть в МГУ и в Курчатовском институте. Но это не носит системный характер и совершенно не покрывает имеющихся потребностей.

В целом «питательную среду» еще очень долго строить. Грубо говоря, если просто вбросить денег в разработку конкретной «железки» и найти подходящие кадры, в определенной ситуации это может сработать. Другое дело — начинать работу на долгую перспективу, чтобы в итоге получить новые технологии, которые в будущем будут задавать тренды развития общества, как сейчас стало с глубоким обучением и нейронными сетями. Фактически со школы надо находить людей, потом воспитывать их в университете. Потом кто-то из них пойдет в академию, чтобы процесс самовоспроизводился. А кто-то и в индустрию пойдет, иначе зачем все это, ведь именно приложения и мотивируют развитие методов машинного обучения. В СССР такими школами были Колмогоровский интернат при МГУ, лицеи при МФТИ, ВШЭ, НГУ, но этот процесс еще настраивать и настраивать. Опять-таки необходимо взаимодействие бизнеса и образования. Многие компании начинают это осознавать и участвовать в совместных программах обучения.

Профессор Сколтеха Евгений БурнаевФото: Из архива Евгения Бурнаева

[Ch.]: Что сейчас в машинном обучении актуально? Какие задачи пора решать, над какими работают студенты?

[Б]: Сложно сказать однозначно. Актуальных, практически значимых и востребованных задач огромное множество. Во-первых, «регулярные» задачи — это когда нужно сделать конкретную разработку, модель. Например, есть сложная инженерная система, скажем машина, и вы должны спрогнозировать, износились у нее тормоза или нет. Для этого вы используете показатели сенсоров, которые в машине уже установлены, то есть не требуются дополнительные расходы на установку датчиков. На основе этих данных вы строите модель и используете ее прогнозы для рекомендаций владельцам машин, когда надо заменять тормоза. Можно построить прибыльный сервис. Такая задача, скорее всего, не потребует передовых методов машинного обучения — надо будет просто грамотно использовать имеющиеся. В будущем надо разработать расчетные цепочки для решения таких «регулярных» задач, так чтобы построение моделей было относительно рутинным и в значительной мере автоматизированым, и сейчас такие научные исследования ведутся.

Другие серьезные научные исследования — это вопросы, связанные с вычислительными архитектурами, типичный представитель которых — глубокие нейросети. С ними действительно много нерешенных вопросов. Как, например, обучать нейросети, которые бы работали на мобильном телефоне и распознавали объекты через камеру. Дело в том, что нейросеть требует много памяти и будет потреблять много ресурсов, так что батарея быстро сядет. Необходимо либо сжать нейросеть, чтобы ее было возможно сохранить в памяти смартфона и использовать для прогнозирования, либо же разработать алгоритм обучения, чтобы нейросеть удовлетворяла этим требованиям сразу в результате обучения. Есть и другая проблема: люди плохо понимают, почему нейросети работают. Коэффицентов, которые определяют нейросеть, — сотни миллионов. Нужно очень много данных, чтобы оценить эти коэффиценты и соответствующая нейросеть могла решать конкретную задачу — распознавать изображения, искать котиков в интернете, управлять автомобилем. Казалось бы, с таким большим количеством параметров нейросетевая модель не должна после обучения на выборках данных ограниченного объема хорошо прогнозировать, однако практические результаты противоречат теоретическим оценкам.

[Ch.]: То есть нейросети работают лучше…

[Б]: ...Чем предсказывает теория. Потому что теория, которая сейчас есть, не достаточно адекватна реальности. Возникает вопрос, как теорию уточнить, чтобы она действительно отражала те эффекты, которые мы наблюдаем на практике. Чтобы мы могли сказать, что для такого-то количества и качества фотографий, если на нем обучить нашу нейросеть, мы сможем распознавать котиков вот с такой-то точностью.

Другая проблема, связанная с предыдущей: из-за того что в нейросети очень много параметров, потенциально ее можно «обмануть». Представьте себе, что вы возьмете фотографию знака «Стоп» или «Ограничение скорости до 20 км/ч» и наложите на нее маленькое искажение, которое глазу даже не заметно. (См. статью «Битва нейросети и лидара»прим. ред.) Это может привести к тому, что нейросетевая модель примет этот знак за ограничение скорости не до 20 км/ч, а, допустим, до 80 км/ч, и это может иметь неприятные последствия, если машину ведет автопилот. Конечно, это тоже нетривиальная задача, вы же не будете на знаке рисовать искажения, вам нужно иметь доступ к камере, с которой нейросеть получает данные, знать, что за тип нейросети используется, и т.п. Но потенциальная возможность существует, а раз так, найдутся и злоумышленники. Это борьба брони и снаряда. Мы должны придумать робастные алгоритмы для нейросетей, то есть такие, которые сложно обмануть. Если кто-то решит таким способом обманывать, это не будет работать или потребует значительных усилий.

Другая задача — то, что называется обучением с подкреплением, то есть создание автомата, который может в некой среде, например в компьютерной игре, решать задачи не хуже или даже лучше, чем человек. Это шажок в сторону общего ИИ. Вообще, у термина ИИ такая коннотация, что все думают о Терминаторе, но на практике ИИ — это в первую очередь автоматизация рутинных процессов. Например, есть процесс принятия решения о том, сколько легирующих добавок надо добавить при плавке стали. Металлург использует стандартные табличные рекомендации и «на глаз» оценивает, чего и сколько надо добавить, чтобы получилось «хорошо». Но человек может ошибаться, и в этих случаях полезно второе мнение, тут и нужен ИИ.

Обучение с подкреплением использует нейросеть, которая будет оценивать, что происходит, например, в игре, и делать действия, направленные на получение наибольшего выигрыша. Здесь есть проблема: как правильно настраивать нейросеть, чтобы такой процесс обучения сошелся. Есть много нерешенных задач. Например, человек может использовать долгосрочные стратегии. А как реализовать такие долгосрочные стратегии в виде нейросетевого алгоритма? В общем, обучение с подкреплением — один из вызовов, который позволит приблизиться к общему ИИ, не просто автоматизации чего-то, а чему-то более разумному.

[Ch.]: То есть обучение с подкреплением — это наиболее передовой способ машинного обучения?

[Б]: Я бы не сказал. Безусловно, оно найдет много применений в будущем, но сейчас в индустриальных задачах такие алгоритмы мало применяют, потому что пока они еще неэффективны. Например, как бы нейросеть решила ту же задачу выплавки стали в рамках обучения с подкреплением? Она делает случайные действия, то есть добавляет случайное количество легирующих добавок и получает результат, который не будет соответствовать ГОСТу. Потом она оценивает, что еще надо добавить или убавить, чтобы качество стали в конце цикла плавки улучшилось. Этот процесс повторяется до тех пор, пока не будет понятно, чего и в каких количествах надо добавить, чтобы получилась хорошая сталь. Но таких попыток должны быть миллионы. Понятно, что ни в каком производственном процессе такое делать нельзя, поэтому системы на основе обучения с подкреплением пока еще далеки от внедрения в реальную практику. Вы можете делать это только там, где есть возможность повторять процесс обучения без экономического ущерба.

В промышленности сейчас используется скорее обучение с учителем, когда есть размеченная выборка. Ее либо эксперты делают, либо добровольцы-асессоры через систему Mechanical Turk или Толока от «Яндекса». А обучение с подкреплением возможно пока только в компьютерных играх, потому что их можно проигрывать сколько угодно раз и программа может играть сама с собой. Если удастся симулировать производственный процесс, то можно обучаться и на симуляциях, но до этого пока далеко.

Таким образом, многие передовые темы в машинном обучении сейчас связаны с нейросетями. В научной группе Advanced Data Analytics in Science and Engineering в Сколтехе, которой я руковожу, есть несколько направлений работы. Часть из них связана с использованием глубокого обучения: мы занимаемся задачами компьютерного зрения для обработки 3D-данных (данные с лидаров, систем структурированного света, МРТ/фМРТ-изображения). Такого рода решения нужны как для обработки медицинских данных, так и для приложений дополненной и виртуальной реальности, робототехники. Естественно, мы работаем со всеми указанными выше проблемами — делаем решения и для сжатия нейросеток, и новые алгоритмы их обучения, и алгоритмы для автоматического подбора нейросетевой архитектуры. Но мы не забываем и о более классических методах машинного обучения, которые чаще применяются в задачах предиктивной аналитики, а также о новых направлениях развития. Например, проникновение в машинное обучение геометрических и топологических методов. Моделирование многообразия данных, топологический анализ данных и тому подобное стало одним из важных трендов мировой науки в ИИ и является одним из направлений исследования в моей научной группе. Полученные результаты уже используются при анализе коннектома человеческого мозга и применяются в конкретных медицинских приложениях.

[Ch.]: У социальных сетей типа Facebook много данных о пользователях. Значит ли это, что, если они используют на своих данных нейросети, те будут быстрее развиваться?

[Б]: Да. Это, так сказать, дух времени. У Google, Facebook и других компаний огромное количество пользовательских данных. Часть из них уже размечена, потому что ты сам написал на фото: «Это Вася», «Это Маша». Указал в соответствующих разделах дату своего рождения, интересы — это все разметка данных. Или вот люди выкладывают в сеть фото кошечек, указывают, что вот, мол, это моя кошечка. А потом можно такие фото из соцсети собрать, и получится выборка, на которой можно обучить нейросеть отличать фото с кошечками от других.

В Facebook был флешмоб «10yearchallenge», когда все выкладывали фото себя сейчас и 10-летней давности. Я допускаю, что его могли запустить целенаправленно. Ведь можно потом собрать фото по тегам, и вот у тебя человек до и после — можно кучу задач решить! Можно построить нейросеть, которая будет человека автоматизированным образом старить, выделяя общие паттерны старения. Или можно разработать, например, приложение-фоторедактор. Компании активно вкладываются в развитие таких приложений. В этой сфере много новшеств, множество научных коллективов над этим работает.

[Ch.]: Как вы считаете, тот факт, что крупные компании собирают данные о пользователях, — это неизбежность? Можно ли каждый раз давать согласие на сбор своих данных или хотя бы деньги за это получать?

[Б]: Это неизбежность. Вы таскаете смартфон, который напичкан датчиками, он все равно будет о вас все собирать. Но может все и не так плохо. Открытость позволит снизить количество каких-то махинаций и взяточничества. Мне как человеку, который занимается развитием всех этих методов, важно, чтобы не получилось так, чтобы в какой-то момент было объявлено: «Сейчас все запретим, и — не пущать». Тогда точно ничего хорошего не получится.

[Ch.]: Всё ведь к этому и идет.

[Б]: Cложно сказать. Общий регламент по защите данных первым появился в Европе. У нас его пока нет. Этот регламент ограничивает использование персональных данных. Если раньше стартапы могли на основе анонимных пользовательских данных делать рекомендации каких-то услуг, то сейчас с этим большая сложность — надо получать определенные разрешения. Для отдельного гражданина это может и неплохо — закон защищает частную жизнь. Но по факту единицы людей волнуются по поводу того, что информация о них куда-то попадет, — большинство этот факт мало волнует. В Китае другой подход: там все данные, которые собираются, принадлежат государству, и оно что хочет, то с ними и делает. Это два полюса, истина где-то посредине. Лично мне идеально, когда я могу любые данные получить и провести на них исследование. Но должны, конечно, быть и разумные запреты на использование чувствительной, например медицинской, информации. Сейчас с этим все непросто. Есть много государственных данных в том же Министерстве финансов или Минздраве, которые просто лежат без дела. А это, на самом деле, большая ценность — их можно было бы использовать. Должны быть инициативы по правильному сбору и хранению данных.

[Ch.]: То есть у нас хорошо бы сначала сбор и хранение наладить?

[Б]: Это не то чтобы только у нас, это во всем мире. Взять медицинские данные. В США все данные, собранные в конкретном госпитале, там же и хранятся и этому госпиталю принадлежат. Есть в США проект по обработке данных о человеческом мозге. Так вот, в этом проекте данные не хранят/собирают в одном месте — проект просто объединяет различные организации, каждая из которых обладает определенными данными и, вообще говоря, ими не делится.

В России с этим проще, но есть другая проблема: непонятно, как организовывать централизованный сбор, хранение и доступ. Поэтому прежде чем внедрять машинное обучение и решать конкретные задачи, необходимо срочно решать проблему регулярного сбора и хранения разных типов данных. Надо понять, какие вообще нужны, так как все собирать нельзя.

Инициативы по продаже данных тоже уже есть. Насколько я знаю, в некоторых банках в Европе можно предоставить какие-то свои персональные данные и за это получить, например, скидку на кредит. Может быть, со временем появятся и биржи данных, как сейчас биржи акций. Можно будет продать данные анализа своего генома. Или вот есть у вас тысяча снимков кариеса — можете продать их компании, которая разрабатывает программу для детектирования кариеса по снимкам. Нетривиальная задача — оценить, сколько эти снимки будут стоить.

[Ch.]: Сейчас на нейросети возлагают надежды, что они начнут думать, как человек, разовьют интеллект. Но по факту они ведь не умеют думать — могут только воспроизводить типовые вещи

[Б]: Я не берусь прогнозировать, футурологические прогнозы — это не мое.

[Ch.]: Да, их делают чаще писатели, а когда спрашиваешь у людей, которые занимаются нейросетями профессионально, они как-то очень скептически настроены.

[Б]: На нейросетях свет клином не сошелся. Да, за них дали премию Бенджио, Хинтону и Ле Куну, понятно почему — они в конце 80-90-х очень активно занимались нейросетевыми алгоритмами, но вычислительные мощности тогда были не очень, поэтому они получали средненькие результаты. В некоторых классах задач нейросети не лучший способ решения, и тогда они проигрывали другим методам. Поэтому лет 10 назад эти ученые воспринимались как... ну просто ученые, которые занимаются еще одним классом моделей машинного обучения. Тогда думали, что к 2014 году про нейросети все забудут. Но, как видите, этого не произошло. Как раз в районе 2012 года выросли вычислительные мощности и для нейросетей появились большие размеченные выборки данных, особенно для задач классификации изображений. И оказалось, что нейросети определенные задачи способны решать с высокой точностью, даже большей, чем у человека. Бенджио, Хинтон и Ле Кун свои исследования не бросали, продолжали развивать вопреки тогдашним тенденциям и получили много новых важных результатов в области нейросетевых моделей.

Способности интеллекта грубо можно разбить на некоторые части, которые по отдельности умеют, например, транслировать мысли из головы в речь или визуальные образы трансформировать в действия или в текст. И нейросети какие-то из этих задач, пусть не всегда точно, но уже могут решать. Поэтому, когда говорят об ИИ, вспоминают про нейросети, но, естественно, до какого-то полноценного ИИ еще далеко. Может быть, таким связующим звеном станет как раз технология обучения с подкреплением, которая объединит разные нейросети, умеющие решать разные задачи — обработку речи, текста, видео, и т.п., но до этого еще далеко.

[Ch.]: Когда люди идут учиться на специалиста по машинному обучению, чему именно они учатся и что должны уметь?

[Б]: Обычно обучение таким вещам начинается на 3-4-м курсе, потому что необходимо иметь базовые знания — основы теории вероятности, вычислительной математики, статистики. То, на чем строятся алгоритмы анализа данных. Естественно, программирование. А на 4-6-м курсе студенты изучают специальные вопросы — алгоритмы машинного обучения, почему они работают, с какой точностью; узнают разные хитрости, как обучить нейросеть и получить какой-то разумный прогноз. Обучение нейросетей и выбор их архитектуры пока еще не формализованный процесс.

[Ch.]: То есть это отчасти интуитивный процесс?

[Б]: Да, нужна определенная интуиция, это еще не автоматизировано, надо делать много экспериментов, в том числе используя и вычисления на кластере, чтобы подобрать эффективную нейросетевую архитектуру под конкретный класс задач. Конечно, надо знать дополнительные разделы математики, например основы топологии, которые необходимы в методах топологического анализа данных, если вы хотите быть не просто инженером, который что-то готовое применяет, а разработчиком новых методов. Правда, специальная литература, которую надо читать, появляется сейчас с бешеной скоростью. Я был на конференции NIPS в Канаде, там было 4-5 тысяч участников и у каждого четвертого — публикация. То есть прошла конференция — считай, появилась тысяча новых статей, а таких основных конференций в год проходит штук шесть.

[Ch.]: В чем идея школы по машинному обучению, которую вы устраиваете?

[Б]: В том, о чем я уже говорил в начале интервью. Не хватает прослойки людей, которые могли бы студентов куда-то направить. Например, рассказывать про глубинное 3D-обучение, обучение с подкреплением или топологический анализ данных. А тут приезжают 14 ученых, которые этими передовыми областями машинного обучения занимаются и считаются в них общепризнанными мировым сообществом экспертами. Эти профессора будут в течении двух недель студентам читать лекции и семинары. Мне кажется, для студентов из России это очень важное событие!

Добавить в закладки
Комментарии
Вам понравилась публикация?
Расскажите, что вы думаете, и мы подберем подходящие материалы