Поймется все

Что данные сервисов «Яндекса» могут рассказать о мире?

Изображение: LovArt / Фотодом / Shutterstock

Каждый день мы оставляем за собой цифровые следы: заказываем такси, проверяем погоду, ищем книги, фильмы и даже толкования снов. Наталия Крупенина, руководитель отдела внешних исследований «Яндекса», рассказала, как и зачем делать красивые истории из этих разрозненных данных.

Толкования снов, погодные приметы, карта мультфильмов. Зачем все это «Яндексу»?

— Во-первых, у «Яндекса» есть столько интересных данных, которые многое говорят об окружающем мире, что не делиться ими просто нельзя. Во-вторых, нам важно, чтобы в медиаполе присутствовала аналитика, в качестве которой мы уверены, — корректная, использующая большие массивы данных, описывающая реальные зависимости. Ну а в-третьих, это еще один способ показать людям, что вообще можно искать и находить в интернете.

— И вы не получаете никаких денег с этой аналитики?

— Нет, исследования «Яндекса» — некоммерческие, у нас нет цели зарабатывать на этом проекте. Если бы мы делали коммерческий продукт, что вполне возможно для подобных исследований, он бы выглядел несколько по-другому. Больше цифр и графиков, меньше красивых картинок. Например, в 2014 году на данных «Яндекс.Новости» мы сделали карту российских СМИ по близости их аудиторий. Среди прочего выяснилось, что у деловых изданий больше общей аудитории с городскими, а у сайтов крупных телеканалов и информагентств — с популярными федеральными газетами.
Эта информация была очень интересна и издателям, и журналистам, и рекламным агентствам. Они понимали, что это не просто замеры или опросы, а прямой сигнал — неосознанный и поэтому более качественный и достоверный.

Некоторые издания тогда говорили, что хотят поменять стратегию, чтобы стать ближе, например, к «Коммерсанту» и «Ведомостям» и уйти из ниши общественных изданий. Хотя мы показывали только общую картину, без подробностей для каждого конкретного издания. Многие до сих пор приходят с вопросами, хотя все уже давно поменялось. Мы не просили деньги за это исследование, не делали из этого никакого бизнеса и не планируем тут ничего менять.

— А могут журналисты обращаться к «Яндексу» за помощью для своего материала?

— Да, если журналист пишет какую-нибудь историю и просит цифры для нее, основанные на данных наших сервисов. С помощью данных мы можем доказать какой-нибудь факт и гарантировать это доказательство своим именем. Например, был период, когда зашкаливали вопросы про пробки: как поменялся автомобильный трафик после постройки какого-нибудь моста или ввода в строй новой развязки. «Яндекс.Пробки» — самый популярный геосервис в Москве, у него накоплено огромное количество данных, так что мы можем ответить на подобные запросы достоверно. Но мы никогда не даем цифры, если не уверены в их достоверности или в том, что они отражают реальность.

Изображение предоставлено пресс-службой «Яндекса»


Источники и методы

В 2013 году американские исследователи показали, что Twitter хорошо подходит для измерения уровня счастья людей. Они собрали базу твитов на 80 миллионов слов и проанализировали эмоциональную окраску каждого сообщения по шкале от 1 (очень грустно, в твите много слов вроде «землетрясение», «депрессия» или «смерть») до 9 (счастливый твит: много «радуг», «любви» и «пляжей»). В результате оказалось, что самый счастливый штат США — это Гавайи, а средний уровень счастья в твитах того или иного города хорошо коррелирует с разными социологическими показателями: например, чем больше единиц оружия зарегистрировано на душу населения, тем более печальными в среднем будут посты.

— С какими данными вы работаете?

— Основной источник — это данные наших сервисов. В первую очередь, обезличенные поисковые логи, в которых записываются поисковые запросы к «Яндексу» и все сопутствующие данные. Для каждого запроса делается огромная запись. Кроме собственно текста запроса она содержит регион, откуда он был задан, время, тип устройства, разнообразную техническую информацию и так далее. На первый взгляд, поисковый лог может показаться бессмысленным набором символов, но аналитики, которые умеют с ним работать, могут вытащить оттуда все, что нужно. Кроме запросов мы часто используем данные геотрэкинга — время, координаты, маршруты, данные «Яндекс.Маркет» о товарах, архив «Яндекс.Погода».
В общем, данных хватает: в «Яндексе» все сервисы увешаны приборами, счетчиками и метриками, без которых компания просто не смогла бы развиваться.


— А как работать с поисковыми логами? Что оттуда можно вытащить?

— Самый простой способ — маркеры. Можно собрать слова или словосочетания, которые характеризуют ту или иную тему, и посмотреть на статистику запросов с этими словами. Так мы делали в исследовании про сны, где смотрели, толкования каких сновидений россияне чаще ищут в интернете. Сны — очень четкая тема, которая предполагает ограниченный набор маркеров, так что мы смотрели запросы со словами «сонник» и «к чему снится» (или «к чему сниться» и другие варианты написания с ошибками). Когда тема более общая, нужен уже другой подход. К примеру, если речь идет о туризме. Есть «туристические» слова — «гостиницы», «путевки», «билеты», хотя с «билетами» уже возникнут проблемы: нужно будет исключить запросы, связанные с театрами или экзаменами. Но очень много туристических запросов содержат просто названия курортов или гостиниц. Так что в результате список маркеров будет либо неполный, либо очень большой, из нескольких тысяч записей. Через поиск каждый день проходит около 280 миллионов запросов, так что проверять тысячи маркеров невозможно. Мы использовали другой способ — взяли самые популярные и авторитетные ресурсы о туризме и выбрали те поисковые запросы, по которым на первой странице результатов поиска были ссылки на эти ресурсы.

— Насколько достоверны ваши исследования?

— Мы стараемся делать только те выводы, в которых уверены. Понятно, что мы работаем только с данными пользователей интернета. Но для того, чтобы показать общую картину или какую-то общую зависимость, проникновение интернета в России уже вполне достаточное. При этом мы, конечно, меньше знаем про небольшие города и сельскую местность — там меньше пользуются интернетом.
Мы очень внимательно относимся к методологиям исследований, все проверяем и в публичных материалах аккуратно описываем, как что посчитано. Некоторые наши работы остаются неопубликованными, потому что мы не хотим показывать недостоверные цифры. Так что у нас есть некоторая борьба между интересами журналистики и требованиями аналитиков.

— Кто работает в отделе исследований?

— У нас пять аналитиков и два дизайнера-иллюстратора. Образование у всех разное: я лингвист, кто-то закончил философский факультет, кто-то — международную журналистику в МГИМО. Нам всегда очень сложно найти людей. Во-первых, они должны уметь работать с данными и понимать, что при этом необходимо придерживаться строгих правил, а во-вторых, у них должна быть и гуманитарная составляющая. За данными нужно еще разглядеть историю. Поэтому к нам, как правило, приходят люди с экзотическим жизненным опытом.

Изображение предоставлено пресс-службой «Яндекса»

От мультиварок до мельдония

Маркетологи «Яндекса» любят рассказывать одну историю. По их данным, все пользователи рунета в своей поисковой активности неплохо разбиваются на две группы: одни смотрят телевизор в среднем больше часа в день и чаще среднего ищут в интернете «шарлотки», «лотереи», «Спартак» и «пиво», а другие, напротив, телевизор почти не смотрят и ищут все сплошь «книги», wi-fi, «визы» и «авиабилеты». Более четких выводов по этой истории «Яндекс» никогда в открытую не представлял, но одно понятно точно: история поисковых запросов может очень много рассказать про человека.

— Что данные «Яндекса» могут рассказать нам о мире?

— В поисковых запросах скрыто очень много информации. Когда в мире появляется что-то новое — мультиварки, роботы-пылесосы, «Исламское государство» (запрещено в РФ), мы сразу видим это в поиске. Мы видим сезонность некоторых явлений: зимой ищут обогреватели, а летом — кондиционеры, мы видим сиюминутные колебания популярности, мы видим резкие взлеты интереса к каким-то событиям или объектам. Из данных «Яндекса» выпадают только какие-то совсем бытовые вещи вроде хлеба — его все привыкли покупать в соседнем магазине, а не заказывать по интернету или не искать по всему городу. Поэтому подорожание хлеба мы в поиске скорее всего не увидим, а вот подорожание других товаров или, к примеру, рост цен на отдых — вполне.

— Вам попадаются какие-нибудь совершенно неожиданные вещи?

— Мы сейчас делаем исследование про мемы и взяли в качестве одного из примеров мельдоний. Для меня неожиданно было, что после истории с допингом люди стали чаще искать не собственно что-то скандальное, а инструкцию по применению мельдония: если раньше запрос «мельдоний инструкция» нам задавали, грубо говоря, десятки раз в день, то сейчас — тысячи. Еще одна интересная история — это исследование про товары, на которых покупатели стали экономить с наступлением кризиса, основанная на статистике запросов со словом «дешевле». Оказывается, что больше всего люди стали экономить на лекарствах, а вот, например, запросов о дешевых такси наоборот стало меньше — может быть, стало больше разных доступных агрегаторов такси или, может, в кризис люди, раньше искавшие такси подешевле, просто вообще перестали им пользоваться.

Изображение предоставлено пресс-службой «Яндекса»

Ускользающие цифры

В 2014 году сборная Германии в третий раз в своей истории стала чемпионом мира по футболу, одолев в финальном матче аргентинцев: 1—0. Та игра получилась не слишком яркой (хотя на протяжении турнира у немцев были и впечатляющие победы вроде разгрома бразильцев 7—1), и, возможно, это не случайно: большую помощь немецкой машине, традиционно заточенной на результат, тогда оказала компания SAP, производящая программное обеспечение для крупных клиентов. Они подготовили для сборной Германии удобную программу, выжимающую из каких-нибудь 10 минут игрового времени до семи миллионов микрособытий (движение каждого игрока, работа с мячом и т.д.) и объединяющую их во внятную, понятную аналитику.

В результате во время подготовки к чемпионату немцы смогли снизить среднее время владения мячом каждого игрока с 3,4 до 1,1 секунды (такая скорость принятия решений стала по мнению игроков ключевой для их победы), а на случай послематчевых пенальти немецкие вратари отлично знали, в какой угол и с какой силой бьет каждый из их соперников.

— Насколько честно, на ваш взгляд, описывать окружающий мир только с помощью цифр и упаковывать в них самые разные сложные явления?

— Мы не говорим, что это отдельный, полностью самодостаточный подход — журналистику данных можно и нужно совмещать с классической журналистикой, с текстами, репортажами, интервью с экспертами, это только еще один сильный инструмент. И меня очень привлекает то, что с исследованиями, подобными нашим, нечеткое гуманитарное знание стало хотя бы в первом приближении исчислимо. Например, несколько лет назад мы делали исследование про поэтов и смотрели, чьи стихи ищут чаще всего в поиске. Так мы получили возможность увидеть самых главных поэтов для россиян и понять, чья популярность зависит от школьной программы, а чья — нет. Или, например, то же самое исследование про сны. Эта абсолютно иррациональная и эзотерическая тема воплощается в цифрах. Или еще у нас есть материал про правописание — по сути, перечень самых сложных для людей правил русского языка, причем не для школьников перед экзаменом, а для всех и в повседневной жизни.

— Вам никогда не хотелось вернуться в гуманитарную науку и применить эти новые подходы там?

— У меня были такие мысли, да. Если во времена учебы в институте я знала хотя бы часть тех методов, которые мы используем сейчас, все было бы гораздо лучше и гораздо интересней. Конечно, лингвистика уже давно связана со статистикой и современными методами анализа, но сейчас все стало гораздо проще и доступнее: появилось много готовых инструментов визуализации, есть удобные и очень мощные языки программирования, тот же Python. Сейчас на построение частотного словаря текста у любого нашего аналитика уходит ровно пять минут, а раньше это была куда более длительная и кропотливая работа, и мне с моими исследованиями письменной речи даже в голову не приходило, что может быть как-то по-другому.

Изображение предоставлено пресс-службой «Яндекса».

Доказательная журналистика

В жизни элитарных японских сумоистов очень многое зависит от их выступлений на крупных турнирах, которые проходят примерно раз в месяц и обычно состоят из 15 поединков. Суть очень простая: выигрываешь более половины встреч (восемь и более) — получаешь солидную прибавку в рейтинге, гонорарах, почете и уважении, проигрываешь — теряешь рейтинги, гонорары и т.д. При этом уровень многих сумоистов практически одинаковый, поэтому очень часто их судьба решается в финальных поединках, где, как выяснили экономисты, в ход идут разные подковерные интриги. Они собрали данные по поединкам с января 1989 года по январь 2000 года (32 тысячи схваток, 280 борцов) и показали, что в поединках, где сходятся борцы с результатами 8:6 (уже гарантировали себе успешный турнир) и 7:7 (все висит на волоске) наблюдается странная аномалия: бойцы с рискованной статистикой (7:7) выигрывают почти 80% таких поединков, в то время как должны побеждать примерно в 50% случаев.

Кто-то может сказать, что в этом нет ничего удивительного, — настоящий спортсмен должен уметь собираться в решающий момент и побеждать немотивированного соперника, но факты не поддерживают эту версию: похожая аномалия наблюдается во встречах спортсменов с результатами 9:5 против 7:7 и пропадает, когда на ринг выходят сумоисты со статистикой 10:4 (им уже есть что терять: не просто хорошее, а отличное выступление на турнире может принести дополнительные призы и награды). Кроме того, сумоисты, победившие в решающих схватках, на следующих турнирах как будто сразу возвращают своим соперникам долги: сумоист A, выигравший решающую встречу у сумоиста B, на следующем турнире уже проиграет ему с вероятностью 60%. Все вместе эти цифры заставили японские правоохранительные органы начать расследование, вскрывшее грандиозную коррупционную сеть, стоящую за борцами сумо.

— Материалы журналистики данных предельно доказательны: вот цифры, вот факты — они не врут. Может такая доказательная журналистика поменять наше общество?

— Мы не можем отвечать за общество в целом. У нас есть собственные success stories про реальные изменения в окружающем мире, но они, на мой взгляд, довольно скромные. Например, один раз под впечатлением от наших исследований по данным «Яндекс.Пробки» в Зеленограде отрегулировали светофор. Это оказалось гораздо сложнее, чем все думали, но зеленоградский чиновник был энтузиастом анализа данных. В результате пробок действительно стало меньше.

— Алексея Навального можно считать журналистом данных?

— На мой взгляд, да. Во всяком случае, с данными он и его команда стараются работать аккуратно и очень плотно.

— А почему «Яндекс» не откроет все свои данные, раз их накопилось так много?

— Тут две стороны. Во-первых, в сыром виде, такие большие и тяжелые, они будут полезны только специалистам. У случайного человека вряд ли просто так получится разобраться в наших логах. А во-вторых, мы все-таки коммерческая организация, мы собираем данные наших продуктов и используем их потом для развития тех же продуктов или в коммерческих целях. Хотя у нас есть бесплатные открытые инструменты — например, «Яндекс для медиа», с помощью которого журналисты могут оперативно получать данные о дорожной ситуации, погоде, всплесках поисковых интересов и так далее. Или «Вордстат», который показывает статистику поисковых запросов.


Машинное обучение

В фильме «Из машины», вышедшем в 2015 году, герой Калеб тестирует женщину-робота Аву, созданную гениальным программистом-отшельником. Они общаются, делятся тайнами, узнают друг друга, и постепенно Калеб влюбляется в Аву. Он знает, что перед ним робот, — Калеб был специально выписан, чтобы проверить, насколько Ава похожа в своем поведении на человека, более того — он воочию видел всю ее железную начинку, но Калеб ничего не может с собой поделать. Обученная на данных мировой сети и подогнанная под поисковые запросы Ава выглядит мечтой во плоти, воплощением давних снов и мечтаний.

— Вы используете в своей работе методы машинного обучения?

— Методы машинного обучения используют в «Яндексе» практически все и везде. Например, в Yandex Data Factory, это отдельное направление, которое анализирует данные для внешних заказчиков. Один из проектов коллег был связан с игрой World of Tanks: на основе информации об игроках, их стаже, статусе, активности определяли, как скоро они могут покинуть игру, чтобы была возможность заранее предпринять какие-то шаги и сделать так, чтобы этого не произошло. Или взять ранжирование поисковых результатов. Здесь работают очень сложные формулы, учитывающие большое количество факторов, более полутора тысяч, и без машинного обучения не обойтись. Мы в отделе исследований учимся применять его немного для других задач.

— Для каких?

— Например, мы учимся автоматически определять темы поисковых запросов — тогда многие исследования можно будет делать быстрее и точнее. Все существующие сейчас алгоритмы верно определяют тему запроса далеко не во всех случаях.
Всегда возникает проблема с тем, куда относить Мадонну — к музыке или к картинам? А Платона — к философам или к новостям о транспорте? Такие запросы невозможно классифицировать без понимания контекста.

Но вот с помощью машинного обучения и нейронных сетей мы уже сейчас вполне можем понять, что запрос «фильм про мужика, который пил таблетки и становился умным» — про фильм «Область тьмы».

— Даже без упоминания Брэдли Купера?

— Даже без него. В прошлом году нам в службу поддержки написали вопрос: «Скажите, пожалуйста, сколько человек у вас отвечает на запросы пользователей?» Ну мы дали стандартный ответ, что это делает робот, постарались прояснить, а нам отвечают: «Я не поверю, что роботы могут найти ответы на мои запросы, не надо врать, пожалуйста». И вот дальше тут объяснять, что такое нейросети, например, абсолютно бессмысленно. Есть люди, которые спрашивают, кто у нас ездит по дорогам и оценивает пробки, есть те, кто спрашивает, кто пишет и сортирует новости, и есть даже те, кто верят, что в подвалах «Яндекса» сидят десять тысяч китайцев, которые на хорошем русском отвечают на все поисковые запросы. Нам, кстати, в какой-то момент стало интересно: действительно, сколько нужно живых людей, чтобы вручную отвечать на такое количество запросов? Оказалось, что для этого нужна круглосуточная служба, по численности сравнимая с населением такого города, как, например, Тобольск.
Михаил Петров
Теги:

Читать еще на Чердаке: