Все новости

«Яндекс. Переводчик» научился переводить «хайповые» слова

Сервис «Яндекс.Переводчик» теперь может переводить вошедшие в русский язык совсем недавно слова из молодежного сленга.

Язык постоянно пополняется новыми словами. Одни неологизмы надолго остаются в языке, другие быстро забываются. Сервисы онлайн-переводов от Google или Яндекса должны быстро научиться их распознавать и корректно переводить на другие языки.

Системы автоматического перевода обучаются с помощью параллельных текстов. Они одинаковы по содержанию, но написаны на разных языках. Один из самых известных в истории примеров параллельных текстов — Розеттский камень, благодаря которому расшифровали древнеегипетские иероглифы.

Большие объемы параллельных текстов называют корпусами. Неологизмы могут попадать в корпус со свежими параллельными текстами. Проблема в том, что обновление корпусов занимает достаточно много времени, несколько месяцев. Для неологизмов это очень долгий срок.

Чтобы «Яндекс. Переводчик» быстрее реагировал на новые слова, разработчики начали использовать дополнительный источник данных — поисковые запросы. Услышав новое слово, люди уточняют его значение в поиске. Слова, к которым возник всплеск запросов, — кандидаты на роль неологизмов.

Системе переводчика необходимо отсеять новые хайповые слова от сезонных запросов («как готовить кулич», «где купить елку»). Для этого используют лингвистические фильтры, а также смотрят на контекст: в запросах с неологизмами нередко встречаются уточнения («хайп — что это значит», «блокчейн — что это такое простыми словами»). Из 78 тысяч кандидатов в неологизмы в прошлом году после фильтрации специалисты «Яндекса» выделили всего тысячу слов.

Неологизмы необходимо не только обнаружить, но и правильно перевести. Система переводчика обучается на примерах переводов заимствованных слов и выдает несколько вариантов перевода неологизма. Ранжирует переводы недавно созданный специалистами «Яндекса» метод на основе машинного обучения CatBoost. Он составляет список вариантов, где вверху находятся наиболее вероятные переводы, а внизу — наименее вероятные. На финальную проверку неологизмы поступают сотрудникам «Яндекса», а затем пополняют базу переводчика. С этого момента сервис будет верно переводить слова в текстах и показывать для него словарную статью.

После апгрейда переводчик выучивает неологизмы очень быстро — спустя несколько дней после того, как о них начали спрашивать у Яндекса, отмечают в блоге сотрудники компании.

О нововведении компания сообщает в своем блоге.

Подробнее о принципах работы алгоритмов Яндекса, в том числе и нового — «Королев», читайте на «Чердаке».