Знай наших! О словаре Даля и современном русском языке

Знаете ли вы, что в Толковом словаре Даля можно встретить такие слова, как клубняк, двач и прикол? Так насколько современный русский язык отличается от того, на котором говорили 150 лет назад? Чтобы ответить на этот вопрос, аналитики «Яндекса» обратились к нашим с вами поисковым запросам. О результатах смотрите в новом выпуске «Знай наших».

Всем привет! С вами Анна Шустикова и рубрика о российской науке «Знай наших».

Наверное, каждый из вас хоть раз слышал о Толковом словаре В.И. Даля. Это удивительный труд, в котором собраны образцы по-настоящему живого, народного языка середины XIX века — всего около 200 тысяч. Однако время идет, язык меняется, и слова, прежде звучавшие в повседневной речи, выходят из употребления. Но как сильно современный язык отличается от того, на котором говорили 150 лет назад? Для ответа на этот вопрос Яндекс решил обратиться к нашим с вами поисковым запросам.

В год Яндекс обрабатывает около 70 миллиардов запросов. Если каждый запрос разделить на слова, отобрать среди них только те, что составлены из кириллических символов, и привести их к начальной словоформе — например, для существительных такой является именительный падеж, — то мы получим 285 миллионов слов. Разумеется, не все из них настоящие: есть среди них и слова с ошибками — только слово «одноклассники» набирают в поисковой строке больше, чем тысячью способами, — кроме того, встречаются слова, набранные в неправильной раскладке, и просто бессмысленные комбинации букв. Чтобы отсеять все эти ошибки и случайности, прежде чем переходить к анализу, слова из запросов сравнили с образцами из Национального корпуса русского языка за XX, XXI века. Это такое собрание русскоязычных текстов в электронном виде, где представлены примеры разных типов и стилей в той же самой пропорции, в которой они встречаются в реальной жизни. То есть, к примеру, если среди всех текстов на русском языке новости составляют одну треть, то и в Национальном корпусе их должно быть столько же.

Так вот, оказалось, что слов, которые есть и в поисковых запросах, и в Национальном корпусе, около 750 тысяч. Теперь-то уже можно переходить к сравнению со словарем Даля. Оно показало, что 44% слов из словаря можно встретить и среди запросов, и в Национальном корпусе, 38% встречаются в запросах, а в корпусе таких слов нет, а 18% ни разу в запросах не упоминались. И, казалось бы, тут же можно сделать вывод: значит, где-то пятая часть слов вышла из употребления, чуть меньше половины все еще активно используются, а все остальные — то есть 38% процентов, которых нет в текстах, но они все еще встречаются в запросах, — это слова уходящие. Однако не все так просто.

Например, представим себе слово, которое появляется в поисковых запросах всего-то пять раз в год, или другое, которое ищут чуть чаще, но только ради того, чтобы узнать его значение. Вряд ли такие слова можно отнести к живым. Кроме того, не стоит забывать, что некоторые слова, популярные среди пользователей интернета, во времена Даля имели совершенно иное значение. Например, многие ищут в интернете «двач», вряд ли вкладывая в это слово смысл из словаря Даля: «предмет, как бы состоящий из срослых двойней». Есть в словаре Даля и «клубняк», и «прикол», и «порно», но опять же совсем не в современных значениях. Кроме того, некоторые слова из словаря совпадают с распространенными ошибками, какие-то со словами не русского, а украинского языка, а другие — с фамилиями или названиями населенных пунктов.

Чтобы учесть это, аналитики «Яндекса» провели дополнительную оценку и выяснили, как часто среди запросов встречаются омонимы — слова, совпадающие по написанию со словарными формами, но имеющие сегодня совершенно иное значение, а также — какие слова попадают в запросы только потому, что кто-то хочет понять, что же они означают.

В результате, к словам, вышедшим из языка, отнесли те, которые не встречаются ни в запросах, ни в корпусе или попали туда из-за омонимии или ошибки. К уходящим — те, которые встречаются в запросах меньше 10 раз за год, или те, которые ищут не так редко, но при этом их нет в Национальном корпусе и в интернете нельзя найти примеры их употребления, а также те, которые пользователи интернета искали в основном ради того, чтобы узнать значение. Соответственно, к живым отнесли все остальные. При такой оценке получилось, что только треть слов из словаря используется до сих пор, где-то 30% используются крайне редко и почти 40%, то есть 1,5 из 4 томов Даля, совершенно вышли из употребления.

На этом все! Следите за своей речью, читайте новости на нашем сайте и до встречи!

Теги:

Читать еще на Чердаке: