Порно, двач, клубняк: какие слова из словаря Даля живы до сих пор

Портрет Владимира Даля. Изображение: commons.wikimedia.org

Аналитики компании «Яндекс» проанализировали, какие слова из «Толкового словаря живого великорусского языка» В. И. Даля пользователи ищут в поисковике до сих пор, какие из них изменили первоначальный смысл, а какие вышли из употребления.

«Толковый словарь живого великорусского языка» составлен писателем, этнографом и лексикографом Владимиром Далем в середине XIX века. Содержит около 200 000 слов и 30 000 пословиц, поговорок, загадок и присловий, которые входили в повседневный лексикон жителя России того времени. Первое издание вышло в 1886 году.

Примерно треть слов из словаря Даля распространены до сих пор, еще чуть меньше трети — используются, но крайне мало. Почти 40% слов, или полтора тома всего словаря Даля, полностью вышли из употребления, сделали вывод специалисты «Яндекса».

За год «Яндекс» отвечает примерно на 70 миллиардов запросов из России. Аналитики по пробелам и специальным символам разделили эти запросы на словоформы, выбрали только те, которые состоят из кириллических букв, и автоматически привели их к начальной форме. Получилось больше 285 миллионов слов. Из них отсеяли слова с ошибками, написанные в неправильной раскладке и просто бессмысленные буквосочетения путем сопоставления с Национальным корпусом русского языка за XX и XXI века. Пересечений оказалось всего около 750 тысяч. Эти слова и употребляются в современных текстах разных жанров.

Чтобы учесть омонимию, слова из словаря Даля разделили на несколько групп в зависимости от их частотности в поиске и от того, есть ли они в корпусе, и вручную проверили небольшие выборки из каждой группы.

После этого получившуюся совокупность слов сопоставили с запросами в «Яндекс». Те слова, которые очень часто — более 100 тысяч раз — встретились в запросах, но отсутствуют в корпусе, с наибольшей вероятностью являются омонимами. Те слова, которые в течение целого года искали всего один-два раза, скорее всего, относятся к уходящим или ушедшим. Чтобы уточнить, к какой именно группе относится слово, понадобились дополнительные проверки.

В результате почти одна пятая часть (18%) слов из словаря Даля за год ни разу не встретилась в поисковых запросах к «Яндексу». Эти слова можно считать вышедшими из употребления, так как в течение года люди даже не искали их значение. Доля глаголов среди этих слов заметно больше, чем в словаре в целом, а доля существительных — меньше. Таким образом, глаголы из словаря Даля устаревают быстрее, чем существительные, сделали вывод аналитики.

Около 85% ушедших глаголов содержат приставки. Самая распространенная, по-, встречается в каждом пятом случае, иногда в комбинации с другими приставками, как, например, в словах понасудачить, попринаряжать или повзопреть. Почти треть существительных оканчивается на -ье или -ие и означает действие по соответствующему глаголу: вывороченье или избоданье. Много существительных на -чик, -чица, -ник, -ница и тому подобных. Часто они обозначают людей определенных занятий, которые уже не актуальны: наживотчик, каравайщик, нравописательница.

Вышедшие из употребления слова часто образованы от корней, которые вполне используются и сейчас: переребячиться, злодейчивый, заволшебствовать, отблинничать.

В пересечение поиска и корпуса попали 44% слов. Можно предположить, что это живые слова. Примерно 38% слов упоминались в запросах, но отсутствовали в корпусе русского языка. Видимо, это слова уходящие: их уже не используют в письменной речи, но иногда ищут в интернете.

«С другой стороны, вряд ли можно назвать живым слово, которое есть в письменных текстах, но встречается в запросах всего несколько раз в год, или слово, которое вводят в поиск только для того, чтобы узнать значение», — говорят аналитики.

Кроме того, часть словаря Даля могла попасть в поиск и корпус из-за омонимии, когда слово пишется так же, но означает совсем другое. У Даля встречаются такие популярные в интернете слова, как порно (крепко, надежно, дюже, прочно, споро), двач (предмет, состоящий как бы из срослых двойней, близнят), прикол (действие по глаголу «прикалывать») и клубняк (вообще все клубоватое, образующее клубки). Иногда написание слов у Даля совпадает с распространенной в поиске ошибкой или опечаткой: навинка, кател, насиление, загатка. Часть слов ушла из русского языка, но сохранилась в украинском.

Чтобы точнее определить, какая часть словаря Даля до сих пор жива, а какая вышла или выходит из употребления, аналитики оценили долю омонимии среди слов, встречавшихся в поисковых запросах, а также посчитали, сколько слов люди искали с целью узнать, что они значат. Омонимами оказались почти треть изученных слов. Всего около 8,5% слов из словаря Даля интересуют пользователей в первую очередь в контексте поиска значения. Это такие слова, как инсинуация, демагогия, утрировать, моногамия и импонировать. Большая часть таких слов отсутствует в текстах из корпуса и мало распространена в запросах.

В итоге слова распределили на три группы: ушедшие, уходящие и живые. К вышедшим из употребления отнесли слова, которые ни разу не встретились ни в запросах, ни в текстах из корпуса русского языка, а также те, которые оказались там только из-за омонимии или по ошибке. К словам, которые уходят из языка и употребляются сейчас крайне редко, причислили следующие: те, которые встретились в поисковых запросах менее 10 раз в год; те, что сравнительно мало встречались в запросах — десятки или, в редких случаях, сотни раз за год, отсутствовали в корпусе и для которых в интернете не удалось найти примеров употребления, а также те, которые искали в первую очередь для того, чтобы узнать значение.

В итоге выяснилось: примерно треть слов из словаря Даля (32%) распространены до сих пор. Еще чуть меньше 30% — используются, но крайне мало, треть из них — только при поиске значений. Почти 40% слов, или полтора тома всего словаря Даля, полностью вышли из употребления.

Отчет опубликован в блоге «Яндекса».

О том, что такое Национальный корпус русского языка, смотрите на «Чердаке».

Теги: