Текст уведомления здесь

Быстрое чтение

Зачем компьютеры читают книги и что они там находят

Чтение — до сих пор один из главных способов получать информацию. Увы, наши возможности ограничены: даже самый рьяный читатель справится максимум с несколькими тысячами страниц в месяц и вряд ли осилит, например, все научные статьи о ВИЧ даже за целую жизнь. С компьютером — по-другому: архивы лондонского суда, полное собрание средневековых датских сказок, все тексты главных европейских СМИ за 10 лет — машина проанализирует эти огромные корпусы текстов за несколько дней. Что из этого получается — в нашем материале.
Добавить в закладки
Комментарии

Пять миллионов книг, 500 миллиардов слов и триллионы букв. Шесть лет назад американские ученые взяли около трети всех изданий, оцифрованных проектом GoogleBooks, и посмотрели, что интересного можно найти в этом огромном массиве текста. Конечно, вручную справиться с этой задачей было бы нереально: по словам исследователей, их выборка — это почти 4% от всех книг в истории человечества, а чтение одних только англоязычных изданий, вышедших в XXI веке и попавших в эту библиотеку, заняло бы около 80 лет жизни. Без перерывов на обед, сон и осмысление прочитанного.

Поэтому исследователи заставили читать компьютер. Они запустили поиск всех слов и устойчивых словосочетаний (вроде «розничная торговля» или «Соединенные Штаты Америки»), встречающихся в этих текстах, и так поняли, о чем писали в книгах с начала XIX века (выборка начиналась с 1800 года) и до выхода их исследования, то есть 2011 года.

Выяснилось, что в этой глобальной, поистине циклопического размаха картине с общим планом мировой литературы и публицистики можно найти немало интересных сюжетов. Конечно, многие из них — просто забавные подтверждения общих истин: так, начиная с середины XIX века резко пошла на убыль популярность слова «Бог». Тогда оно встречалось в среднем один раз на тысячу слов, а теперь в три-четыре раза реже (для справки: слово «эволюция» пока все-таки далеко позади и встречается только один раз на 25 тысяч слов).

Некоторые другие сюжеты сложней. К примеру, выяснилось, что с каждым годом мы все быстрее забываем о прошлом. Численный показатель этого процесса — «период полураспада года», время, за которое дата года (1900-й, 1941-й, 2017-й и т.д.) начинает упоминаться в книгах в два раза реже, чем на пике своей популярности. Так, за 31 год частота использования даты «1880-й» упала в два раза по сравнению с уровнем собственно 1880 года, а частота использования «1973-й» сократились вдвое уже к 1983 году — еще одно подтверждение, что жизнь стала быстрей.

Городская библиотека Стокгольма. Фото: dilettantiquity / Flickr

Городская библиотека Стокгольма. Фото: dilettantiquity / Flickr

Такой массовый анализ текстов — неплохой способ ввести четкие формулы туда, где раньше их не предполагалось, — в исследования человеческого общества и культуры. Чтение каждой книги становится отдельным экспериментом по изучению давно прошедших явлений, а распределение слов в книгах — результатом этого эксперимента. Достоверности этим исследованиям добавляет огромное количество данных, и в результате ученые на основе текстов могут делать косвенные выводы о самой реальности, породившей эти тексты.

Хороший пример — часть все той же статьи американцев, посвященная цензуре в нацистской Германии. Для начала исследователи проследили за упоминаниями в немецкоязычной литературе известного художника еврейского происхождения Марка Шагала. До 1936 года все было стандартно: сначала Шагал никому неизвестен и в книгах не появляется, потом идет рост популярности, но с приходом к власти нацистов в начале 30-х годов все неожиданно обрывается. Популярность резко идет на спад и обращается забвением: во всем просканированном корпусе немецкоязычных книг в период с 1936-го по 1944-й словосочетание «Марк Шагал» упоминается лишь единожды, хотя в англоязычных текстах того времени художник стал даже популярнее, чем до этого.

Впечатленные этим примером, ученые предложили простую метрику зацензурированности того или иного человека в нацистской Германии: берем среднюю частоту упоминания персоны в немецкоязычных книгах за период с 1933-го до 1945 года и делим ее на среднее арифметическое частот упоминания в 1925—1933 гг. и 1955—1965 гг. (вскоре после поражения нацистского режима Марк Шагал вернулся на свои прежние позиции популярности). «Рекордсменом» в этой метрике стал протестантский священник Герман Маас — он помог спастись из Германии сотням евреев. Его имя в нацистский период упоминали в 100 раз реже, чем это можно было бы ожидать. Иногда молчание говорит больше любых слов.

Невероятные твари и где они обитают

Американцы в своей статье взяли совсем общий план книжного ландшафта и показали только самые грубые возможности анализа больших наборов текстов. Другие исследователи после них часто работали с более мелкими задачами. И хоть их компьютеры, конечно, не могли сопереживать героям, как живые люди, но все-таки умели кое-что еще, кроме построения частотных статистик слов.

Например, фольклористы Тимоти Тангерлини (Timothy Tangherlini) и Питер Бродвелл (Peter Broadwell) из Университета Калифорнии оцифровали 30 тысяч датских сказок и построили интерактивную карту, на которую компьютер нанес места обитания персонажей: от священников, разбойников и прокаженных до эльфов и ведьм. Оказалось, что нечисть в этих сказках обычно живет где-то неподалеку от католических монастырей, что, по мнению исследователей, хорошо передает настроения протестантской Дании после Реформации XVI века. Впрочем, конкретной, формализуемой в цифрах гипотезы авторы исследования так и не выдвинули.

Изображение: Tom Lee / Flickr

Изображение: Tom Lee / Flickr

Другое дело — исследование лингвистов из Колумбийского университета, решивших проверить гипотезу итальянского литературоведа Франко Моретти об «урбанизации литературных сюжетов». Согласно ей, в книгах, действие которых происходит в городах, с одной стороны — больше персонажей, а с другой — меньше диалогов, чем в книгах «деревенских».

Американские ученые взяли выборку из 60 романов XIX века за авторством Диккенса, Элиота, Джейн Остин и других писателей и с помощью компьютерных алгоритмов проанализировали синтаксис каждого предложения в этих источниках, чтобы найти в них диалоги. Гипотеза Моретти полностью провалилась: в данных не было обратной корреляции между числом персонажей и количеством диалогов. Вместо этого там была другая зависимость: отношение числа действующих лиц к количеству диалогов между ними достоверно менялось в зависимости от того, идет ли повествование от первого лица или от третьего.

Культурные скрепы

Совсем не обязательно анализировать исключительно книги. В исследовании 2010 года ученые из Италии и Великобритании взялись за СМИ. Они выбрали по 8−10 ведущих новостных изданий из 27 стран Европы и проанализировали их контент с 1 августа 2009 года по 31 января 2010 года — всего получилось почти полтора миллиона новостей.

Алгоритм определял новостную повестку каждого материала, а потом составлял портрет СМИ на основе набора тем, о которых они писали. Далее анализировалась близость изданий между собой: если два издания писали про одно и то же чаще, чем это ожидалось бы при случайном выборе тем, то такие издания признавались связанными между собой. В результате изначальная выборка разбилась на 147 изданий, объединенных в 31 не связанную между собой группу, а все остальные СМИ в рамках подхода исследователей оказались уникальными.

Потом ученые сфокусировались уже не на отдельных СМИ, а на целых странах, представленных усредненной картиной их ведущих изданий. Здесь исследователи снова стали искать сходства в новостных повестках и в конце концов построили карту связей между национальными СМИ Европы. В центре сетки расположились четыре страны Евросоюза: Франция, Германия, Австрия и Ирландия — их СМИ выбирали темы, перекликавшиеся почти со всеми остальными странами.

Структура связей между СМИ Европы. Если страны на изображении соединены отрезком, это означает, что новостная повестка их ведущих СМИ совпадает. Изображение: Ilias Flaounas et al., 2010
Структура связей между СМИ Европы. Если страны на изображении соединены отрезком, это означает, что новостная повестка их ведущих СМИ совпадает. Изображение: Ilias Flaounas et al., 2010

По результатам ученых, сила связей в этой схеме (то есть схожесть в новостных повестках национальных СМИ) хорошо коррелирует сразу с тремя факторами:

  • экономическим: чем больше объем торговли между странами, тем чаще их медиа публикуют новости об одном и том же;
  • культурным: чем чаще страны голосуют друг за друга на «Евровидении», тем больше похожи их СМИ;
  • географическим: чем больше протяженность границ двух стран, тем ближе тематики национальных СМИ.

Эволюция правового климата

Часто анализ больших объемов текста похож на исследования климата. Климатологи пытаются восстановить картину мировой погоды по записям с нескольких метеостанций, а те, кто изучает текст, восстанавливают картину исторических и культурных явлений.

Судебное заседание Лондонского уголовного суда. Иллюстрация из книги The Microcosm of London: or, London in Miniature

Судебное заседание Лондонского уголовного суда. Иллюстрация из книги The Microcosm of London: or, London in Miniature

Метеостанцией ученых, исследовавших эволюцию британского правосудия, стал центральный уголовный суд Лондона Олд-Бейли. В их распоряжении оказались архивы со всеми материалами суда с 1760-го по 1913 год — всего около миллиона судебных записей адвокатов, прокуроров и судей.

На этом корпусе текстов с помощью компьютерных алгоритмов исследователи отследили, как менялось отношение людей к насилию: если в типичном приговоре XVIII века человека осуждали за кражу и только между делом, в качестве дополнительного фактора, упоминали нанесение жертве ножевых ранений, то к XX веку все перевернулось. Теперь, если преступник избивал или тем более ранил жертву, а потом ее обкрадывал, главным в приговоре становился именно факт физического насилия.

Анализ показал, что переход между сценариями произошел не резко, как если бы он был обусловлен новой редакций законов, а постепенно. С каждым годом общество все дальше отходило от средневековой культуры, в которой ценность частной собственности иногда была даже выше ценности жизни и здоровья человека. И зафиксировать эти изменения лучше самых талантливых историков получилось именно у компьютера, превратившего чтение текстовых источников в точные измерения.

Добавить в закладки
Комментарии
Вам понравилась публикация?
Расскажите, что вы думаете, и мы подберем подходящие материалы

На «смерть» формата

За что мы любим MP3 и почему его рано хоронить

На днях по интернету прокатилась странная новость: многие интерпретировали окончание действия одного из последних патентов на MP3 как официальную «смерть» формата. «Убить» формат, а еще лучше — придушить в колыбели, наверняка мечтали многие звукозаписывающие компании. С его приходом музыкальное пиратство приобрело размах настолько масштабный, что стало естественной частью повседневной жизни подобно земному притяжению: вроде его не замечаешь, а попробуй-ка преодолей гравитацию.
Добавить в закладки
Комментарии

Из-за чего сыр-бор

Окончание действия патентов на формат (самый-самый последний из них истекает 30 декабря 2017 года) всего лишь означает, что производители медиаплееров могут встраивать в свои устройства и программы поддержку MP3 и не платить за это. Части производителей удавалось избегать этого и раньше из-за того, что разными патентами на технологию владели разные компании, а это приводило к долгим спорам и тяжбам. Для других производителей отчисления достигали десятков центов за устройство.

Свобода от патентов вряд ли приведет к гибели MP3, несмотря на существование более эффективных форматов сжатия аудио, таких как AAC, который, как гордо сообщает «Википедия», «введен в качестве государственного стандарта кодирования сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи в Российской Федерации».

Другие форматы не обещают революционного повышения качества звука или уменьшения размеров файлов. А значит, так ли они нужны прямо сейчас обычному пользователю, у которого уже есть коллекция музыки в MP3, который скорее всего слушает музыку в дороге и которому ближайший Wi-Fi вполне позволяет скачать еще музыки? [ ... ]

Читать полностью

Мозг, издание дополненное

Можно ли соединить мозг с компьютером и зачем

Этот год богат на обещания технологических компаний подключить мозг к компьютеру. Например, в марте стало известно, что Элон Маск создает компанию Neuralink, которая будет разрабатывать имплантируемые интерфейсы «мозг-компьютер», а в апреле — что Facebook работает над неинвазивным устройством, которое позволит набирать текст силой мысли. «Чердак» расспросил нейрофизиолога Михаила Лебедева о том, как развиваются научные исследования в этой области.
Добавить в закладки
Комментарии

Интерфейсы «мозг-компьютер» сами по себе не новы. Такие устройства считывают электрическую активность мозга и позволяют человеку, который научился эту активность частично контролировать, делать что-нибудь полезное, например набирать текст или управлять механизмами. Поскольку для этого требуется точное лабораторное оборудование, а иногда и вживление электродов в мозг, к таким технологиям прибегают лишь тогда, когда у человека нет другого способа взаимодействовать с окружающим миром.

Те устройства, которые предназначены для здоровых людей и продаются в интернете, тоже считывают электрическую активность мозга, но они весьма примитивны и не тянут на звание полноценных интерфейсов «мозг-компьютер». Однако Neuralink, Facebook и другие компании собираются каким-то образом это исправить.

О том, как сейчас развиваются научные исследования в этом направлении и могут ли интерфейсы «мозг-компьютер» действительно стать реальностью для обычных людей, «Чердак» поговорил с нейрофизиологом Михаилом Лебедевым из Университета Дьюка (США), редактором сборника статей «Расширение функций мозга: факты, выдумки и полемика», опубликованного издательством Frontiers.

 — О чем ваш сборник? [ ... ]

Читать полностью

Работа для роботов

Какие профессии убьет технологический прогресс

Искусственный интеллект обыгрывает человека во все более и более сложные игры, анализирует космические снимки, диагностирует рак и чего еще только не делает. Если роботы такие умные, не отберут ли они у нас работу?
Добавить в закладки
Комментарии

Машины давно теснят людей с рабочих мест: переписчики книг вымерли с изобретением печатного станка, в XX веке расцвела и исчезла профессия телефонистки. Конфликт на этой почве также тянется не первое столетие: в начале XIX века бунтующие рабочие в Англии, луддиты, уничтожали станки на фабриках, протестуя против замены ручного труда механическим.

Вымирающие профессии

В 2016 году беспилотный грузовик компании Otto доставил свой первый груз. Пока машина ехала по скоростному шоссе, ею управляла автоматика, живой водитель включался в процесс лишь в городе, где вести машину было сложнее.

«Эксперименты с беспилотными машинами проходят по всему миру. И они могут уничтожить профессии дальнобойщика, водителя общественного транспорта, регулировщика трафика», — считает Иван Бегтин, директор АНО «Информационная культура». [ ... ]

Читать полностью