Текст уведомления здесь

Диджитальные гуманитарии и где они обитают

Репортаж с III Московско-тартусской школы по цифровым гуманитарным исследованиям

На III Московско-тартусской школе сотня гуманитариев на протяжении четырех суток программировала, работала с базами данных, занималась сетевым анализом. Зачем? Корреспондент «Чердака» тоже побывала на школе, чтобы ответить на этот вопрос.
Добавить в закладки
Комментарии

От детской поэзии до списков НКВД

Впрочем, просто понаблюдать не удалось. «Приезжайте участвовать», — ответили организаторы. Оправдания, что я журналист, а по образованию и вовсе психолог, не помогли.

Выбираю одно из направлений и сразу получаю указания — установить среду программирования на Python и еще парочку программ для обработки и визуализации данных с незнакомыми мне названиями.

Школа по digital humanities проводится здесь уже третий год подряд. Формат устоявшийся: лекции о том, как трансформируется гуманитарное знание в цифровом мире, и практика.

Больше всего здесь лингвистов и филологов: одна группа собирается составить атлас поэтической моды, вторая будет разбираться с особенностями детской поэзии, третья ставит задачу создать социальные графы для персонажей русской литературы, еще одна углубляется в стилометрию — исследование стилистики текстов и, наконец, у пятой еще более экзотическая задача — посмотреть, какие части тела чаще всего упоминаются авторами детской литературы 1940—1980 годов.

Еще одна мастерская планирует работать с текстами СМИ и посмотреть, как одно и то же слово по-разному звучит в разных источниках. Тьюториал под руководством Клуба любителей интернета и общества собирается изучать сайты начала 2000-х, копии которых сохранились в цифровых архивах. Ну а я выбираю единственный тьюториал по истории: мы будем работать с базой данных сотрудников НКВД.

Make history science again

«У лингвистов в самом деле не было особенных проблем с началом использования в своих исследованиях цифровых технологий. С корпусами — а это, по сути, базы данных — сегодня работает большинство лингвистов. Работали и не знали, собственно, что это digital humanities», — рассказывает Анастасия Бонч-Осмоловская, доцент ВШЭ, руководитель Центр цифровых гуманитарных исследований НИУ ВШЭ.

Сегодня, по словам Анастасии, скорее методы, наработанные в корпусной и компьютерной лингвистике, уходят в другие науки, используются для анализа исторических, культурных и иных текстов.

«У каждой гуманитарной науки своя история, все по-разному в эту область входят. Та же история, она тоже с 40—50-х годов начала использовать компьютерные методы, просто они не настолько естественно легли, как в лингвистике», — продолжает мысль Динара Гагарина, доцент ВШЭ и сотрудник Центра цифровой гуманитаристики Пермского государственного национального исследовательского университета (ПГНИУ).

Однако в истории, считает Гагарина, важна не только компьютеризация методов исследования. Самый острый момент — верификация исследований. «Почти во всех презентациях для студентов я вставляю фразу Make history science again. Потому что даже от самих студентов-историков часто можно услышать, что история не наука, а интерпретация, чуть ли не вид искусства. Ничего подобного. Если мы даем ученые степени по истории, если мы публикуем научные исследования по истории, то мы должны применять научные методы. Только так мы можем уйти от субъективного. Пошел один историк в архив — нашел там какие-то свои источники, в голове своей обработал, выдал знания. Пошел другой — с теми же самыми источниками поработал, обработал их в голове, выдал знания. Эти знания различаются. Кто прав? Окажется прав тот, у кого борода длиннее. То есть тот, у кого степени и звания более серьезные. Но так же не бывает в науке, это же не научный подход».

На мастерской мы начинаем с азов программирования на Python и рассказа тьютора Анастасии Заплатиной о той области, с которой нам предстоит работать. Анастасия — историк по образованию, аспирант Школы исторических наук НИУ ВШЭ, сотрудник Международного центра истории и социологии Второй мировой войны. «Работа с базами данных нужна как минимум для того, чтобы получить точные цифры репрессированных. У историков до сих пор нет единого мнения по этому вопросу. Но не менее важно понять и то, кем были сотрудники НКВД, непосредственно задействованные в осуществлении репрессий», — поясняет Анастасия.

Мы работаем с базой данных, собранной обществом «Мемориал». Волонтеры собирали базу вручную — по газетным публикациям о награждениях, по отдельным документам в архивах. Сегодня на сайте есть «дела» на 41 705 человек. Чтобы с ними можно было работать, нужно создать структурированную базу данных. Тут нам и пригождается Python — к концу первого дня у нас уже готов код, собирающий для нас таблицу, в которой по столбцам распределены все имеющиеся данные: ФИО, должность, год рождения и смерти и так далее.

По словам Заплатиной, которая работает с этой темой уже довольно давно, вопросов, на которые можно ответить с помощью методов digital humanities, здесь очень много. Ученые надеются, например, посмотреть, как влияли личные связи между сотрудниками на их карьеру в ведомстве и на вероятность быть репрессированными друг за другом. Или есть ли связь между перемещением сотрудника на работу в другой регион и ужесточением репрессий там. Иначе говоря, были они лишь винтиками в машине или что-то зависело и от их личных поступков и решений.

Конечно, для ответов на эти вопросы четырех дней работы на тьюториале не хватит. Так что мы ставим задачу — попробовать составить хотя бы приблизительный социально-демографический портрет сотрудника НКВД: возраст, пол, национальность и тому подобное. Отчасти мы хотим с этой точки зрения взглянуть на тему банальности зла, которую обнаружила Ханна Арендт на суде над «архитектором Холокоста» Адольфом Эйхманом. Кто эти люди, отдававшие приказы и лично убивавшие своих сограждан без суда и следствия? Какой-то особый сорт людей или обычные граждане, на которых волею судеб оказалась надета форма НКВД, а не тюремная роба?

Три дня мы с утра до вечера видим только цифры, код, графики и сети, а из головы не выходят все эти вопросы и истории тех лет. Конечно, мы не найдем ответов, только структурировав данные, но, может, приблизимся к ним хотя бы  на шаг?

«Я сделал крутую базу данных»

К концу четвертого дня я уже практически уверена, что digital humanities — будущее всех гуманитарных наук. Перед презентацией результатов работы мастерских мы снова беседуем с Гагариной и Бонч-Осмоловской, и они немного охлаждают мой пыл.

«Ни в коем случае не должно быть технологий ради технологий. Какое-то время назад это была частая ситуация на конференциях, когда выходит докладчик и говорит: “Я сделал вот такую крутую базу данных!” Можно нарисовать очень красивые сети, карты, и потом ты смотришь: такая красивая картинка, тут чего-то зеленое, тут желтенькое, тут синенькое. Ну и что? Что нового она нам говорит?   Люди, которые приходят в нашу область со стороны computer science, часто радуются просто новым полученным данным. У них нет задачи получить новое гуманитарное знание про исторические процессы, про культурную эволюцию, про литературу…» — сетует Анастасия.

«И в то же время этот подход действительно может дать новое знание. Нобелевскую премию 1993 года получил Роберт Фогель за исследования по экономической истории, что само по себе удивительно. В частности, он взял и опроверг один долго существовавший миф о ключевой роли железных дорог в развитии экономики США. Считалось, что именно вслед за их появлением пошел рост в торговле, в тяжелой промышленности и так далее. Он показал, что это не так, что роль железных дорог очень преувеличена. Фогель построил так называемые контрфактические модели: что было бы, если бы не было железных дорог. Так вот, развивались бы другие способы, например система водных каналов. Экономика росла бы такими же темпами. Вот это пример нового знания, полученного благодаря цифровым методам в истории», — говорит Динара.

Но даже при грамотном подходе к использованию цифровых методов гуманитарная начинка в их дисциплинах никуда не исчезнет, убеждены эксперты. Любое серьезное исследование в парадигме digital humanities все равно начинается с составления базы данных. «Когда мы работаем с историческими данными, мы должны очень хорошо понимать про источники информации: как источник устроен, кто его написал, откуда он взялся. И на этом этапе работают люди, которые могут быть очень далеки от digital humanities. Если мы работаем с древнерусскими источниками, то в связке с нами работает специалист по древнерусским источникам, если это будут источники начала XX века, это будет специалист по этому периоду», — поясняет Динара.

Тем временем начинается представление полученных результатов. Во всех презентациях в самом деле красивые графики, в которых «тут синее, тут зеленое, тут красивые стрелочки». Но что все это значит? Стараюсь задать этот вопрос каждой группе выступающих, если они не отвечают на него сами. Выясняется, что кое-какие выводы удалось получить даже за эти четыре дня. Конечно, их нужно будет еще многократно проверять, постоянно оговариваются ученые. Вот некоторые из них — судите сами.

  • Анализ стихов, написанных детьми, показал, что их темы часто совпадают с традиционными темами школьных сочинений. И даже наиболее встречаемые слова в стихах детей и в стихах профессиональных поэтов очень похожи. Получается, что дети не только подражают той «правильной» поэзии, которой их учат в школе, но и в режиме, казалось бы, «свободного творчества» продолжают двигаться по «рельсам», проложенным учебным планом.
  • Стихи Осипа Мандельштама и рэпера Оксимирона — не похожи! Компьютерная обработка показала, что ни по часто встречаемым словам, ни по другим характеристикам эти авторы не близки. Идея проверить эту гипотезу методами стилометрии пришла исследователям по следам истории 2016 года, когда хабаровская школьница успешно выдала на уроке литературы текст рэпера за стихотворение Мандельштама; после этого в сети появилось даже несколько тестов на умение отличать строки современных рэперов от стихов поэтов начала прошлого века.
  • Исследователи новостных текстов выяснили, что конструкт «материнство» появляется в разных контекстах в зависимости от конкретного СМИ. К примеру, в РБК это слово чаще всего появляется в статьях, посвященных незапланированной беременности и подростковым проблемам, а в «Известиях» — в контексте проблем бесплодия, сиротства, репродуктивного здоровья и т.п. Интереснее оказалась история конструкта «отцовство»: до 2017 года он практически отсутствует в русскоязычных новостных текстах, а позже появляется, но по большей части в контексте обсуждения однополых семей. Среди любопытных выводов вокруг конструкта «рожать» — появление рядом с ним, в смысловой близости, в 2017 году конструкта «фотографироваться».
Евгения Береснева / Chrdk.

Участники нашего тьюториала, работающие со списками НКВД, представили несколько диаграмм по результатам обработки базы данных. Пожалуй, самая впечатляющая из них показывает, что почти треть сотрудников были со временем сами репрессированы и расстреляны.

Не слишком много результатов за четыре дня работы, но никто и не ждал больших открытий. Для большинства участников главная задача — попробовать новые для себя методы, обменяться опытом, сформулировать гипотезы и идеи для будущих исследований.

Немного маргиналы

«Люди, которые занимаются digital humanities, как-то немножко ощущают себя странными маргиналами, — говорит мне Бонч-Осмоловская в ответ на вопрос о том, кто вообще такие «цифровые гуманитарии». — Мы давно на какой-то конференции сформулировали, что всё это люди не очень простой судьбы, их куда-то мотало, шатало, они немножко вот этого поделали, немножко другого, а потом вдруг сюда пришли...»

Среди участников школы нашлись философы, биологи, культурологи, математики, историки, библеисты — цифровые гуманитарии, по мнению Бонч-Осмоловской, собираются вместе по достаточно странному принципу, и в итоге на конференции лингвисты слушают, например, историков, а близки им только методы. При том внутри собственной науки их  тоже часто не принимают за своих.

«Филолог Тед Андервуд однажды сказал, что проблема с digital humanities состоит не в слове digital, а в слове humanities, — продолжает Анастасия. — Гуманитарные науки переживают кризис. В биологическом вузе сегодня невозможно прочитать тот же курс, что 50 лет назад, а на многих гуманитарных факультетах — без проблем. Но и новое воспринимается в штыки. Этот застой ощущается всеми участниками процесса. Может ли digital humanities предложить новую парадигму для выхода из кризиса или мы тут только базы данных собираем без претензий на великие идеи?..»

«Может-может», — улыбается коллеге Динара.

Добавить в закладки
Комментарии
Вам понравилась публикация?
Расскажите, что вы думаете, и мы подберем подходящие материалы

От цифры к смыслу

О цифровых методах в гуманитарных науках

Шутки про невозможность пересечения гуманитариев и «матана» становятся все менее смешными в мире интернета, социальных сетей и больших данных. Методы компьютерных наук проникают в науки гуманитарные, заставляя лингвистов, архивистов и культурологов осваивать программирование, а в вузах появляются программы подготовки «цифровых гуманитариев». Корреспондент «Чердака» выяснил, как математика и цифровые инструменты меняют науки о человеке, обществе и культуре.
Добавить в закладки
Комментарии

Количество против качества

К 1960-м годам историки поняли, что информацию можно извлекать не только из традиционных источников — грамот, указов и дневников, но и из налоговых отчетов, записей в податных книгах и медицинской статистики. Отдельные записи в них не представляют ценности для исследователя, но, взятые в большом количестве, они дают прекрасный материал для статистического анализа.

В 1964 и 1974 годах экономист Роберт Фогель выпустил две сенсационные научные работы — «Железные дороги и рост американской экономики: эссе по эконометрической истории» (Railroads and American Economic Growth: Essays in Econometric History) и «Срок на кресте: экономика рабства американских негров» (Time on the Cross: The Economics of American Negro Slavery), которые перевернули два традиционных представления — об исключительной необходимости железных дорог для роста американской экономики во второй половине XIX века и о полной неэффективности рабского труда на юге США.

Роберт Фогель. Фото: Michael Fogel / Wikimedia Commons / CC BY-SA 3.0

Роберт Фогель. Фото: Michael Fogel / Wikimedia Commons / CC BY-SA 3.0

[ ... ]
Читать полностью

Быстрое чтение

Зачем компьютеры читают книги и что они там находят

Чтение — до сих пор один из главных способов получать информацию. Увы, наши возможности ограничены: даже самый рьяный читатель справится максимум с несколькими тысячами страниц в месяц и вряд ли осилит, например, все научные статьи о ВИЧ даже за целую жизнь. С компьютером — по-другому: архивы лондонского суда, полное собрание средневековых датских сказок, все тексты главных европейских СМИ за 10 лет — машина проанализирует эти огромные корпусы текстов за несколько дней. Что из этого получается — в нашем материале.
Добавить в закладки
Комментарии

Пять миллионов книг, 500 миллиардов слов и триллионы букв. Шесть лет назад американские ученые взяли около трети всех изданий, оцифрованных проектом GoogleBooks, и посмотрели, что интересного можно найти в этом огромном массиве текста. Конечно, вручную справиться с этой задачей было бы нереально: по словам исследователей, их выборка — это почти 4% от всех книг в истории человечества, а чтение одних только англоязычных изданий, вышедших в XXI веке и попавших в эту библиотеку, заняло бы около 80 лет жизни. Без перерывов на обед, сон и осмысление прочитанного.

Поэтому исследователи заставили читать компьютер. Они запустили поиск всех слов и устойчивых словосочетаний (вроде «розничная торговля» или «Соединенные Штаты Америки»), встречающихся в этих текстах, и так поняли, о чем писали в книгах с начала XIX века (выборка начиналась с 1800 года) и до выхода их исследования, то есть 2011 года.

Выяснилось, что в этой глобальной, поистине циклопического размаха картине с общим планом мировой литературы и публицистики можно найти немало интересных сюжетов. Конечно, многие из них — просто забавные подтверждения общих истин: так, начиная с середины XIX века резко пошла на убыль популярность слова «Бог». Тогда оно встречалось в среднем один раз на тысячу слов, а теперь в три-четыре раза реже (для справки: слово «эволюция» пока все-таки далеко позади и встречается только один раз на 25 тысяч слов).

Некоторые другие сюжеты сложней. К примеру, выяснилось, что с каждым годом мы все быстрее забываем о прошлом. Численный показатель этого процесса — «период полураспада года», время, за которое дата года (1900-й, 1941-й, 2017-й и т.д.) начинает упоминаться в книгах в два раза реже, чем на пике своей популярности. Так, за 31 год частота использования даты «1880-й» упала в два раза по сравнению с уровнем собственно 1880 года, а частота использования «1973-й» сократились вдвое уже к 1983 году — еще одно подтверждение, что жизнь стала быстрей. [ ... ]

Читать полностью

Большое, но квантуется

Как физики пытаются нащупать границу между макро- и микромиром, создавая «котят Шредингера»

Что такое «квантовый объект»? Можно ли сделать такой объект видимым хотя бы в микроскоп и если можно, то зачем это надо? «Чердак» этим летом посетил лекцию Михаила Фейгельмана, заведующего кафедрой «Проблемы теоретической физики» факультета общей и прикладной физики МФТИ, и задал исследователю ряд вопросов о возможных приближениях к коту Шредингера.
Добавить в закладки
Комментарии

[ ... ]

Читать полностью