Российские ученые сделали программу для вычисления педофилов в интернете

Пример, построенной на текстах интернет-чатов решетки. Изображение предоставлено пресс-службой НИУ ВШЭ

Сотрудники НИУ ВШЭ помогли голландской полиции создать компьютерную программу, способную находить педофилов в интернет-чатах и даже определять степень их потенциальной опасности. Это один из четырех совместных проектов, реализованных учеными Лёвенского католического университета, математиками НИУ ВШЭ и экспертами криминальной полиции.

Новый метод анализа позволяет визуализировать объектно-признаковые зависимости и широко применяется в информатике. Например, в компьютерной лингвистике, для анализа блогов и поиска сходства текстовых документов или в формировании рекомендаций.

Сотрудничество россиян с голландской полицией началось в 2010 году, когда молодой ученый Лёвенского университета Йонас Пульманс пригласил заведующего международной научно-учебной лабораторией интеллектуальных систем и структурного анализа Сергея Кузнецова и его коллег к участию в проектах по анализу криминальной обстановки в Амстердаме. «Мы могли предложить программные и методологические средства обработки данных, основанные на решетках формальных понятий, — пояснил Кузнецов. — Йонас Пульманс только начинал заниматься этой темой, а мы уже имели значительный опыт».

За четыре года совместной работы ученые Вышки приняли участие в нескольких проектах, связанных с домашним насилием, торговлей людьми, терроризмом и выявлением педофилов в интернет-чатах.


В последнем случае нужно было определить взрослых людей, которые пытаются найти через сеть несовершеннолетних сексуальных партнеров. Обычно злоумышленник действует так: подыскивает интернет-ресурс, привлекательный для детей и подростков, знакомится с другими участниками, затем пытается наладить более тесный контакт с потенциальной жертвой, завести разговор на сексуальные темы, «подогреть» беседу, и, наконец, склонить ребенка к реальной встрече.

Объем информации в этих чатах огромен, их чтение и анализ вручную могут занимать слишком много времени. Поэтому полиции требовалась программа, которая смогла бы автоматически отыскивать возможных извращенцев и также оценивать уровень их потенциальной опасности для ребенка.

Как плести сети

Исходными данными для анализа была большая коллекция текстов. Ее составлением и другими прикладными вопросами (где взять данные, на каких языках и т.д.) занимались эксперты криминальной полиции. Российские специалисты готовили теоретическую базу системы. «Мы должны были выявить признаки, которые с большой вероятностью указывали бы, что это чат с педофилом», — рассказывает старший научный сотрудник международной научно-учебной лаборатории интеллектуальных систем и структурного анализа ВШЭ Алексей Незнанов.

Отбирались все возможные подозрительные слова и словосочетания, которые делились по атрибутам: обсуждение внешности, организация свидания, обсуждение сексуальных предпочтений и аспектов встреч и т.д. Помимо интересующего слова в базу включались все варианты его сокращенного написания, варианты с искажениями и ошибками, а также варианты использованием цифр вместо букв и слов — популярный прием СМС и интернет-сленга (2 — to, 4 — for и так далее).

Кроме того, коллеги из Лёвенского университета предложили итеративную методологию анализа данных, которая получила название CORDIET. Эта методика позволяет одновременно сортировать информацию, непрерывно анализировать результаты и вносить коррективы в предшествующие этапы работы.

Возможности новой системы

В результате исследования были созданы программные средства, позволяющие автоматизировать процесс поиска интернет-педофилов. Работает это следующим образом: сначала вводится некоторая коллекция переписок, указываются их метаданные (реквизиты, теги и прочие), и в этих текстах ищут ключевые слова. После строится объектно-признаковое описание данных, так называемая решетка формальных понятий, на визуализации которых видно, какие темы поднимались в каждом сеансе общения между пользователями. С таким методом мониторинга аналитик может быстро делать выводы о потенциальной опасности пользователя.

Получающиеся визуальные схемы, по словам Незнанова, так просты, что «научиться работать с ними можно буквально за день».


Программное обеспечение было протестировано эмпирически, а результаты описаны в серии научных статей. Правда, поскольку данные чатов, собранные голландской полицией, по закону не могут быть обнародованы, то для демонстрации работы системы использовались данные американской общественной организации Perverted-Justice, которая также занимается поиском педофилов в интернете. Только роли потенциальных жертв в этих диалогах исполняли взрослые люди, которым нужно было втянуть в виртуальное общение потенциальных педофилов. Появление жертв в этом случае не было репрезентативным, но поведение подозреваемых было вполне реалистично.

Программа, разработанная на основе теоретической базы ученых НИУ ВШЭ, уже используется полицией Амстердама.
Теги:

Читать еще на Чердаке: