Все новости

Ученые проверили достоверность информации в твитах

Американские лингвисты определили слова и предложения, которые помогают оценить достоверность информации в соцсетях.

Посты в соцсетях давно стали источником новостей, который используют журналисты. В связи с этим встает важный вопрос: насколько можно доверять информации из того или иного источника. Ученые из Технологического института Джорджии предложили лингвистический инструмент, который поможет определить уровень информационной достоверности постов. В его основе положение о том, что некоторые слова и синтаксические конструкции говорят о достоверности или недостоверности текста. Например, уклончивые выражения «обычно», «в основном», «по-видимому» (hedge words), равно как и выражение положительных эмоций, считают авторы, — признак низкой достоверности текста.

Исследователи проанализировали 66 миллионов сообщений в Twitter, относящихся к 1377 событиям, например распространению вируса Эбола в Западной Африке, террористической атаке на редакцию «Шарли Эбдо», взрывам в Бостоне. Эти твиты — часть огромной базы данных CREDBANK, где все сообщения разделены по событиям и снабжены оценкой достоверности информации, которая в них содержится. Комментарии о достоверности информации были получены от виртуальных информантов с помощью краудсорсинговой платформы Amazon Mechanical Turk. Правдивость твитов оценивалась по пятибалльной шкале Лайкерта от [-2] «абсолютно недостоверно» до [+2] «абсолютно достоверно». Достоверность самих оценок проверялась серией контролируемых экспериментов.

Опираясь на твиты из корпуса и комментарии к ним, ученые выделили 15 лингвистических категорий, с помощью которых можно оценивать достоверность информации, размещенной в соцсетях. Это модальные глаголы и выражения («быть должным», «мочь»), маркеры «очевидности» («утверждать», «требовать»), союзы и предлоги («но», «или», «кроме»), цитаты, словесное выражение положительных или отрицательных чувств, преувеличения, уклончивые выражения и так далее.

Лингвисты обратили внимание на то, что выражения, передающие двусмысленность («сбивающий с толку», «недоверие»), равно как и оценивающие ситуацию («пристально изучать», «обдумывать»), ассоциировались у информантов с низким уровнем достоверности. Удивительно, что, несмотря на высокую степень доверия к выражениям положительных эмоций, слова, передающие положительное, но насмешливое отношение к событию («ха», «ухмыляться», «шутить») ассоциировались с низкой достоверностью. Уклончивые выражения, или hedge words, соотносились с низким уровнем достоверности, а слова-утверждения, напротив, с высоким.

Подводя итог, исследователи говорят, что получили лишь эмпирические данные, а не самодостаточную систему, которые позволила бы точно определить достоверность информации. Тем не менее в комбинации с другими критериями — структурой информации, типом и тематикой события — лингвистический инструмент в будущем может стать одним из важнейших компонентов автоматизированной системы.

Результаты исследования находятся в свободном доступе.

О том, как ученые используют данные соцсетей для своих исследований, смотрите на «Чердаке».

 Евгения Щербина