Оценка релевантности идентификации текстов об эмиграции большими языковыми моделями для мониторинга социальных медиа
Оценка релевантности идентификации текстов об эмиграции большими языковыми моделями для мониторинга социальных медиа
При помощи авторского метода интеллектуального поиска цифровых предикторов в соцсетях ученые исследуют эффективность внедрения технологий ИИ для решения научных задач при анализе больших объемов сгенерированного пользователями контента.
Во введении авторы статьи освещают текущий этап технологического развития, связанный с массовым внедрением ИИ и обусловленное этим разделение научного сообщества на оптимистов и пессимистов. Если первые подчеркивают адаптивность и высокую результативность ИИ благодаря машинному обучению и эффектам Total Data, то вторые — пессимисты — опасаются антропологического кризиса, десуверенизации государств и угроз гибели цивилизации. Особое внимание в разделе уделяется проблеме использования ИИ в контексте информационной войны и когнитивного оружия, а также вызовам, которые стоят перед исследователями при анализе социальных процессов в цифровом пространстве. В частности, авторы отмечают недостаточную функциональность существующих сервисов для мониторинга социальных медиа при решении социально-гуманитарных задач, требующих новой методологии работы со значимыми для общества дискурсами и нарративами, а не только с именами и брендами политических акторов.
Выполненный авторами обзор исследований подчеркивает важность методических экспериментов для оценки точности языковых моделей в социогуманитарных задачах. Так, Ле Менс и Галлего (2025) показали, что большие языковые модели (GPT-4, Llama 3 и др.) способны с точностью до 99% идентифицировать политические нарративы на разных языках, при этом их точность варьируется в зависимости от типа текста и темы (социальная политика определяется точнее в терминах политики экономической). В отличие от такого подхода с предварительным аккумулированием текстов, автоматизированные сервисы мониторинга социальных медиа, например «Медиалогия», позволяют не только выявлять релевантные документы, но и оценивать их популярность и распространенность, что, согласно авторам, важно для исследования цифрового медиапространства. При этом К. Бенуа (2020) подчеркивает сложности масштабирования и метрической обработки социогуманитарных данных, что замедляет развитие подходов к социально-медийному анализу.
Методика исследования базируется на разработанном авторами подходе Predictor Mining, предусматривающем интеллектуальный поиск цифровых предикторов в социальных медиа на основе лингвомаркеров. В рамках эксперимента проверялась точность идентификации и анализа эмиграционных нарративов языковой моделью сервиса «Медиалогия» через выборочный ручной контроль релевантности и тональности документов (позитивная, нейтральная, негативная). Анализ контекстов включал оценки целей, геолокации и конверсии эмиграционных интенций. Обоснование лингвомаркеров осуществлялось поэтапно: выявление релевантных медиа ресурсов, когнитивное картирование сообщений с установлением смысловых контекстов, подбор и тестирование лингвомаркеров, последующая их оптимизация на основе повторных выгрузок. Для когнитивного картирования была сформирована выборка из 250 популярных сообществ Telegram и «ВКонтакте», из которых отобраны 60 наиболее влиятельных и релевантных тематике исследования.
В результирующей части статьи авторы отмечают, что модель LSTM, встроенная в сервис «Медиалогия», эффективно учитывает долгосрочные зависимости в текстах социальных медиа, что важно для поиска релевантных эмиграционных нарративов. Ключевыми условиями успешной работы модели являются корректные лингвомаркеры и грамотно сформулированные поисковые запросы. Анализ показал, что лучший уровень релевантности достигается в контексте геолокации эмиграции благодаря использованию топонимов, которые сервис хорошо распознает. Однако ручная проверка выявила наличие ошибок: некоторые документы, автоматически отнесенные к геолокации, на деле относятся скорее к контексту конверсии эмиграционных интенций, что, по мнению ученых, указывает на ограничения и неточности нейросети при интерпретации сложного контекста сообщений.
Переходя к выводам, авторы констатируют: внедрение ИИ в сервис «Медиалогия» значительно улучшило процессы сбора, тонального анализа и кластеризации сообщений из социальных медиа. Так, после интеграции нейросети LSTM почти 98-99% контента корректно классифицируется по тональности, в отличие от прежних 5%, что повышает точность анализа эмоционального окраса цифровых следов, например, эмиграционных настроений молодежи. Однако для достижения высокой релевантности данных требуется тщательная настройка и многократная корректировка поисковых запросов и лингвомаркеров, поскольку модели пока не всегда исключают нерелевантные контексты. Тем не менее, авторы убеждены, что использование ИИ существенно расширяет научные и практические возможности социальных исследований, делая эти инструменты важным средством социальной диагностики при условии соблюдения всех методологических требований.
доктор социологических наук, главный научный сотрудник Центра политических исследований, Финансовый университет при Правительстве РФ, г. Москва, Россия
доктор политических наук, главный научный сотрудник Центра политических исследований, Финансовый университет при Правительстве РФ, г. Москва, Россия
связь