«Дерево мнений»: метод динамического мэппинга онлайн-дискуссий на основе нейросетевого тематического моделирования и абстрактивной суммаризации
«Дерево мнений»: метод динамического мэппинга онлайн-дискуссий на основе нейросетевого тематического моделирования и абстрактивной суммаризации
Современные модели онлайн‑делиберации поднимают вопросы о формировании публичного консенсуса. Нейросетевые методы позволяют выявлять согласие и разногласия, но пока нет подходов, учитывающих накопительную динамику мнений. Решение этой научной проблемы предлагается в данной статье.
Во введении авторы раскрывают эволюцию ключевого понятия «делиберация» — от рационального и ограниченного по числу участников процесса поиска консенсуса в публичной сфере до хаотичных, диссипативных дискуссий в социальных сетях, где консенсус достигается редко. Современные соцсети усложнили процесс обсуждения, сделав его менее предсказуемым, но одновременно предоставили огромные возможности для анализа общественного мнения и его динамики. Основная проблема современных исследований — учет временной эволюции тем и мнений в онлайн-дискуссиях, где традиционные методы кластеризации не отражают динамику и групповые связи. Авторы статьи подчеркивают важность разработки новых подходов, позволяющих структурно и тематически анализировать обсуждения с учетом времени, что помогает точнее отслеживать изменения в темах и поляризацию мнений, экономит время исследователей и открывает новые перспективы для теоретического понимания общественного мнения и делиберативных процессов в цифровую эпоху.
Обзор литературы авторы разделяют на два блока. В первой части подчеркивается накопительный характер общественного мнения в соцсетях, где современные дискуссии включают паттерны поляризации, «эхо-камеры» и вирусное распространение информации, что расширяет классические концепции публичной делиберации. Несмотря на низкое делиберативное качество высказываний и фрагментарное участие пользователей, в своей совокупности мнения влияют на институциональных акторов, что требует пересмотра нормативных моделей публичной сферы. Такой накопительный подход позволяет рассматривать общественное мнение как динамический процесс с учетом паттернов и эффектов его формирования.
Второй блок обзора посвящен методам картирования тематики и мнений в онлайн-дискуссиях, развивавшимся с конца 1990 гг. в рамках направления “Topic Detection and Tracking” (TDT). Современные подходы используют тематическое моделирование, тональный анализ и кластеризацию в сочетании со структурным и пространственным анализом для сегментирования, идентификации и отслеживания эволюции обсуждаемых тем и мнений. При этом, отмечают авторы, динамический смысловой мэппинг видится как перспективный инструмент не только для оптимизации обработки больших текстовых данных, но и для глубокого анализа природы и структуры общественного мнения в цифровой среде.
Методология представленного исследования включает пять этапов: сбор и подготовка данных; построение «дерева мнений» с помощью нейросетевого тематического моделирования BERTopic для выявления макротем и точек ветвления; определение «толщины ветвей» и визуализация результата; создание и оценка суммаризаций для отдельных ветвей с целью выявления пользовательских мнений. Для тестирования метода использовались англоязычные данные ресурса Reddit, где с помощью веб-краулера авторами было собрано 54 565 сообщений по теме COP27/UNFCCC2022 за период с мая по ноябрь 2022 г. Важным инструментом стала модифицированная BERTopic-модель, основанная на эмбеддингах all-MiniLM-L6-v2, сокращении размерности алгоритмом UMAP и иерархической кластеризации HDBSCAN, что позволило ученым автоматически выявлять тематические кластеры без необходимости заранее задавать их число.
Результаты моделирования и суммаризации показали, что с помощью дообученного BERTopic были выделены 72 темы, сгруппированные в 10 макротем, одна из которых — «финансы», детализирована в пять подтем с четко различающимися ключевыми словами, что, по мнению авторов, свидетельствует о высоком качестве тематической модели и ее способности точно выявлять контекст и точки бифуркации. На примере небольшой части «финансов» и двух ветвей по теме майнинга криптовалюты выявлено, что разные подходы к суммаризации дают различные результаты: краткие суммаризации эффективно фиксируют «свернутые» и полярные мнения пользователей, позволяя одновременно оценить качество тем и выявить ключевые позиции в дискуссии (например, обсуждение энергоемкости блокчейн-сетей или критика майнинга биткоина). Таким образом, утверждают авторы, представленный ими метод позволяет одновременно структурировать крупные дискуссии и получать информативные, сжатые обзоры мнений.
Таким образом, метод «дерево мнений», основанный на нейросетевом тематическом моделировании и суммаризации, эффективно отслеживает тематику, динамику событий и мнения участников онлайн-дискуссий, выявляя разнообразие форм выражения и отсутствие консенсуса. Он гибок и позволяет работать с данными в реальном времени, используя суммаризации разной длины. Основные ограничения связаны с неоднозначностью разбиения на макротемы, выбором порогов и объемов текста для анализа, а также сложностями суммирования длинных постов и дифференциации комментариев от основной информации. Возможности дальнейшего развития включают интеграцию социально-групповых данных участников для более точного отслеживания эволюции мнений. Несмотря на ограничения, заключают авторы, разработанный ими метод показывает потенциал ИИ для комплексного обзора дискуссий, выявления поляризации и оценки консенсуса по социально значимым вопросам.
доктор политических наук, профессор кафедры медиаменеджмента массовых коммуникаций, Институт «Высшая школа журналистики и массовых коммуникаций», Санкт-Петербургский государственный университет, г. Санкт-Петербург, Россия
кандидат технических наук, заведующий кафедрой технологии программирования, факультет прикладной математики – процессов управления, Санкт-Петербургский государственный университет, г. Санкт-Петербург, Россия
младший научный сотрудник, факультет прикладной математики – процессов управления, Санкт-Петербургский государственный университет, г. Санкт-Петербург, Россия
связь