DOI: https://doi.org/10.32515/2664-262X.2025.12(43).1.90-98

Виявлення джерел та учасників пропаганди в TikTok із використанням методів машинного навчання

О. В. Лозинська, О. О. Марків, В. А. Висоцька

Про авторів

Лозинська Ольга Володимирівна , доцент, кандидат технічних наук, доцент кафедри інформаційних систем і мереж, Національний університет «Львівська політехніка», м. Львів, Україна, ORCID: 0000-0002-5079-0544, e-mail: olha.v.lozynska@lpnu.ua

Марків Оксана Олександрівна, доцент, кандидат технічних наук, доцент кафедри інформаційних систем і мереж, Національний університет «Львівська політехніка», м. Львів, Україна, ORCID: 0000-0002-1691-1357, e-mail: oksana.o.markiv@lpnu.ua

Висоцька Вікторія Анатоліївна , доцент, доктор технічних наук, професор кафедри інформаційних систем і мереж, Національний університет «Львівська політехніка», м. Львів, Україна, ORCID: 0000-0001-6417-3689, e-mail: victoria.a.vysotska@lpnu.ua

Анотація

У роботі представлено підхід до виявлення джерел дезінформації, фейків та пропаганди в соціальній мережі TikTok з використанням сучасних методів обробки природної мови (NLP) та штучного інтелекту. Основною метою дослідження є створення системи, здатної автоматично аналізувати коментарі до відео з пропагандистським вмістом, а також джерела їх поширення та потенційних учасників пропаганди. У межах дослідження вручну зібрано корпус коментарів українською та російською мовами, які класифікувались як пропагандистські або нейтральні. На основі проведеного аналізу датасету, визначено певні критерії для виявлення джерел дезінформації та потенційних її учасників, зокрема через такі як використання російської мови, повторювані пропагандистські наративи, а також фейковість акаунтів. Розроблено два підходи до аналізу: класифікаційна модель на основі RandomForestClassifier та кластеризаційна модель з використанням алгоритму KMeans. Обидві моделі використовують трансформери RoBERTa для відповідних мов, а також додаткову вручну сформовану множину ознак коментарів. Побудовано Telegram-бот і графічний інтерфейс для зручного використання системи, що дозволяє отримувати коментарі з TikTok, класифікувати їх і надавати користувачеві результати аналізу. Запропонована система є актуальним інструментом для інформаційної безпеки та боротьби з пропагандою в цифровому середовищі. У результаті дослідження було розроблено ефективну систему для автоматичного виявлення російської пропаганди в коментарях до відео в TikTok. Використання сучасних моделей трансформерів (RoBERTa), алгоритмів машинного навчання (класифікації та кластеризації), а також розробка повноцінного програмного комплексу з графічним інтерфейсом дозволили реалізувати повноцінний цикл аналізу даних - від збору до візуалізації результатів. Експерименти показали високу чутливість класифікаційної моделі до виявлення пропагандистських повідомлень, а відповідно і відслідковувати потенційних учасників дезінформацію та пропаганду. Однак через дисбаланс вибірки були виявлені обмеження у точності для нейтрального контенту. Кластеризаційна модель дозволила краще працювати з "сірими зонами" - неоднозначними коментарями. Додатково проведено аналіз параметрів, що дозволяють виявляти не лише пропаганду, а й потенційні джерела її поширення. До таких параметрів відносяться використання характерних пропагандистських наративів, мови коментарів (переважно російська), та ознаки фейковості акаунтів - однотипність дописів, низький рівень автентичності профілю тощо. Створена система може бути інтегрована в платформи моніторингу інформаційного простору, що значно посилить можливості державних та громадських інституцій у протидії гібридним загрозам в інформаційній сфері.

Ключові слова

дезінформація, джерела пропаганди, датасет, модель RoBERTa, кластеризація, потенційні учасники пропаганди, множина критеріїв для виявлення учасників пропаганди

Повний текст:

PDF

Посилання

1. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). Roberta: A robustly optimized Bert pretraining approach. arXiv preprint arXiv:1907.11692. DOI: 10.48550/arXiv.1907.11692.

2. Arif, M., Tonja, A. L., Ameer, I., Kolesnikova, O., Gelbukh, A., Sidorov, G., & Meque, A. G. M. (2022). CIC at CheckThat! 2022: Multi-class and Cross-lingual Fake News Detection. CEUR Workshop Proceedings (pp. 434 – 443).

3. Kalraa, S., Verma, P., Sharma, Y., & Chauhan, G. S. (2021). Ensembling of Various Transformer Based Models for the Fake News Detection Task in the Urdu Language. Proceedings of the Forum for Information Retrieval Evaluation.

4. Prytula, M. (2024). Fine-tuning BERT, DistilBERT, XLM-RoBERTa, and Ukr-RoBERTa models for sentiment analysis of Ukrainian language reviews. Artificial Intelligence, 29(2), 85–97. https://doi.org/10.15407/jai2024.02.085

5. Panchenko, D., Tytarenko, S., et al. (2022). Evaluation and Analysis of the NLP Model Zoo for Ukrainian Text Classification. In Information and Communication Technologies in Education, Research, and Industrial Applications (pp. 109–123). Springer. https://doi.org/10.1007/978-3-031-20834-8_6.

6. Dementieva, D., Babakov, N., & Fraser, A. (2025, May 29). EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian. arXiv preprint. https://doi.org/10.48550/arXiv.2505.23297.

7. Saif M. Mohammad (2022). Ethics Sheet for Automatic Emotion Recognition and Sentiment Analysis. Computational Linguistics, 48(2), 239–278. https://doi.org/10.48550/arXiv.2109.08256.

8. Shynkarov, Y., Solopova, V., & Schmitt, V. (2025). Improving Sentiment Analysis for Ukrainian Social Media Code-Switching Data. In Proceedings of UNLP-2025 Workshop (COSMUS benchmark).

9. Haltiuk, M., & Smywiński-Pohl, A. (2024). LiBERTa: Advancing Ukrainian Language Modeling through Pre-training from Scratch. In Proceedings of the Third Ukrainian Natural Language Processing Workshop (pp. 120–128).

10. Dorenskyi, O.P., Ulichev, O.S., Zadorozhnyi, K.O., Kovalenko, A.S., & Dreeva, G.M. (2024). The conceptual model of the information counteraction system of the coordination center for national security and defense issues. Central Ukrainian Scientific Bulletin. Technical Sciences, 10(41), Part 2, 23-31. DOI: 10.32515/2664-262X.2024.10(41).2.23-31.

11. Lozynska, O.V., Markiv, O.O., & Vysotska, V.A. (2025). Method for detecting sources of disinformation based on ensemble machine learning models. Bionics of Intelligence, 1(102), 11–19. DOI: 10.30837/ bi.2025.1(102).02.

Пристатейна бібліографія ГОСТ

1. Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. Roberta: A robustly optimized Bert pretraining approach. 2019. arXiv preprint arXiv:1907.11692. URL: https://doi.org/10.48550/arXiv.1907.11692.

2. Arif M., Tonja A. L., Ameer I., Kolesnikova O., Gelbukh A., Sidorov G., Meque A. G. M. CIC at CheckThat! 2022: Multi-class and Cross-lingual Fake News Detection. CEUR Workshop Proceedings 2022. Pp. 434 – 443.

3. Kalraa S., Vermas P., Sharma Y., Chauhan G. S. Ensembling of Various Transformer Based Models for the Fake News Detection Task in the Urdu Language. Proceedings of the Forum for Information Retrieval Evaluation. 2021.

4. Prytula M. Fine-tuning BERT, DistilBERT, XLM-RoBERTa, and Ukr-RoBERTa models for sentiment analysis of Ukrainian language reviews. Artificial Intelligence. 2024. № 29(2). Pp. 85–97. URL: https://doi.org/10.15407/jai2024.02.085.

5. Panchenko D., Tytarenko S., et al. Evaluation and Analysis of the NLP Model Zoo for Ukrainian Text Classification. In Information and Communication Technologies in Education, Research, and Industrial Applications. Springer. 2022. Pp. 109–123. URL: https://doi.org/10.1007/978-3-031-20834-8_6.

6. Dementieva D., Babakov N., Fraser A. EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian. arXiv preprint. 2025. URL: https://doi.org/10.48550/arXiv.2505.23297.

7. Saif M. Mohammad. Ethics Sheet for Automatic Emotion Recognition and Sentiment Analysis. Computational Linguistics. 2022. № 48(2). Pp. 239–278. URL: https://doi.org/10.48550/arXiv.2109.08256.

8. Shynkarov Y., Solopova V., Schmitt V. Improving Sentiment Analysis for Ukrainian Social Media Code-Switching Data. In Proceedings of UNLP-2025 Workshop (COSMUS benchmark). 2025.

9. Haltiuk M., Smywiński-Pohl A. LiBERTa: Advancing Ukrainian Language Modeling through Pre-training from Scratch. In Proceedings of the Third Ukrainian Natural Language Processing Workshop. 2024. Pp. 120–128.

10. Доренський О.П., Улічев О.С., Задорожний К.О., Коваленко А.С., Дрєєва Г.М. Концептуальна модель системи інформаційного протиборства координаційного центру з питань національної безпеки і оборони. Центральноукраїнський науковий вісник. Технічні науки. 2024. Вип. 10(41). Ч. 2. С. 23-31. URL: https://doi.org/10.32515/2664-262X.2024.10(41).2.23-31.

11. Лозинська О.В., Марків О.О., Висоцька В.А. Метод виявлення джерел дезінформації на основі ансамблевих моделей машинного навчання. Біоніка інтелекту. 2025. № 1 (102). С. 11-19. URL: https://doi.org/10.30837/ bi.2025.1(102).02.


Copyright (c) 2025 О. В. Лозинська, О. О. Марків, В. А. Висоцька