Обнаружение аномалий в журналах компьютерных систем на основе полуобучения и обработки естественного языка


Обнаружение аномалий в журналах компьютерных систем на основе полуобучения и обработки естественного языка

Кирячёк В.А. (РУДН, Москва, Россия)
Салпагаров С.И. (РУДН, Москва, Россия)

Аннотация

Обнаружение аномалий по журналам событий компьютерных систем имеет определяющее значение для поддержания надёжности технологических инфраструктур. В этом исследовании представлен новый подход, сочетающий машинное обучение с частичным привлечением учителя вместе с обработкой естественного языка для анализа журналов событий, направленный на раннее выявление потенциальных сбоев в компьютерных системах. В исследовании используется специализированный парсер журналов событий, основанный на семантических графах, наряду с контекстно-независимыми моделями векторного представления текста, с фокусом на коллективных, а не точечных аномалиях. Эксперименты проводились как на общедоступном наборе данных HDFS, так и на собственном из базы данных Vertica, содержащем более 830 миллионов журналов событий. Результаты показывают, что полученное решение, основанное на кодировщиках со сверточными слоями, может эффективно обнаруживать системные аномалии в сочетании с соответствующими методами предварительной обработки. Подход достиг впечатляющих результатов на наборе HDFS, особенно при использовании взвешивания токенов с помощью TF-IDF, с метриками Fault Detection Rate равной 0,982 и ROC AUC равной 0,811. Кроме того, тестирование на базе данных Vertica успешно выявило аномальные периоды, предшествующие системным сбоям. Результаты показывают, что подходы предиктивной диагностики, традиционно применяемые к техническому оборудованию, могут быть успешно адаптированы для компьютерных систем, позволяя проводить профилактическое вмешательство до возникновения критических сбоев и потенциально снижая значительные затраты, связанные с простоем системы.

Ключевые слова

обнаружение аномалий; анализ журналов событий; машинное обучение с частичным привлечением учителя; обработка естественного языка; предиктивная диагностика; TF-IDF векторизация.

Издание

Труды Института системного программирования РАН, том 38, вып. 3, часть 2, 2026, стр. 133-148.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(3)-25

Для цитирования

Кирячёк В.А., Салпагаров С.И. Обнаружение аномалий в журналах компьютерных систем на основе полуобучения и обработки естественного языка. Труды Института системного программирования РАН, том 38, вып. 3, часть 2, 2026, стр. 133-148. DOI: 10.15514/ISPRAS-2026-38(3)-25.

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома