Исправление грамматических ошибок на уровне подслов: универсальный подход


Исправление грамматических ошибок на уровне подслов: универсальный подход

Хабутдинов И.А. (НИУ МФТИ, Московская. обл., Россия)
Грабовой А.В. (НИУ МФТИ, Московская. обл., Россия; ИПУ РАН, Москва, Россия)
Чехович Ю.В. (НКРЯ, Москва, Россия)
Кильдяков А.С. (НКРЯ, Москва, Россия)
Ивахненко А.А. (НКРЯ, Москва, Россия)

Аннотация

В данном исследовании мы предлагаем полностью автоматическую методологию генерации данных, построения словаря правил исправления и обучения модели разметки последовательностей, специально ориентированную на исправление грамматических ошибок. Наш подход работает на уровне подслов SentencePiece, используя базовые преобразования – сохранение, добавление, замену и удаление, которые универсально применимы во всех языках, тем самым устраняя необходимость в грамматически-специфичных операциях. Используя алгоритм Левенштейна для генерации истинных исправлений и редакционных предписаний, мы получили полностью неконтролируемый и независимый от языка процесс генерации наборов данных. Мы применили наш метод к модели разметки последовательностей GECToR и достигли сопоставимых результатов качества для английского языка с оценками F0.5 62,4 на CoNLL-2014 (тестовый набор) и 61,9 на BEA-2019 (тестовый набор), без ручного конструирования правил и аннотации типов ошибок. Это показывает, что универсальные правила на уровне подслов могут стать альтернативой грамматическим операциям, при этом требуя только параллельные тексты – с ошибками и без ошибок.

Ключевые слова

исправление грамматических ошибок; обработка естественного языка; трансформеры; машинное обучение.

Издание

Труды Института системного программирования РАН, том 38, вып. 3, часть 1, 2026, стр. 187-196.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(3)-11

Для цитирования

Хабутдинов И.А., Грабовой А.В., Чехович Ю.В., Кильдяков А.С., Ивахненко А.А. Исправление грамматических ошибок на уровне подслов: универсальный подход. Труды Института системного программирования РАН, том 38, вып. 3, часть 1, 2026, стр. 187-196. DOI: 10.15514/ISPRAS-2026-38(3)-11.

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома