Обнаружение человеческих правок в русскоязычных сгенерированных научных текстах

Новости

20 Мая, 2026 Итоги конкурса на замещение вакантных должностей

29 Апреля, 2026 Итоги конкурса на замещение вакантных должностей

14 Апреля, 2026 На «Иванниковских чтениях» 2026 пройдут культурно-просветительская программа и медицинский трек

Обнаружение человеческих правок в русскоязычных сгенерированных научных текстах

Малых В.А. (Университет ИТМО, Санкт-Петербург, Россия)
Дорош М. (Университет ИТМО, Санкт-Петербург, Россия)

Аннотация

Большие языковые модели (LLMs) быстро развиваются и всё активнее внедряются в различные сферы жизни. Тексты, создаваемые этими моделями, становятся всё менее отличимыми от написанных человеком, что создаёт серьёзные трудности при выявлении синтетического контента. В данной работе мы исследуем методы обнаружения человеческих правок и корректировок в аннотациях научных статей на русском языке, изначально сгенерированных различными LLM. Помимо построения мощной модели детектирования на основе энкодеров, использующей архитектуры BERT и RoBERTa с современными методами обучения, мы также сосредоточены на анализе устойчивости к смещению домена, стремясь к обобщению на модели, не встречавшиеся при обучении. Мы показываем, что наш подход превосходит базовые решения на основе LLM в режиме обучения по нескольким примерам даже на небольших выборках, и исследуем, в каких сценариях добавление слоя CRF улучшает метрики, а в каких – нет.

Ключевые слова

Большие языковые модели; детекция сгенерированного контента; обобщение на неизведанные домены.

Издание

Труды Института системного программирования РАН, том 38, вып. 3, часть 2, 2026, стр. 149-160.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2026-38(3)-26

Для цитирования

Малых В.А., Дорош М. Обнаружение человеческих правок в русскоязычных сгенерированных научных текстах. Труды Института системного программирования РАН, том 38, вып. 3, часть 2, 2026, стр. 149-160. DOI: 10.15514/ISPRAS-2026-38(3)-26.

Полный текст статьи в формате pdf (на английском)

Вернуться к содержанию тома

На нашем сайте мы используем cookie файлы, содержащие информацию о предыдущих посещениях веб-сайта. Данные обрабатываются для улучшения качества работы нашего веб-сайта. Если вы не хотите использовать cookie файлы, измените настройки браузера.

Понятно