Как отличить текст ИИ от человека

Генерация текста нейросетями — это не воровство в прямом смысле, но академическое сообщество и поисковые системы борются с этим явлением. Сгенерированный контент не несет добавочной ценности. Как мы его находим? Мы анализируем «Машинную монотонность».

1. Перплексия (Предсказуемость)

Нейросети, такие как ChatGPT, работают как очень умная система автодополнения T9. Они всегда выбирают слово, которое статистически вероятнее всего должно идти следующим.

Если попросить ИИ продолжить фразу «Мальчик бросил в окно...», робот выберет «мяч» или «камень». Человек может написать «взгляд» или «старый башмак».

Наш алгоритм пропускает текст через собственную модель и измеряет уровень «удивления» (Перплексию). Если алгоритм легко угадывает каждое следующее слово автора — значит текст писал другой алгоритм. Низкая перплексия = высокая вероятность ИИ.

2. Бурстовость (Ритмический рисунок)

Люди пишут хаотично. Мы можем использовать короткое предложение из трех слов. Сразу за ним — огромное сложноподчиненное размышление с деепричастными оборотами, уходящее в сторону от основной темы. Потом снова короткое.

Машины пишут ровно. Они стараются делать абзацы одинаковой длины, с одинаковой структурой (введение, три пункта, вывод). Эта равномерность образует узнаваемый фрактальный узор, который легко детектируется на графике распределения токенов.

Симптомы генерации

Обилие вводных слов ("Безусловно", "Важно отметить", "В заключение"), ровные абзацы по 4-5 строк, отсутствие личного опыта и местоимений "Я".

Если наш детектор показывает вероятность генерации выше 70% — текст почти гарантированно не проходил через человеческую редактуру.

Детектор генерации

1. Перплексия (Предсказуемость)

2. Бурстовость (Ритмический рисунок)

Симптомы генерации

Цикл статей по методологии

Метод шинглов

Смысловые векторы

Математика оценки

Файлы Cookie