Векторный анализ: обнаружение рерайта

Шинглы отлично справляются с прямым копированием, но они бессильны перед качественным рерайтером. Если человек возьмет статью и перепишет ее «своими словами», не останется ни одного одинакового куска из 4 слов. Форма изменилась, но идея украдена.

Что такое векторное пространство?

Наш ИИ не читает текст как набор букв. Он превращает каждое предложение в список из сотен чисел (вектор). Этот процесс называется Эмбеддинг (Embedding).

Нейросеть обучена так, что слова с похожим смыслом находятся математически рядом. Если мы вычтем из вектора слова «Король» вектор «Мужчина» и прибавим «Женщина», мы получим вектор слова «Королева».

Алгоритм косинусного сходства

Чтобы понять, списан ли абзац, мы берем вектор подозрительного текста и вектор оригинальной статьи, а затем вычисляем угол между ними в многомерном пространстве.

cos(θ) = (A · B) / (||A|| × ||B||)

Формула косинусного сходства (Cosine Similarity)

Как это интерпретировать:

Если cos(θ) ≈ 1: Векторы смотрят в одну сторону. Тексты идентичны по смыслу (даже если написаны на разных языках!). Вердикт: Рерайт.
Если cos(θ) ≈ 0: Векторы перпендикулярны. Авторы пишут о совершенно разных вещах. Вердикт: Оригинал.

Пример из реальной жизни

Оригинал

«Инвестиции в недвижимость являются надежным способом сохранения капитала в период инфляции».

Хитрый рерайт

«Вложение средств в квадратные метры помогает защитить деньги от обесценивания».

Классический антиплагиат покажет 100% уникальность (ни одного общего слова). Алгоритм покажет сходство векторов в 94% и пометит текст как глубокий синонимический рерайт.

Смысловые эмбеддинги

Что такое векторное пространство?

Алгоритм косинусного сходства

Пример из реальной жизни

Цикл статей по методологии

Метод шинглов

Детектор генерации

Математика оценки

Файлы Cookie