Descore

Повторы

Тошнота и n-граммы

Метрики повторов показывают концентрацию отдельных слов, устойчивых пар и трехсловных конструкций.

CN

Classic Nausea

Абсолютная тошнота. sqrt(max_frequency) - корень из максимальной частоты слова. Берется квадратный корень из максимальной частоты значимого слова без стоп-слов. Это быстрый индикатор того, не давит ли одно слово на весь документ.

Классическую тошноту двигает самый частый значимый токен: повтор лидирующего слова повышает значение, но из-за квадратного корня рост сглаживается.

RN

Relative Nausea

Процент самого частого слова. (max_frequency/total_words)*100. Сравнивает самое частое значимое слово с общим объемом текста. Удобна для поиска переспама, потому что учитывает не только число повторов, но и размер документа.

Метрика растет вместе с процентом самого частого значимого слова: чем короче текст при том же числе повторов, тем выше значение.

AN

Academic Nausea

Академическая тошнота. процент наиболее частых слов в тексте. Считает удельную энергию повторов значимых слов по RMS-логике и исключает гапаксы. Метрика чувствительна к группе часто повторяющихся слов, а не только к одному лидеру.

Значение растет от группы часто повторяющихся значимых слов. Единичные слова не учитываются, поэтому метрика показывает не богатство словаря, а энергию повторов.

BN

Bigram Nausea

Тошнота по биграммам. (словосочетаниям из 2 слов). Берет самую частую пару соседних слов и переводит ее повторяемость в процент от объема текста. Помогает ловить переспам устойчивых двухсловных ключей.

Биграммную тошноту двигает самая частая пара соседних слов: чем больше ее доля относительно объема текста, тем выше риск фразового переспама.

BDS

Bigram Dominance

Индекс доминации биграмм. повторяемость × NPMI × доминация лидера (0–100). Оценивает не только частоту биграммы, но и силу связи слов через NPMI, вес повтора и доминацию лидера. Поэтому редкие случайные пары не раздувают показатель.

Доминация биграмм усиливается, когда одна связка одновременно часто повторяется, имеет сильную статистическую связь слов и заметно отрывается от остальных пар.

TDS

Trigram Dominance

Индекс доминации триграмм. повторяемость × NPMI3 × доминация лидера (0–100). Расширяет ту же идею на тройки слов: учитывает NPMI3, повторяемость и доминацию самой сильной фразы. Полезно для длинных коммерческих ключей и шаблонных оборотов.

Для триграмм важна не только частота, но и устойчивость всей трехсловной конструкции: сильная связка с доминацией лидера поднимает показатель быстрее случайных повторов.

TRN

Trigram Nausea

Тошнота по триграммам. (словосочетаниям из 3 слов). Берет самую частую тройку соседних слов и считает ее долю в общем тексте с учетом длины фразы. Показывает, где повторяются уже не слова, а целые конструкции.

Триграммная тошнота растет от повторов одной и той же трехсловной фразы. Метрика чувствительна к шаблонным оборотам и длинным коммерческим ключам.