Descore

Риски

Распределение ключей и Spam Risk

Этот слой показывает разброс плотности ключей, кучность повторов и локальные всплески слов.

KDSP

Keyword Density Std Percent

Стандартное отклонение плотности ключевых слов. Документ разбивается на чанки примерно по 100 слов, затем считается разброс плотности ключей между чанками. Высокое значение указывает на локальные участки с чрезмерной плотностью ключей.

Разброс растет, когда ключи собираются в отдельных чанках текста и почти исчезают в других. Равномерное распределение снижает стандартное отклонение.

DCV

Density CV

Коэффициент вариации плотности ключевых слов. Нормализует разброс плотности ключей относительно среднего значения. Это позволяет сравнивать документы с разной общей плотностью ключей.

CV показывает не абсолютную плотность, а ее относительную нестабильность. Значение растет, когда разброс велик по сравнению со средней плотностью ключей.

CC

Clustering Coefficient

Коэффициент кластеризации ключевых слов в тексте. Смотрит на позиции ключевых слов: расстояния между ними, долю слишком близких соседей и распределение по секциям. Чем выше значение, тем сильнее ключи собираются в сгустки.

Коэффициент растет от коротких расстояний между ключами, плотных соседних повторов и неравномерного распределения по секциям текста.

SR

Spam Risk

Риск спама. Метрика оценивает риск локальных всплесков повторяющихся слов на странице после исключения стоп-слов, коротких токенов и чисел (0-1). Ищет локальные всплески повторяющихся значимых слов в окнах по 40 токенов. Итог берется по самому сильному сгустку, поэтому метрика ловит именно плотный локальный спам.

Spam Risk реагирует на самый сильный локальный сгусток повторяющегося слова. Одной высокой частоты по всему тексту мало: важна плотность внутри коротких окон.