Descore

Словарь

Лексическое разнообразие

MATTR, Shannon, Hapax и Dislegomena показывают, как устроен словарь документа и насколько он разнообразен.

MD

MATTR Diversity

Индекс лексического разнообразия MATTR. MATTR считает TTR по скользящим окнам и поэтому меньше зависит от длины текста, чем обычное отношение уникальных слов к общему числу. Для коротких документов применяется защитная логика, чтобы не принимать заглушки за качественный текст.

MATTR растет, когда в скользящих окнах появляется больше разных слов. Простое увеличение объема не гарантирует рост, если текст повторяет один и тот же словарь.

SE

Shannon Entropy

Энтропия Шеннона. (мера разнообразия словаря). Оценивает равномерность распределения слов: чем выше значение, тем меньше текст сводится к нескольким повторяющимся терминам. Низкая энтропия часто указывает на бедный или переоптимизированный словарь.

Энтропия повышается при более равномерном распределении слов и падает, когда несколько терминов забирают на себя большую часть частот.

HPX

Hapax Percent

Процент слов, встречающихся только один раз. Считается как доля слов словаря, встретившихся один раз, преимущественно по словам без стоп-слов. Помогает оценить богатство словаря и наличие уникальных терминов.

Долю Hapax повышают новые значимые слова, которые встречаются один раз. При росте повторов этих слов показатель снижается, потому что они выходят из зоны hapax.

DSL

Dislegomena Percent

Процент слов, встречающихся ровно два раза. Показывает долю слов, встретившихся ровно два раза. Такая зона часто отражает естественные повторы: термин уже закреплен в тексте, но еще не превращен в навязчивый рефрен.

Dislegomena растет, когда слова встречаются ровно два раза. Третий повтор уже выводит слово из этой группы, поэтому метрика чувствительна к умеренным повторам.