Кластеризация

- Методы кластеризации 
- Алгоритм кластеризации на основе суффиксных деревьев 

Кластеризацию полученных от внешней поисковой системы (BackEnd) документов является первым этапом создания системы, формирующей уточняющие вопросы. Под кластеризацией web документов понимается их динамическое разбиение на несколько тематических классов с аннотацией для каждого класса. 
Нами рассматривались несколько методов кластеризации: 

Single Link , Complete Link, Group Average - эти методы разбивают множество документов на кластеры, расположенные в древовидной структуре - dendrogramm, получаемой с помощью иерархической кластеризацией. 

K-means . Относится к не-иерархическим алгоритмам. Кластеры представлены в виде центроидов, являющихся "центром массы" всех документов, входящих в кластер. 

STC - Suffix Tree Clustering . Кластеры образуются в узлах специального вида дерева - суффиксного дерева, которое строится из слов и фраз входных документов 
На основе проведенного исследования было принято решение использовать в качестве метода кластеризации модифицированный алгоритм на основе суффиксных деревьев. 

Достоинства метода:

Недостатки метода:

Общая схема формирования тематических групп документов с использованием алгоритма STC:


Очистка документа
Определенеи базовых кластеров
Группировка базовых кластеров 

Если базовые кластеры пересекаются более чем по половине своих слов, то происходит их объединение.


Источник:
http://artcom.cs.msu.su/
Hosted by uCoz