Clustering gerarchico vs partizionale

Il clustering è una tecnica di apprendimento automatico per l'analisi dei dati e la divisione in gruppi di dati simili. Questi gruppi o insiemi di dati simili sono noti come cluster. L'analisi dei cluster esamina gli algoritmi di clustering in grado di identificare automaticamente i cluster. Gerarchico e Partizionale sono due di queste classi di algoritmi di clustering. Gli algoritmi di clustering gerarchici suddividono i dati in una gerarchia di cluster. Gli algoritmi parziali dividono il set di dati in partizioni reciprocamente disgiunte.

Che cos'è il clustering gerarchico?

Gli algoritmi di clustering gerarchici ripetono il ciclo di fusione dei cluster più piccoli in quelli più grandi o di divisione dei cluster più grandi in quelli più piccoli. In ogni caso, produce una gerarchia di cluster chiamata dendogramma. La strategia di clustering agglomerativo utilizza l'approccio dal basso verso l'alto di fusione dei cluster in quelli più grandi, mentre la strategia di clustering divisivo utilizza l'approccio dall'alto verso il basso di divisione in quelli più piccoli. In genere, l'approccio avido viene utilizzato per decidere quali cluster più grandi / più piccoli vengono utilizzati per l'unione / divisione. La distanza euclidea, la distanza di Manhattan e la somiglianza del coseno sono alcune delle metriche di somiglianza più comunemente usate per i dati numerici. Per i dati non numerici, vengono utilizzate metriche come la distanza di Hamming. È importante notare che le osservazioni (istanze) effettive non sono necessarie per il raggruppamento gerarchico, poiché è sufficiente solo la matrice delle distanze. Il dendogramma è una rappresentazione visiva dei cluster, che mostra molto chiaramente la gerarchia. L'utente può ottenere cluster diversi a seconda del livello a cui viene tagliato il dendogramma.

Che cos'è il clustering partizionale?

Gli algoritmi di clustering partizionale generano varie partizioni e quindi le valutano secondo alcuni criteri. Sono anche indicati come non gerarchici poiché ogni istanza è posizionata esattamente in uno di k cluster reciprocamente esclusivi. Poiché solo un set di cluster è l'output di un tipico algoritmo di clustering partizionale, all'utente è richiesto di immettere il numero desiderato di cluster (di solito chiamato k). Uno degli algoritmi di clustering partizionale più comunemente usati è l'algoritmo di clustering k-means. L'utente è tenuto a fornire il numero di cluster (k) prima di iniziare e l'algoritmo avvia i centri (o centroidi) delle partizioni k. In breve, k-significa algoritmo di clustering quindi assegna i membri in base ai centri attuali e rivaluta i centri in base ai membri attuali. Questi due passaggi vengono ripetuti fino a quando non vengono ottimizzate una certa funzione obiettivo di somiglianza all'interno del cluster e la funzione obiettivo di dissomiglianza tra i cluster. Pertanto, la ragionevole inizializzazione dei centri è un fattore molto importante per ottenere risultati di qualità da algoritmi di clustering partizionale.

Qual è la differenza tra il cluster gerarchico e partizionale?

Il clustering gerarchico e partizionale presenta differenze chiave in termini di tempo di esecuzione, ipotesi, parametri di input e cluster risultanti. In genere, il clustering partizionale è più veloce del cluster gerarchico. Il clustering gerarchico richiede solo una misura di somiglianza, mentre il clustering partizionale richiede ipotesi più forti come il numero di cluster e i centri iniziali. Il clustering gerarchico non richiede alcun parametro di input, mentre gli algoritmi di clustering partizionale richiedono il numero di cluster per iniziare l'esecuzione. Il clustering gerarchico restituisce una divisione molto più significativa e soggettiva di cluster, ma il clustering partizionale si traduce esattamente in k cluster. Gli algoritmi di clustering gerarchici sono più adatti ai dati categorici purché una misura di somiglianza possa essere definita di conseguenza.