Internet

Cos'è il clustering di correlazione?

Il clustering di correlazione viene eseguito su database e altre grandi fonti di dati per raggruppare set di dati simili, avvisando anche l'utente di set di dati diversi.Questo può essere fatto perfettamente in alcuni grafici, mentre altri sperimenteranno errori perché sarà difficile differenziare simili da dati diversi.Nel caso di quest'ultimo, il clustering di correlazione aiuterà a ridurre automaticamente l'errore.Questo viene spesso utilizzato per il data mining o per cercare dati ingombranti per somiglianze.I dati diversi vengono comunemente eliminati o inseriti in un cluster separato.

Quando viene utilizzata una funzione di clustering di correlazione, cerca dati in base alle istruzioni dell'utente.L'utente dirà al programma cosa cercare e, quando viene trovato, dove posizionare i dati.Questo viene normalmente applicato a fonti di dati molto grandi quando sarebbe impossibile mdash;O prendi troppe ore e mdash;per cercare manualmente i dati.Ci può essere clustering perfetto o clustering imperfetto.

Il clustering perfetto è lo scenario ideale.Ciò significa che ci sono solo due tipi di dati e uno è ciò che l'utente sta cercando mentre l'altro non è necessario.Tutti i dati positivi o necessari vengono inseriti in un cluster, mentre gli altri dati vengono eliminati o spostati.In questo scenario, non c'è confusione e tutto funziona perfettamente.

I grafici più complessi non consentono un clustering perfetto e sono invece imperfetti.Ad esempio, un grafico ha tre variabili: x, y e z. x, y è simile, x, z è simile, ma y, z è diverso.I tre cluster variabili sono così simili, tuttavia, che è impossibile avere un clustering di correlazione perfetto.Il programma funzionerà per massimizzare il numero di correlazioni positive, ma ciò richiederà comunque alcune ricerche manuali dall'utente.

Nel data mining, specialmente quando si tratta di set di dati di grandi dimensioni, viene utilizzato il clustering di correlazione per raggruppare dati simili con dati simili.Ad esempio, se un'azienda ha estratto dati per un grande sito Web o un database e vuole solo conoscere un aspetto specifico, ci vorrebbe un'eternità per cercare tutti i dati per quell'aspetto.Utilizzando una formula di clustering, i dati verranno messi da parte per un'analisi adeguata.

Le informazioni diverse vengono trattate basate esclusivamente sulle istruzioni dell'utente.L'utente può scegliere di inviare dati diversi a diversi cluster, poiché le informazioni possono essere utili per altri progetti.Se i dati non sono necessari e stanno solo sprecando la memoria, le informazioni diverse vengono eliminate.Nel clustering imperfetto, è possibile che alcune informazioni diverse non vengano buttate fuori, perché sono così simili ai dati per i quali l'utente sta cercando.