Skip to main content

Qu'est-ce que le regroupement de corrélation?

Le clustering de corrélation est effectué sur des bases de données et d'autres grandes sources de données pour regrouper des ensembles de données similaires, tout en alertant l'utilisateur à des ensembles de données différents.Cela peut être fait parfaitement dans certains graphiques, tandis que d'autres connaîtront des erreurs car il sera difficile de différencier les données différentes des données différentes.Dans le cas de ce dernier, le regroupement de corrélation aidera automatiquement à réduire l'erreur.Ceci est souvent utilisé pour l'exploration de données ou pour rechercher des données lourdes pour des similitudes.Les données différentes sont généralement supprimées ou placées dans un cluster séparé.

Lorsqu'une fonction de clustering de corrélation est utilisée, elle recherche des données en fonction des instructions de l'utilisateur.L'utilisateur dira au programme quoi rechercher et, lorsqu'il se trouve, où placer les données.Ceci est normalement appliqué à de très grandes sources de données alors que ce serait impossible mdash;Ou prenez trop d'heures mdash;pour rechercher les données manuellement.Il peut y avoir un clustering parfait ou un regroupement imparfait.

Le clustering parfait est le scénario idéal.Cela signifie qu'il n'y a que deux types de données, et l'une est ce que l'utilisateur recherche tandis que l'autre est inutile.Toutes les données positives ou nécessaires sont placées dans un seul cluster, tandis que les autres données sont supprimées ou déplacées.Dans ce scénario, il n'y a pas de confusion et tout fonctionne parfaitement.

Les graphiques les plus complexes ne permettent pas un regroupement parfait, et sont plutôt imparfaits.Par exemple, un graphique a trois variables: x, y et z. x, y est similaire, x, z est similaire, mais y, z est différent.Cependant, les trois grappes variables sont si similaires qu'il est impossible d'avoir un clustering de corrélation parfait.Le programme fonctionnera pour maximiser le nombre de corrélations positives, mais cela nécessitera toujours une recherche manuelle de l'utilisateur.

Dans l'exploration de données, en particulier lorsqu'il s'agit de grands ensembles de données, le clustering de corrélation est utilisé pour regrouper des données similaires avec des données similaires.Par exemple, si une entreprise a miné des données pour un grand site Web ou une base de données et ne veut que connaître un aspect spécifique, il faudrait une éternité pour rechercher toutes les données pour cet aspect.En utilisant une formule de clustering, les données seront réservées à une analyse appropriée.

Les informations différentes sont traitées uniquement sur les instructions utilisateur.L'utilisateur peut choisir d'envoyer des données différentes à différents clusters, car les informations peuvent être utiles pour d'autres projets.Si les données sont inutiles et ne font que gaspiller de la mémoire, alors les informations différentes sont jetées.Dans un regroupement imparfait, il est possible que certaines informations différentes ne soient pas jetées, car elles sont si similaires aux données pour lesquelles l'utilisateur recherche.