Skip to main content

Qu'est-ce que la distribution de l'histogramme?

La distribution de l'histogramme dans les statistiques fait référence aux motifs, formes et emplacements des barres de données univariées sur un histogramme.Comment et où les barres sont distribuées peuvent être utilisées pour analyser et tirer des conclusions sur les données.L'analyse de la distribution d'histogramme est importante pour identifier les traits tels que la normalité des données, les distributions multimodales et les données asymétriques.

Un histogramme est un affichage de données univarié qui utilise des rectangles proportionnels dans la zone à la classe ou les fréquences de bac pour montrer visuellement les caractéristiques des données.Les points de données de l'histogramme sont organisés en bacs et la distribution de l'histogramme elle-même est une approximation visuelle de la fonction de distribution de fréquence de données ou de densité de probabilité.La forme de la distribution peut changer en fonction du nombre de bacs.

L'analyse de la distribution d'histogramme est souvent utilisée comme vérification qualitative pour la normalité des données.Bien que des méthodes analytiques pour déterminer la normalité existent, des histogrammes peuvent être utilisés pour fournir un vérification rapide et de bon sens pour gagner du temps.Si les données de l'histogramme apparaissent à peu près uniformément et centrées sur la moyenne, les données sont supposées normales.Bien que rapide et relativement facile, ce type de vérification qualitative est subjectif et les méthodes analytiques doivent être utilisées si une norme de précision plus élevée est requise.

déterminer si un ensemble de données présente une asymétrie est une autre façon dont une analyse de distribution d'histogramme peut être utilisée.L'asymétrie des données est définie comme une asymétrie prononcée dans les données.Un asymétrie négatif, ou biaisant vers la gauche, est observé dans les ensembles de données avec très peu de valeurs faibles.Une biais positif, ou biaisant vers la droite, se produit dans des ensembles de données avec peu de valeurs élevées.L'observation de la distribution de l'histogramme peut révéler des valeurs aberrantes et des données asymétriques.

En plus de révéler les caractéristiques des données avec un seul mode, la forme d'un histogramme peut également révéler les caractéristiques des données multimodales.Les ensembles de données multimodaux contiennent plus d'un mode et sont caractérisés par des distributions de fréquence qui ont plus d'un pic ou des maxima.Les affiliations politiques dans une ville, les sondages d'opinion d'approbation et la taille des abeilles sont des exemples d'ensembles de données qui peuvent être multimodaux.L'observation de la forme de l'histogramme et la note des différents pics dans les données multimodales peuvent souvent fournir à un chercheur plus d'informations que de simples calculs statistiques univariés.

L'analyse des histogrammes et la distribution des données dépendent fortement des tailles de bacs choisies.En pratique, le nombre de bacs peut être estimé en prenant la racine carrée du nombre d'observations, bien que d'autres tailles de bacs puissent être utilisées.Par exemple, un enseignant peut choisir d'analyser les notes de test en choisissant des tailles de bacs qui reflètent les notes des lettres.