Comment déterminer le type de distribution de probabilité pour les données

Table des matières:

Anonim

Lorsque vous avez collecté des données sur votre système ou votre processus, l'étape suivante consiste à déterminer le type de distribution de probabilité dont vous disposez. Les types de distributions de probabilité sont les suivants: distributions uniformes discrètes, de Bernoulli, binomiales, binomiales négatives, de Poisson, géométriques, uniformes continues, normales (courbe de Bell), exponentielles, gamma et bêta. En réduisant même quelques unes des possibilités, la détermination de la valeur de R au carré la plus proche est beaucoup plus rapide.

Articles dont vous aurez besoin

  • Logiciel graphique

  • Moyens de calcul de la valeur R au carré (analyse de meilleur ajustement)

Tracez les données pour obtenir une représentation visuelle du type de données.

L'une des premières étapes pour déterminer la répartition des données, et donc le type d'équation à utiliser pour modéliser les données, consiste à éliminer ce qui ne peut pas être. • S'il existe des pics dans le jeu de données, il ne peut pas s'agir d'une distribution uniforme discrète. • Si les données ont plus d'un pic, il ne s'agit ni de Poisson ni de binôme. • Si la courbe est unique, sans pics secondaires et si la pente est lente, il peut s'agir d'une distribution de Poisson ou gamma. Mais cela ne peut pas être une distribution uniforme discrète. • Si les données sont distribuées de manière homogène et sans biais d'un côté, il est prudent d'exclure une distribution gamma ou de Weibull. • Si la fonction a une distribution paire ou un pic au milieu des résultats graphiques, il ne s'agit pas d'une distribution géométrique ou exponentielle. • Si l'occurrence d'un facteur varie avec une variable environnementale, il ne s'agit probablement pas d'une distribution de Poisson.

Une fois le type de distribution de probabilité réduit, effectuez une analyse au carré R de chaque type possible de distribution de probabilité. Celui avec la plus haute valeur de R au carré est probablement correct.

Éliminer un point de données aberrant. Puis recalculez R au carré. Si le même type de distribution de probabilité apparaît comme la correspondance la plus proche, il est alors hautement probable qu'il s'agisse de la distribution de probabilité correcte à utiliser pour l'ensemble de données.

Conseils

  • Si les données indiquent que plusieurs pics sont dispersés à grande échelle, il est possible que deux processus distincts soient en cours ou que le produit échantillonné soit mélangé. Recueillir les données et ensuite ré-analyser.

Attention

Validez les équations générées par rapport aux ensembles de données ultérieurs afin de confirmer qu'elle est toujours exacte pour l'ensemble de données. Il est possible que les facteurs environnementaux et la dérive des processus aient rendu les équations et les modèles actuels incorrects.