GLOSSAIRE

Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)




Tri actuellement Par date de modification ascendant Trier chronologiquement: Par date de modification modifier à descendant | Par date de création

Page:  1  2  3  4  (Suivant)
  Tout

Pourcentage de variation

Différence entre une valeur à un temps donné (T2) et une valeur au temps de référence (T1), différence relativisée par la valeur au temps de référence (T1) et multipliée par 100. Le pourcentage ou taux de variation indique de combien en % une valeur augmente ou diminue d'un temps à l'autre (p.ex. % d'augmentation des vols, % de diminution du prix d'essence, etc.).

Postulat de Sturges

À propos de la détermination du nombre de classes d'une distribution, Sturges postule que le nombre de classes est d'autant plus grand que la taille de l’échantillon est grande. La taille de l'échantillon détermine donc le nombre de classes optimales d'une série de données.

Mode

Score le plus fréquent dans une série de données. C'est la seule mesure de tendance centrale qui convient à une variable nominale.

Moyenne

Mesure la plus courante de la tendance centrale, la moyenne est le rapport entre la somme des scores et le nombre total d'individus d'une distribution. Elle correspond à la moyenne arithmétique d'une série de données. La moyenne est la seule mesure de tendance centrale qui subit l'effet des cas déviants.


Médiane

Lorsque les scores sont ordonnés du plus petit au plus grand ou vice-versa, la médiane est le score correspondant au point-milieu d'une série de données. Elle divise une distribution en deux parties égales: 50% de part et d'autre du point-milieu.


Quartiles

Mesures de position, les quartiles divisent une distribution en quatre parties égales, de telle sorte que chaque partie occupe 25% des scores. La médiane correspond au 2e quartile (Q2).

Centiles

Mesures de position, les centiles divisent une distribution en 100 parties égales, de telle sorte que chaque partie occupe 1% des scores. La médiane correspond au 50e centile (C50).

Scores déviation

Un score déviation est la différence entre chacun des scores-Xi et la moyenne d'une distribution. Les scores déviation indiquent dans quelle mesure les scores individuels dévient, s'écartent de la moyenne, mesurant ainsi sommairement la variation d'une distribution. Toutefois, la somme des scores déviation d'une distribution est toujours nulle, les différences positives et négatives une fois additionnées s'annulant. 

Somme des carrés

Lorsqu'on élève au carré les scores déviation d'une distribution et qu'on calcule la somme, on obtient la somme des scores déviation au carré, ou simplement la somme des carrés. La somme des carrés donnent une indication sur la totalité de la variation dans une distribution.

Diagramme en boîte et à moustaches

Diagramme où 1) les bordures inférieure et supérieure de la boîte représentent respectivement le quartile 1 et le quartile 3, sachant que la quartile 2 (médiane) se situe à l'intérieur de la boîte; 2) les moustaches sont représentées par les longueurs allant du score minimal normal au quartile 1, et du score maximal normal au quartile 3; 3) les cas déviants sont représentés par des astérisques ou cercles.

Corrélation positive

Il y a corrélation positive lorsque deux variables quantitatives covarient dans le même sens: lorsqu'une variable augmente l'autre augmente.  Les scores les plus élevés d'une variable sont associés aux scores les plus élevés de l'autre variable. On peut aussi parler de corrélation directe.


Corrélation négative

Il y a corrélation négative lorsque deux variables quantitatives covarient dans le sens contraire: à mesure qu'une variable augmente, l'autre diminue.  Les scores les plus élevés d'une variable sont associés aux scores les plus faibles de l'autre variable. On peut aussi parler de corrélation inverse.

Diagramme de dispersion

Diagramme à deux dimensions illustrant la corrélation entre deux variables quantitatives sous forme d''une série de points, chaque point représentant l'intersection entre deux scores pour chaque individu. On parle aussi de nuage de points. 

Coefficient de corrélation

Indice montrant dans quelle mesure deux variables quantitatives sont corrélées l'une à l'autre. Le coefficient de corrélation mesure précisément le degré de concentration des points (du diagramme de dispersion) autour de la droite de régression. Il varie de 0 à 1 pour une corrélation positive, et de -1 à 0 pour une corrélation négative

Droite de régression

Courbe linéaire la plus moyenne possible passant au plus près du nuage de points d'un diagramme de dispersion. Plus elle est oblique, i.e. sa pente abrupte, plus la corrélation linéaire est forte. La droite de régression est aussi appelée droite des moindres carrés. Elle comporte deux paramètres clés, la constante et la pente, et s'exprime mathématiquement sous forme d'une équation de régression linéaire.

Coefficient de détermination

Lorsqu'on élève au carré le coefficient de corrélation r, obtient le coefficient de détermination appelé encore r-deux. Il s'interprète comme la proportion de variation dans la variable dépendante expliquée par la variable indépendante

Coefficient d'aliénation

Lorsqu'on soustrait le coefficient de détermination du total 1 (1 moins r-deux), on obtient le coefficient d'aliénation. Le coefficient d'aliénation s'interprète comme la proportion de variation dans la variable dépendante non expliquée par la variable indépendante

Modèle de régression linéaire

Modèle statistique utilisé pour expliquer une variable dépendante quantitative à l'aide d'une variable indépendante quantitative.

Équation de régression linéaire

Équation mathématique qui permet de prédire un score d'une variable dépendante (Y) connaissant un score d'une variable indépendante (X). Elle est symbolisée par Y = a + b X. Cette équation donne la valeur prédite Y, si la valeur de X est connue, connaissant la constante (a) et le coefficient de régression linéaire (b).

Coefficient de régression linéaire

Coefficient montrant l'effet d'une variable indépendante quantitative (X) sur une variable dépendante quantitative (Y). On l'appelle aussi pente.  Le coefficient de régression s'interprète comme le degré de changement en Y lorsque X augmente d'une unité. Contrairement au coefficient de corrélation linéaire, le coefficient de régression linéaire peut dépasser la valeur 1, puisqu'il est sensible aux différences dans les unités de mesure des deux variables. 

Constante

Sur la droite de régression mettant en évidence la relation entre une variable indépendante quantitative (X) et une variable dépendante quantitative (Y), la constante correspond à la valeur fixe qui coupe l'axe Y. On l'appelle aussi intersection ou ordonnée à l'origine. Elle s'interprète comme la valeur de Y lorsque X est nul. 

Régression linéaire

Technique statistique utilisée pour analyser une relation entre deux variables quantitatives (X et Y), permettant notamment de prédire un score Y connaissant un autre score de X. Cette relation est modélisée à l'aide d'une équation de régression linéaire.

Corrélation linéaire

Technique statistique utilisée pour analyser une relation d'association entre deux variables quantitatives (X et Y), permettant notamment de mesurer l'intensité de la concentration des points (du diagramme de dispersion) autour d'une droite de régression linéaire. Plus les points se regroupent autour de cette droite, plus la corrélation est forte, étant entendu que des points très dispersés traduisent une absence de corrélation.

Pente

Erreur de prédiction

Écart entre score réel de Y et score prédit de Y à l'aide de la droite de régression linéaire. L'erreur de prédiction est aussi appelée résidu, un terme plus technique. Elle s'interprète comme l'erreur que l'on commettrait si on s'appuie sur la droite de régression pour prédire un score d'une variable dépendante (Y) connaissant un score d'une variable indépendante (X).

Résidu

Matrice de corrélation

Tableau qui présente les coefficients de corrélation entre trois variables ou plus prises deux à deux. Lorsque l'on mesure les corrélations bivariées dans un ensemble matriciel constitué de plusieurs variables, il est important de gérer les données manquantes. Il existe deux modalités d'exclusion des données manquantes: exclusion en paires et exclusion en liste.

Exclusion en paires

Exclusion des cas pour lesquels il manque au moins une donnée pour les variables prises deux à deux. L'avantage de cette modalité de gestion des données manquantes, c'est qu'elle minimise la perte de l’information contenue dans l'ensemble des variables analysées.


Exclusion en liste

Exclusion de tous cas pour lesquels il manque au moins une donnée en considérant simultanément l'ensemble des variables analysées. L'avantage de cette modalité de gestion des données manquantes, c'est qu'elle permet d'analyser les variables sur une même base.

Recherche qualitative

C'est un type particulier de recherche qui tente d'explorer et de comprendre en profondeur un phénomène en s’appuyant sur la manipulation de données d'observations intensives (obtenues notamment au moyen d'entrevues individuelles, de focus-groups, d'une observation participante, de monographies).

Relation négative

Il y a relation négative lorsque deux variables sont reliées dans le sens contraire: à mesure qu'une variable augmente, l'autre diminue.  Les scores les plus élevés d'une variable sont associés aux scores les plus faibles de l'autre variable. On peut aussi parler de relation inverse.

Relation positive

Il y a relation positive lorsque deux variables sont reliées dans le même sens:  à mesure qu'une variable augmente l'autre augmente proportionnellement.  Les scores les plus élevés d'une variable sont associés aux scores les plus élevés de l'autre variable. On peut aussi parler de relation directe.

Direction d'une relation

Elle précise le sens d'une relation entre deux variables, lesquelles peut être reliées dans le même sens (relation positive) ou dans le sens inverse (relation négative). La direction s'applique si et seulement si les deux variables sont ordinales ou quantitatives. Dans le cas de l'analyse tabulaire bivariée, la direction se détecte en observant la progression croissante ou décroissante des pourcentages des catégories de la variable indépendante.

Analyse tabulaire bivariée

Technique statistique descriptive permettant d'analyser l’association statistique entre deux variables qualitatives (discrètes parfois) sur la base d'un tableau croisé en fréquences ou en pourcentages. L'analyse tabulaire bivariée répond à des questions du genre: 1) Y a-t-il une relation d’association entre deux variables catégorielles dans les données d'échantillon? 2) Si oui, quelle est l’intensité de cette relation? 3) Quelle est la direction de cette relation?


Intensité d'une relation

Elle précise la force d'une relation entre deux variables. Ces dernières peuvent être fortement, modérément, faiblement ou nullement reliées: on parle alors de relation forte, de relation modérée, de relation faible, ou de relation nulle. Dans le cas de l'analyse tabulaire bivariée, l'intensité se mesure en comparant les pourcentages de deux catégories de la variable indépendante.

Fréquences conditionnelles

Les fréquences conditionnelles renvoient à la distribution deux à deux des catégories de valeurs de deux variables catégorielles mises en relation. Ce sont les fréquences qui se trouvent à l’intérieur du tableau bivarié. Chacune de ces fréquences indique le nombre de cas correspondant à la combinaison de deux catégories. On les appelle aussi des fréquences de cellule ou des fréquences combinées.



Fréquences marginales

Les fréquences marginales réfèrent à la distribution univariée de chacune de deux variables catégorielles mises en relation. Elles sont repérables dans les dernières rangée et colonne d'un tableau bivarié. Chacune de ces fréquences indique la somme du nombre de cas correspondant à une catégorie.



Diagramme en bâtons groupés

Un type de diagramme où les barres sont groupées ou juxtaposées et sont associées à chacune des catégories de la variable indépendante. Chacune des barres juxtaposées représente une catégorie de la variable dépendante. Les diagrammes en bâtons groupés sont aussi appelés des diagrammes en bâtons juxtaposés. Ils sont appropriés pour visualiser l’existence d’une relation entre deux variables dont au moins l’une est nominale ou considérée comme telle. 

Diagramme en bâtons empilés

Un type de diagramme où chaque barre représente une catégorie de la variable indépendante et où chaque barre est empilée, divisée selon les catégories de la variable dépendante. Les diagrammes en bâtons empilés sont aussi appelés diagrammes en bâtons divisés. Ils sont appropriés pour visualiser l’intensité et surtout la forme de la direction d’une relation entre deux variables ordinales ou discrètes.



Relation fallacieuse

Relation d'association entre deux variables qui n'est établie que sous l'influence d'une variable tierce appelée variable antécédente. Il y a donc relation fallacieuse lorsqu'une variable antécédente explique une relation entre une variable indépendante et une variable dépendante. Par exemple, la relation entre le nombre de cigognes et le taux de fécondité est une relation fallacieuse, le type de district expliquant la relation. Les districts ruraux accueillent plus de cigognes et présentent un taux de fécondité élevé.

Variable antécédente

Une variable antécédente est une variable-contrôle qui intervient avant la variable indépendante et la variable dépendante dans la chaîne causale d'une relation. Elle explique pourquoi deux variables sont reliées de façon fallacieuse (relation fallacieuse).

Variable-contrôle

Variable que l'on contrôle ou dont on tient compte dans une relation entre une variable indépendante et une variable dépendante. L'introduction d'une variable-contrôle dans une relation bivariée permet de conclure ou non à une relation de causalité.



Relation de causalité

Relation où une variable dépendante ne peut se produire sans une variable indépendante. On ne peut conclure à une relation de causalité que lorsqu'une relation entre deux variables persiste après avoir contrôlé l'effet d'une variable tierce (variable-contrôle). Cela suppose de procéder à l'analyse multivariée.

Relation d'association

Relation où la présence d'une variable dépendante est accompagnée de celle d'une variable indépendante. On peut conclure à une relation d'association dans le cadre d'une analyse bivariée.

Analyse bivariée

Analyse d'une relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse bivariée à l'aide de techniques telles que l'analyse tabulaire bivariée, le test chi-carré, le test t, le test ANOVA, la corrélation linéaire et la régression linéaire.

Analyse multivariée

Analyse d'une relation entre trois variables ou plus, notamment en introduisant une variable-contrôle dans relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse multivariée à l'aide de techniques telles que l'analyse tabulaire multivariée, l'ANOVA factorielle, la corrélation linéaire multiple et partielle, la régression linéaire multiple, la régression logistique multiple.

chi-carré

Test d'hypothèse utilisé lorsqu'on veut analyser une relation entre deux variables qualitatives, discrètes parfois. L'enjeu est de savoir si une relation révélée par l'analyse tabulaire bivariée est statistiquement significative ou non dans la population.

ANOVA

L'ANOVA (ANalysis Of VAriance) est un test d'hypothèse utilisé lorsqu'on veut analyser une relation entre une variable indépendante qualitative non dichotomique et une variable dépendante quantitative. L'enjeu est de savoir si au moins une des différences entre trois moyennes ou plus est statistiquement significative ou non dans la population dont est issu l'échantillon étudié.

Test t

Test d'hypothèse utilisé lorsqu'on veut analyser une relation entre une variable indépendante qualitative dichotomique et une variable dépendante quantitative. L'enjeu est de savoir si une différence entre deux moyennes est statistiquement significative ou non dans la population dont est issu l'échantillon étudié.

Fréquences observées

Elles renvoient aux fréquences réelles obtenues à partir des données d’échantillon.


Page:  1  2  3  4  (Suivant)
  Tout