GLOSSAIRE

Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)

Consultez le glossaire à l'aide de cet index

Spécial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | Tout

Page: 1 2 3 4 (Suivant)
Tout

A

Analyse bivariée

Analyse d'une relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse bivariée à l'aide de techniques telles que l'analyse tabulaire bivariée, le test chi-carré, le test t, le test ANOVA, la corrélation linéaire et la régression linéaire.

Analyse multivariée

Analyse d'une relation entre trois variables ou plus, notamment en introduisant une variable-contrôle dans relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse multivariée à l'aide de techniques telles que l'analyse tabulaire multivariée, l'ANOVA factorielle, la corrélation linéaire multiple et partielle, la régression linéaire multiple, la régression logistique multiple.

Analyse tabulaire bivariée

Technique statistique descriptive permettant d'analyser l’association statistique entre deux variables qualitatives (discrètes parfois) sur la base d'un tableau croisé en fréquences ou en pourcentages. L'analyse tabulaire bivariée répond à des questions du genre: 1) Y a-t-il une relation d’association entre deux variables catégorielles dans les données d'échantillon? 2) Si oui, quelle est l’intensité de cette relation? 3) Quelle est la direction de cette relation?

ANOVA

L'ANOVA (ANalysis Of VAriance) est un test d'hypothèse utilisé lorsqu'on veut analyser une relation entre une variable indépendante qualitative non dichotomique et une variable dépendante quantitative. L'enjeu est de savoir si au moins une des différences entre trois moyennes ou plus est statistiquement significative ou non dans la population dont est issu l'échantillon étudié.

Axe des X

Ligne horizontale dans un plan à deux dimensions. Il est aussi appelé axe des abscisses.

Axe des Y

Ligne verticale dans un plan à deux dimensions. Il est aussi appelé axe des ordonnées.

B

Base de sondage

Liste numérotée et exhaustive des individus d'une population à l'étude.

Biais

Dans l'estimation d'un paramètre, c'est l'écart entre la valeur observée dans l'échantillon et la valeur réelle du paramètre de la population. Réduire le biais d'un estimé revient à constituer un échantillon aléatoire.

C

Cas

Le cas est l’unité spécifique à propos de laquelle on collecte des données d'échantillon. On parle aussi d'unité de sondage.

Cas déviants

Ce sont les cas dont les scores dévient, s'écartent de l'ensemble des scores d'une distribution. Les cas déviants présentent des scores aberrants. Ils sont caractéristiques d'une distribution asymétrique.

Catégories collectivement exhaustives

Elles signifient que l'ensemble des catégories de valeurs inclut tous les cas. Les cas qui ne rentrent pas dans les catégories prédéterminées sont inclus dans une catégorie résiduelle "autre".

Catégories mutuellement exclusives

Elles signifient que chaque cas appartient à une et une seule catégorie.

Centiles

Mesures de position, les centiles divisent une distribution en 100 parties égales, de telle sorte que chaque partie occupe 1% des scores. La médiane correspond au 50e centile (C50).

chi-carré

Test d'hypothèse utilisé lorsqu'on veut analyser une relation entre deux variables qualitatives, discrètes parfois. L'enjeu est de savoir si une relation révélée par l'analyse tabulaire bivariée est statistiquement significative ou non dans la population.

Chi-carré critique

Valeur se trouvant dans la table de la distribution d'échantillonnage du chi-carré. Le chi-carré critique est la valeur minimale nécessaire au rejet de l'hypothèse nulle d'une absence de relation entre deux variables catégorielles. Précisément, dans le cas d'une absence de relation (sous l'hypothèse nulle), si l'on devait répéter l'expérience de sélection de l'échantillon 100 fois, 95% des échantillons auraient des chi-carrés compris entre 0 et la valeur critique au seuil de signification 0,05; 99% des échantillons auraient des chi-carrés compris entre 0 et la valeur critique au seuil de signification 0,01, etc. La valeur critique est une sorte de constante qui dépend de deux paramètres: le seuil de signification et le nombre de degrés de libertés.

Codage

Procédure qui consiste à assigner aux données (de nature qualitative surtout) des codes numériques afin de faciliter les opérations subséquentes de conversion des données en informations. Par exemple, pour la variable sexe, on peut assigner 1 à Homme et 2 à Femme.

Coefficient d'aliénation

Lorsqu'on soustrait le coefficient de détermination du total 1 (1 moins r-deux), on obtient le coefficient d'aliénation. Le coefficient d'aliénation s'interprète comme la proportion de variation dans la variable dépendante non expliquée par la variable indépendante.

Coefficient de corrélation

Indice montrant dans quelle mesure deux variables quantitatives sont corrélées l'une à l'autre. Le coefficient de corrélation mesure précisément le degré de concentration des points (du diagramme de dispersion) autour de la droite de régression. Il varie de 0 à 1 pour une corrélation positive, et de -1 à 0 pour une corrélation négative.

Coefficient de détermination

Lorsqu'on élève au carré le coefficient de corrélation r, obtient le coefficient de détermination appelé encore r-deux. Il s'interprète comme la proportion de variation dans la variable dépendante expliquée par la variable indépendante.

Coefficient de régression linéaire

Coefficient montrant l'effet d'une variable indépendante quantitative (X) sur une variable dépendante quantitative (Y). On l'appelle aussi pente. Le coefficient de régression s'interprète comme le degré de changement en Y lorsque X augmente d'une unité. Contrairement au coefficient de corrélation linéaire, le coefficient de régression linéaire peut dépasser la valeur 1, puisqu'il est sensible aux différences dans les unités de mesure des deux variables.

Coefficient de variation

C'est le rapport entre l'écart-type et la moyenne, sur une base de comparaison 100. Approprié pour comparer la dispersion de distributions ayant des unités de mesure différentes. Par convention, lorsque le coefficient de variation relative est supérieur à 15%, la distribution est hétérogène.

Concept

Un concept est une représentation d'une réalité d'un phénomène. Il traduit un choix parmi les significations possibles d'un terme. Ainsi, le chercheur en sciences sociales opère toujours sur des concepts et non sur des notions.

Consistance

Un estimé est consistant lorsque sa distribution d’échantillonnage comportant une faible variabilité. La consistance est la propriété la plus désirable d'un estimé. Augmenter la consistance d'un estimé revient à augmenter la taille de l'échantillon.

Constante

Sur la droite de régression mettant en évidence la relation entre une variable indépendante quantitative (X) et une variable dépendante quantitative (Y), la constante correspond à la valeur fixe qui coupe l'axe Y. On l'appelle aussi intersection ou ordonnée à l'origine. Elle s'interprète comme la valeur de Y lorsque X est nul.

Corrélation linéaire

Technique statistique utilisée pour analyser une relation d'association entre deux variables quantitatives (X et Y), permettant notamment de mesurer l'intensité de la concentration des points (du diagramme de dispersion) autour d'une droite de régression linéaire. Plus les points se regroupent autour de cette droite, plus la corrélation est forte, étant entendu que des points très dispersés traduisent une absence de corrélation.

Corrélation négative

Il y a corrélation négative lorsque deux variables quantitatives covarient dans le sens contraire: à mesure qu'une variable augmente, l'autre diminue. Les scores les plus élevés d'une variable sont associés aux scores les plus faibles de l'autre variable. On peut aussi parler de corrélation inverse.

Corrélation positive

Il y a corrélation positive lorsque deux variables quantitatives covarient dans le même sens: lorsqu'une variable augmente l'autre augmente. Les scores les plus élevés d'une variable sont associés aux scores les plus élevés de l'autre variable. On peut aussi parler de corrélation directe.

D

Découverte négative

Dans le cadre de l'interprétation théorique, lorsqu'on établit que les résultats obtenus s'écartent des résultats attendus, on est en présence d'une découverte négative: l'hypothèse de recherche est infirmée.

Découverte positive

Dans le cadre de l'interprétation théorique, lorsqu'on établit que les résultats obtenus correspondent aux résultats attendus, on est en présence d'une découverte positive: l'hypothèse de recherche est confirmée.

Désirabilité sociale

La désirabilité sociale est le biais qui consiste à vouloir se présenter sous un jour favorable devant ses interlocuteurs. Cela pose problème particulièrement lorsqu'un chercheur administre un questionnaire en face à face auprès d'un interviewé.

Diagramme circulaire

Diagramme divisé en secteurs, chaque secteur étant proportionnel à la fréquence ou au pourcentage de chacune des catégories de la variable dont les données sont représentées. Approprié pour les variables nominales comportant peu de catégories.

Diagramme de dispersion

Diagramme à deux dimensions illustrant la corrélation entre deux variables quantitatives sous forme d''une série de points, chaque point représentant l'intersection entre deux scores pour chaque individu. On parle aussi de nuage de points.

Diagramme en bâtons empilés

Un type de diagramme où chaque barre représente une catégorie de la variable indépendante et où chaque barre est empilée, divisée selon les catégories de la variable dépendante. Les diagrammes en bâtons empilés sont aussi appelés diagrammes en bâtons divisés. Ils sont appropriés pour visualiser l’intensité et surtout la forme de la direction d’une relation entre deux variables ordinales ou discrètes.

Diagramme en bâtons groupés

Un type de diagramme où les barres sont groupées ou juxtaposées et sont associées à chacune des catégories de la variable indépendante. Chacune des barres juxtaposées représente une catégorie de la variable dépendante. Les diagrammes en bâtons groupés sont aussi appelés des diagrammes en bâtons juxtaposés. Ils sont appropriés pour visualiser l’existence d’une relation entre deux variables dont au moins l’une est nominale ou considérée comme telle.

Diagramme en boîte et à moustaches

Diagramme où 1) les bordures inférieure et supérieure de la boîte représentent respectivement le quartile 1 et le quartile 3, sachant que la quartile 2 (médiane) se situe à l'intérieur de la boîte; 2) les moustaches sont représentées par les longueurs allant du score minimal normal au quartile 1, et du score maximal normal au quartile 3; 3) les cas déviants sont représentés par des astérisques ou cercles.

Différence attendue de moyennes

Voir Différence théorique de moyennes.

Différence observée de moyennes

Elle renvoie à la différence entre deux moyennes de groupes réellement obtenues à partir des données d’échantillon.

Différence théorique de moyennes

Elle renvoie à la différence entre deux moyennes de groupes dans le cas d'une absence de relation dans la population. C'est la différence de moyennes à laquelle on devrait s'attendre s'il n'y avait pas de relation entre une variable dichotomique et une variable quantitative dans la population. On parle aussi de différence attendue de moyennes de groupes.

Direction d'une relation

Elle précise le sens d'une relation entre deux variables, lesquelles peut être reliées dans le même sens (relation positive) ou dans le sens inverse (relation négative). La direction s'applique si et seulement si les deux variables sont ordinales ou quantitatives. Dans le cas de l'analyse tabulaire bivariée, la direction se détecte en observant la progression croissante ou décroissante des pourcentages des catégories de la variable indépendante.

Distribution asymétrique

Distribution présentant une longue queue s'étirant vers la droite ou la gauche. La distribution est asymétrique négative lorsqu'elle s'étire vers les scores faibles: dans cette situation la moyenne sera plus petite que la médiane ou le mode. La distribution est asymétrique positive lorsqu'elle s'étire vers les scores élevés: dans cette situation la moyenne sera plus grande que la médiane ou le mode.

Distribution cumulative

Fréquence ou pourcentage de tous les individus qui ont des scores égaux ou inférieurs à une valeur donnée. Les distributions cumulatives (F) sont utiles pour des variables ordinales (ou quantitatives).

Distribution d'échantillonnage

Distribution d'une statistique de tous les échantillons possibles d'une même taille dans une population donnée. Elle réfère au fait qu'une statistique fluctue, prend des valeurs différentes pour des échantillons différents lorsqu'on répète presque à l'infini l'expérience du sondage. Appelée encore théorie de l'échantillonnage, la distribution d'échantillonnage permet de passer de l'échantillon à la population, autorisant ainsi la possibilité de faire des inférences avec une marge d'erreur connue.

Distribution d'un échantillon

Distribution des scores d'une variable à l'intérieur d'un échantillon n d'une taille donnée. C'est la façon dont les scores sont distribués, répartis dans une série de données d'échantillon. Elle donne une statistique.

Distribution d'une population

Distribution des scores d'une variable à l'intérieur d'une population N d'une taille donnée. C'est la façon dont les scores sont distribués, répartis dans une série de données de population. Elle donne un paramètre.

Distribution de fréquences regroupées

Distribution de fréquences avec des valeurs regroupées en classes ou en super-catégories.

Distribution de fréquences simples

Distribution de fréquences avec les valeurs brutes de départ, ces valeurs n'étant pas regroupées.

Distribution normale

Appelée encore « courbe en cloche » ou « courbe normale », la distribution normale est une distribution symétrique et unimodale. La plupart des scores sont regroupés autour de la caractéristique moyenne, de telle sorte que plus on s'éloigne de cette tendance centrale plus les scores sont moins fréquents dans des proportions similaires. La distribution normale est au fondement des statistiques inférentielles.

Distribution symétrique

Une distribution dont la moyenne, le mode et la médiane sont égaux, de telle sorte que 50% des scores sont situés de part et d'autre de la tendance centrale. Par exemple, toute distribution normale est symétrique.

Distributions de fréquences

Une distribution de fréquences réfère au résumé de la façon dont les données sont distribuées selon les valeurs d'une variable pour différents individus. Ce résumé est souvent donné par un tableau ou un diagramme. Les fréquences peuvent se décliner en proportions, pourcentages, taux ou indices. Qu'elles soient absolues ou relatives, les distributions de fréquences permettent de décrire le score le plus fréquent d'une distribution et aident à rendre compte de l'ampleur d'un phénomène.

Données statistiques

Elles correspondent à des données numériques, lesquelles peuvent être de première main (primaires) ou de seconde main (secondaires). Et elles sont contextuelles et contextualisées.