MIASS 231.1. Mathématiques sociales 3 (2024)
GLOSSAIRE
Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)
Spécial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | Tout
A |
---|
Analyse bivariéeAnalyse d'une relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse bivariée à l'aide de techniques telles que l'analyse tabulaire bivariée, le test chi-carré, le test t, le test ANOVA, la corrélation linéaire et la régression linéaire. |
Analyse multivariéeAnalyse d'une relation entre trois variables ou plus, notamment en introduisant une variable-contrôle dans relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse multivariée à l'aide de techniques telles que l'analyse tabulaire multivariée, l'ANOVA factorielle, la corrélation linéaire multiple et partielle, la régression linéaire multiple, la régression logistique multiple. |
Analyse tabulaire bivariéeTechnique statistique descriptive permettant d'analyser l’association statistique entre deux variables qualitatives (discrètes parfois) sur la base d'un tableau croisé en fréquences ou en pourcentages. L'analyse tabulaire bivariée répond à des questions du genre: 1) Y a-t-il une relation d’association entre deux variables catégorielles dans les données d'échantillon? 2) Si oui, quelle est l’intensité de cette relation? 3) Quelle est la direction de cette relation? |
ANOVAL'ANOVA (ANalysis Of VAriance) est un test d'hypothèse utilisé lorsqu'on veut analyser une relation entre une variable indépendante qualitative non dichotomique et une variable dépendante quantitative. L'enjeu est de savoir si au moins une des différences entre trois moyennes ou plus est statistiquement significative ou non dans la population dont est issu l'échantillon étudié. |
Axe des XLigne horizontale dans un plan à deux dimensions. Il est aussi appelé axe des abscisses. |
Axe des YLigne verticale dans un plan à deux dimensions. Il est aussi appelé axe des ordonnées. |
B |
---|
Base de sondageListe numérotée et exhaustive des individus d'une population à l'étude. |
BiaisDans l'estimation d'un paramètre, c'est l'écart entre la valeur observée dans l'échantillon et la valeur réelle du paramètre de la population. Réduire le biais d'un estimé revient à constituer un échantillon aléatoire. |
C |
---|
CasLe cas
est l’unité spécifique à propos de laquelle on collecte des données d'échantillon. On parle aussi d'unité de sondage. |
Cas déviantsCe sont les cas dont les scores dévient, s'écartent de l'ensemble des scores d'une distribution. Les cas déviants présentent des scores aberrants. Ils sont caractéristiques d'une distribution asymétrique. |
Catégories collectivement exhaustives |
Catégories mutuellement exclusivesElles signifient que chaque cas appartient à une et une seule catégorie. |
CentilesMesures de position, les centiles divisent une distribution en 100 parties égales, de telle sorte que chaque partie occupe 1% des scores. La médiane correspond au 50e centile (C50). |
chi-carréTest d'hypothèse utilisé lorsqu'on veut analyser une relation entre deux variables qualitatives, discrètes parfois. L'enjeu est de savoir si une relation révélée par l'analyse tabulaire bivariée est statistiquement significative ou non dans la population. |
Chi-carré critiqueValeur se trouvant dans la table de la distribution d'échantillonnage du chi-carré. Le chi-carré critique est la valeur minimale nécessaire au rejet de l'hypothèse nulle d'une absence de relation entre deux variables catégorielles. Précisément, dans le cas d'une absence de relation (sous l'hypothèse nulle), si l'on devait répéter l'expérience de sélection de l'échantillon 100 fois, 95% des échantillons auraient des chi-carrés compris entre 0 et la valeur critique au seuil de signification 0,05; 99% des échantillons auraient des chi-carrés compris entre 0 et la valeur critique au seuil de signification 0,01, etc. La valeur critique est une sorte de constante qui dépend de deux paramètres: le seuil de signification et le nombre de degrés de libertés. |
CodageProcédure qui consiste à assigner aux données (de nature qualitative surtout) des codes numériques afin
de faciliter les opérations subséquentes de conversion des données en informations. Par exemple, pour la variable sexe, on peut assigner 1 à Homme et 2 à Femme. |
Coefficient d'aliénationLorsqu'on soustrait le coefficient de détermination du total 1 (1 moins r-deux), on obtient le coefficient d'aliénation. Le coefficient d'aliénation s'interprète comme la proportion de variation dans la variable dépendante non expliquée par la variable indépendante. |
Coefficient de corrélationIndice montrant dans quelle mesure deux variables quantitatives sont corrélées l'une à l'autre. Le coefficient de corrélation mesure précisément le degré de concentration des points (du diagramme de dispersion) autour de la droite de régression. Il varie de 0 à 1 pour une corrélation positive, et de -1 à 0 pour une corrélation négative. |
Coefficient de déterminationLorsqu'on élève au carré le coefficient de corrélation r, obtient le coefficient de détermination appelé encore r-deux. Il s'interprète comme la proportion de variation dans la variable dépendante expliquée par la variable indépendante. |
Coefficient de régression linéaireCoefficient montrant l'effet d'une variable indépendante quantitative (X) sur une variable dépendante quantitative (Y). On l'appelle aussi pente. Le coefficient de régression s'interprète comme le degré de changement en Y lorsque X augmente d'une unité. Contrairement au coefficient de corrélation linéaire, le coefficient de régression linéaire peut dépasser la valeur 1, puisqu'il est sensible aux différences dans les unités de mesure des deux variables. |
Coefficient de variationC'est le rapport entre l'écart-type et la moyenne, sur une base de comparaison 100. Approprié pour comparer la dispersion de distributions ayant des unités de mesure différentes. Par convention, lorsque le coefficient de variation relative est supérieur à 15%, la distribution est hétérogène. |
ConceptUn concept est une représentation d'une réalité d'un phénomène. Il traduit un choix parmi les significations possibles d'un terme. Ainsi, le chercheur en sciences sociales opère toujours sur des concepts et non sur des notions. |
ConsistanceUn estimé est consistant lorsque sa distribution d’échantillonnage comportant une faible variabilité. La consistance est la propriété la plus désirable d'un estimé. Augmenter la consistance d'un estimé revient à augmenter la taille de l'échantillon. |
ConstanteSur la droite de régression mettant en évidence la relation entre une variable indépendante quantitative (X) et une variable dépendante quantitative (Y), la constante correspond à la valeur fixe qui coupe l'axe Y. On l'appelle aussi intersection ou ordonnée à l'origine. Elle s'interprète comme la valeur de Y lorsque X est nul. |
Corrélation linéaireTechnique statistique utilisée pour analyser une relation d'association entre deux variables quantitatives (X et Y), permettant notamment de mesurer l'intensité de la concentration des points (du diagramme de dispersion) autour d'une droite de régression linéaire. Plus les points se regroupent autour de cette droite, plus la corrélation est forte, étant entendu que des points très dispersés traduisent une absence de corrélation. |
Corrélation négativeIl y a corrélation négative lorsque deux variables quantitatives covarient dans le sens contraire: à mesure qu'une variable augmente, l'autre diminue. Les scores les plus élevés d'une variable sont associés aux scores les plus faibles de l'autre variable. On peut aussi parler de corrélation inverse. |
Corrélation positive |
D |
---|
Découverte négativeDans le cadre de l'interprétation théorique, lorsqu'on établit que les résultats obtenus s'écartent des résultats attendus, on est en présence d'une découverte négative: l'hypothèse de recherche est infirmée. |
Découverte positiveDans le cadre de l'interprétation théorique, lorsqu'on établit que les résultats obtenus correspondent aux résultats attendus, on est en présence d'une découverte positive: l'hypothèse de recherche est confirmée. |
Désirabilité socialeLa désirabilité sociale est le biais qui consiste à vouloir se présenter sous un jour favorable devant ses interlocuteurs. Cela pose problème particulièrement lorsqu'un chercheur administre un questionnaire en face à face auprès d'un interviewé. |
Diagramme circulaireDiagramme divisé en secteurs, chaque secteur étant proportionnel à la fréquence ou au pourcentage de chacune des catégories de la variable dont les données sont représentées. Approprié pour les variables nominales comportant peu de catégories. |
Diagramme de dispersionDiagramme
à deux dimensions illustrant la corrélation entre deux variables quantitatives sous forme d''une série de points, chaque point représentant l'intersection entre deux scores pour chaque individu. On parle aussi de nuage de points. |
Diagramme en bâtons empilésUn type de diagramme où chaque barre représente une catégorie de la variable indépendante et où chaque barre est empilée, divisée selon les catégories de la variable dépendante. Les diagrammes en bâtons empilés sont aussi appelés diagrammes en bâtons divisés. Ils sont appropriés pour visualiser l’intensité et surtout la forme de la direction d’une relation entre deux variables ordinales ou discrètes. |
Diagramme en bâtons groupésUn type de diagramme où les barres sont groupées ou juxtaposées et sont associées à chacune des catégories de la variable indépendante. Chacune des barres juxtaposées représente une catégorie de la variable dépendante. Les diagrammes en bâtons groupés sont aussi appelés des diagrammes en bâtons juxtaposés. Ils sont appropriés pour visualiser l’existence d’une relation entre deux variables dont au moins l’une est nominale ou considérée comme telle. |
Diagramme en boîte et à moustachesDiagramme où 1) les bordures inférieure et supérieure de la boîte représentent respectivement le quartile 1 et le quartile 3, sachant que la quartile 2 (médiane) se situe à l'intérieur de la boîte; 2) les moustaches sont représentées par les longueurs allant du score minimal normal au quartile 1, et du score maximal normal au quartile 3; 3) les cas déviants sont représentés par des astérisques ou cercles. |
Différence attendue de moyennes |
Différence observée de moyennesElle renvoie à la différence entre deux moyennes de groupes réellement obtenues à partir des données d’échantillon. |
Différence théorique de moyennesElle renvoie à la différence entre deux moyennes de groupes dans le cas d'une absence de relation dans la population. C'est la différence de moyennes à laquelle on devrait s'attendre s'il n'y avait pas de relation entre une variable dichotomique et une variable quantitative dans la population. On parle aussi de différence attendue de moyennes de groupes. |
Direction d'une relationElle précise le sens d'une relation entre deux variables, lesquelles peut être reliées dans le même sens (relation positive) ou dans le sens inverse (relation négative). La direction s'applique si et seulement si les deux variables sont ordinales ou quantitatives. Dans le cas de l'analyse tabulaire bivariée, la direction se détecte en observant la progression croissante ou décroissante des pourcentages des catégories de la variable indépendante. |
Distribution asymétriqueDistribution présentant une longue queue s'étirant vers la droite ou la gauche. La distribution est asymétrique négative lorsqu'elle s'étire vers les scores faibles: dans cette situation la moyenne sera plus petite que la médiane ou le mode. La distribution est asymétrique positive lorsqu'elle s'étire vers les scores élevés: dans cette situation la moyenne sera plus grande que la médiane ou le mode. |
Distribution cumulativeFréquence
ou pourcentage de tous les individus qui ont des scores égaux ou inférieurs à une valeur donnée. Les distributions cumulatives (F) sont utiles pour des variables ordinales (ou quantitatives). |
Distribution d'échantillonnage
Distribution d'une statistique de tous les échantillons possibles d'une même taille dans une population donnée. Elle réfère au fait qu'une statistique fluctue, prend des valeurs différentes pour des échantillons différents lorsqu'on répète presque à l'infini l'expérience du sondage. Appelée encore théorie de l'échantillonnage, la distribution d'échantillonnage permet de passer de l'échantillon à la population, autorisant ainsi la possibilité de faire des inférences avec une marge d'erreur connue.
|
Distribution d'un échantillonDistribution des scores d'une variable à l'intérieur d'un échantillon n d'une taille donnée. C'est la façon dont les scores sont distribués, répartis dans une série de données d'échantillon. Elle donne une statistique. |
Distribution d'une populationDistribution des scores d'une variable à l'intérieur d'une population N d'une taille donnée. C'est la façon dont les scores sont distribués, répartis dans une série de données de population. Elle donne un paramètre. |
Distribution de fréquences regroupéesDistribution de
fréquences avec des valeurs regroupées en classes ou en super-catégories. |
Distribution de fréquences simplesDistribution de
fréquences avec les valeurs brutes de départ, ces valeurs n'étant pas regroupées. |
Distribution normale
Appelée encore « courbe en cloche » ou « courbe normale », la distribution normale est une distribution symétrique et unimodale. La plupart des scores sont regroupés autour de la caractéristique moyenne, de telle sorte que plus on s'éloigne de cette tendance centrale plus les scores sont moins fréquents dans des proportions similaires. La distribution normale est au fondement des statistiques inférentielles.
|
Distribution symétrique |
Distributions de fréquencesUne distribution de fréquences réfère au résumé de la façon dont les données sont distribuées selon les valeurs d'une variable pour différents individus. Ce résumé est souvent donné par un tableau ou un diagramme. Les fréquences peuvent se décliner en proportions, pourcentages, taux ou indices. Qu'elles soient absolues ou relatives, les distributions de fréquences permettent de décrire le score le plus fréquent d'une distribution et aident à rendre compte de l'ampleur d'un phénomène. |
Données statistiquesElles correspondent à des données numériques, lesquelles peuvent être de première main (primaires) ou de seconde main (secondaires). Et elles sont contextuelles et contextualisées. |