Mathématiques 4 appliquées aux sciences sociales (MIASS241_22)
GLOSSAIRE
Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)
Tri actuellement Par date de modification ascendant Trier chronologiquement: Par date de modification
Pourcentage de variationDifférence entre une valeur à un temps donné (T2) et une valeur au temps de référence (T1), différence relativisée par la valeur au temps de référence (T1) et multipliée par 100. Le pourcentage ou taux de variation indique de combien en % une valeur augmente ou diminue d'un temps à l'autre (p.ex. % d'augmentation des vols, % de diminution du prix d'essence, etc.). |
Postulat de SturgesÀ propos de la détermination du nombre de classes d'une distribution, Sturges postule que le nombre de classes est d'autant plus grand que la taille de l’échantillon est grande. La taille de l'échantillon détermine donc le nombre de classes optimales d'une série de données. |
ModeScore le plus fréquent dans une série de données. C'est la seule mesure de tendance centrale qui convient à une variable nominale. |
MoyenneMesure la plus courante de la tendance centrale, la moyenne est le rapport entre la somme des scores et le nombre total d'individus d'une distribution. Elle correspond à la moyenne arithmétique d'une série de données. La moyenne est la seule mesure de tendance centrale qui subit l'effet des cas déviants. |
MédianeLorsque les scores sont ordonnés du plus petit au plus grand ou vice-versa, la médiane est le score correspondant au point-milieu d'une série de données. Elle divise une distribution en deux parties égales: 50% de part et d'autre du point-milieu. |
QuartilesMesures de position, les quartiles divisent une distribution en quatre parties égales, de telle sorte que chaque partie occupe 25% des scores. La médiane correspond au 2e quartile (Q2). |
CentilesMesures de position, les centiles divisent une distribution en 100 parties égales, de telle sorte que chaque partie occupe 1% des scores. La médiane correspond au 50e centile (C50). |
Scores déviationUn score déviation est la différence entre chacun des scores-Xi et la moyenne d'une distribution. Les scores déviation indiquent dans quelle mesure les scores individuels dévient, s'écartent de la moyenne, mesurant ainsi sommairement la variation d'une distribution. Toutefois, la somme des scores déviation d'une distribution est toujours nulle, les différences positives et négatives une fois additionnées s'annulant. |
Somme des carrésLorsqu'on élève au carré les scores déviation d'une distribution et qu'on calcule la somme, on obtient la somme des scores déviation au carré, ou simplement la somme des carrés. La somme des carrés donnent une indication sur la totalité de la variation dans une distribution. |
Diagramme en boîte et à moustachesDiagramme où 1) les bordures inférieure et supérieure de la boîte représentent respectivement le quartile 1 et le quartile 3, sachant que la quartile 2 (médiane) se situe à l'intérieur de la boîte; 2) les moustaches sont représentées par les longueurs allant du score minimal normal au quartile 1, et du score maximal normal au quartile 3; 3) les cas déviants sont représentés par des astérisques ou cercles. |
Corrélation positive |
Corrélation négativeIl y a corrélation négative lorsque deux variables quantitatives covarient dans le sens contraire: à mesure qu'une variable augmente, l'autre diminue. Les scores les plus élevés d'une variable sont associés aux scores les plus faibles de l'autre variable. On peut aussi parler de corrélation inverse. |
Diagramme de dispersionDiagramme
à deux dimensions illustrant la corrélation entre deux variables quantitatives sous forme d''une série de points, chaque point représentant l'intersection entre deux scores pour chaque individu. On parle aussi de nuage de points. |
Coefficient de corrélationIndice montrant dans quelle mesure deux variables quantitatives sont corrélées l'une à l'autre. Le coefficient de corrélation mesure précisément le degré de concentration des points (du diagramme de dispersion) autour de la droite de régression. Il varie de 0 à 1 pour une corrélation positive, et de -1 à 0 pour une corrélation négative. |
Droite de régressionCourbe linéaire la plus moyenne possible passant au plus près du nuage de points d'un diagramme de dispersion. Plus elle est oblique, i.e. sa pente abrupte, plus la corrélation linéaire est forte. La droite de régression est aussi appelée droite des moindres carrés. Elle comporte deux paramètres clés, la constante et la pente, et s'exprime mathématiquement sous forme d'une équation de régression linéaire. |
Coefficient de déterminationLorsqu'on élève au carré le coefficient de corrélation r, obtient le coefficient de détermination appelé encore r-deux. Il s'interprète comme la proportion de variation dans la variable dépendante expliquée par la variable indépendante. |
Coefficient d'aliénationLorsqu'on soustrait le coefficient de détermination du total 1 (1 moins r-deux), on obtient le coefficient d'aliénation. Le coefficient d'aliénation s'interprète comme la proportion de variation dans la variable dépendante non expliquée par la variable indépendante. |
Modèle de régression linéaireModèle
statistique utilisé pour expliquer une variable dépendante quantitative à l'aide d'une variable indépendante quantitative. |
Équation de régression linéaireÉquation mathématique qui permet de prédire un score d'une variable dépendante (Y) connaissant un score d'une variable indépendante (X). Elle est symbolisée par Y = a + b X. Cette équation donne la valeur prédite Y, si la valeur de X
est connue, connaissant la constante (a) et le coefficient de régression linéaire (b). | |
Coefficient de régression linéaireCoefficient montrant l'effet d'une variable indépendante quantitative (X) sur une variable dépendante quantitative (Y). On l'appelle aussi pente. Le coefficient de régression s'interprète comme le degré de changement en Y lorsque X augmente d'une unité. Contrairement au coefficient de corrélation linéaire, le coefficient de régression linéaire peut dépasser la valeur 1, puisqu'il est sensible aux différences dans les unités de mesure des deux variables. |
ConstanteSur la droite de régression mettant en évidence la relation entre une variable indépendante quantitative (X) et une variable dépendante quantitative (Y), la constante correspond à la valeur fixe qui coupe l'axe Y. On l'appelle aussi intersection ou ordonnée à l'origine. Elle s'interprète comme la valeur de Y lorsque X est nul. |
Régression linéaireTechnique statistique utilisée pour analyser une relation entre deux variables quantitatives (X et Y), permettant notamment de prédire un score Y connaissant un autre score de X. Cette relation est modélisée à l'aide d'une équation de régression linéaire. |
Corrélation linéaireTechnique statistique utilisée pour analyser une relation d'association entre deux variables quantitatives (X et Y), permettant notamment de mesurer l'intensité de la concentration des points (du diagramme de dispersion) autour d'une droite de régression linéaire. Plus les points se regroupent autour de cette droite, plus la corrélation est forte, étant entendu que des points très dispersés traduisent une absence de corrélation. |
Pente |
Erreur de prédictionÉcart entre score réel de Y et score prédit de Y à l'aide de la droite de régression linéaire. L'erreur de prédiction est aussi appelée résidu, un terme plus technique. Elle s'interprète comme l'erreur que l'on commettrait si on s'appuie sur la droite de régression pour prédire un score d'une variable dépendante (Y) connaissant un score d'une variable indépendante (X). |
RésiduVoir Erreur de prédiction. |
Matrice de corrélationTableau
qui présente les coefficients de corrélation entre trois variables ou plus
prises deux à deux. Lorsque l'on mesure les corrélations bivariées dans un ensemble matriciel constitué de plusieurs variables, il est important de gérer les données manquantes. Il existe deux modalités d'exclusion des données manquantes: exclusion en paires et exclusion en liste. |
Exclusion en paires |
Exclusion en liste |
Recherche qualitativeC'est un type particulier de recherche qui tente d'explorer et de comprendre en profondeur un phénomène en s’appuyant sur la manipulation de données d'observations intensives (obtenues notamment au moyen d'entrevues individuelles, de focus-groups, d'une observation participante, de monographies). |
Relation négative |
Relation positiveIl y a relation positive lorsque deux variables sont reliées dans le même sens: à mesure qu'une variable augmente l'autre augmente proportionnellement. Les scores les plus élevés d'une variable sont associés aux scores les plus élevés de l'autre variable. On peut aussi parler de relation directe. |
Direction d'une relationElle précise le sens d'une relation entre deux variables, lesquelles peut être reliées dans le même sens (relation positive) ou dans le sens inverse (relation négative). La direction s'applique si et seulement si les deux variables sont ordinales ou quantitatives. Dans le cas de l'analyse tabulaire bivariée, la direction se détecte en observant la progression croissante ou décroissante des pourcentages des catégories de la variable indépendante. |
Analyse tabulaire bivariéeTechnique statistique descriptive permettant d'analyser l’association statistique entre deux variables qualitatives (discrètes parfois) sur la base d'un tableau croisé en fréquences ou en pourcentages. L'analyse tabulaire bivariée répond à des questions du genre: 1) Y a-t-il une relation d’association entre deux variables catégorielles dans les données d'échantillon? 2) Si oui, quelle est l’intensité de cette relation? 3) Quelle est la direction de cette relation? |
Intensité d'une relationElle précise la force d'une relation entre deux variables. Ces dernières peuvent être fortement, modérément, faiblement ou nullement reliées: on parle alors de relation forte, de relation modérée, de relation faible, ou de relation nulle. Dans le cas de l'analyse tabulaire bivariée, l'intensité se mesure en comparant les pourcentages de deux catégories de la variable indépendante. |
Fréquences conditionnellesLes fréquences conditionnelles renvoient à la distribution deux à deux des catégories de valeurs de deux variables catégorielles mises en relation. Ce sont les fréquences qui se trouvent à l’intérieur du tableau bivarié. Chacune de ces fréquences indique le nombre de cas correspondant à la combinaison de deux catégories. On les appelle aussi des fréquences de cellule ou des fréquences combinées. |
Fréquences marginales |
Diagramme en bâtons groupésUn type de diagramme où les barres sont groupées ou juxtaposées et sont associées à chacune des catégories de la variable indépendante. Chacune des barres juxtaposées représente une catégorie de la variable dépendante. Les diagrammes en bâtons groupés sont aussi appelés des diagrammes en bâtons juxtaposés. Ils sont appropriés pour visualiser l’existence d’une relation entre deux variables dont au moins l’une est nominale ou considérée comme telle. |
Diagramme en bâtons empilésUn type de diagramme où chaque barre représente une catégorie de la variable indépendante et où chaque barre est empilée, divisée selon les catégories de la variable dépendante. Les diagrammes en bâtons empilés sont aussi appelés diagrammes en bâtons divisés. Ils sont appropriés pour visualiser l’intensité et surtout la forme de la direction d’une relation entre deux variables ordinales ou discrètes. |
Relation fallacieuseRelation d'association entre deux variables qui n'est établie que sous l'influence d'une variable tierce appelée variable antécédente. Il y a donc relation fallacieuse lorsqu'une variable antécédente explique une relation entre une variable indépendante et une variable dépendante. Par exemple, la relation entre le nombre de cigognes et le taux de fécondité est une relation fallacieuse, le type de district expliquant la relation. Les districts ruraux accueillent plus de cigognes et présentent un taux de fécondité élevé. |
Variable antécédenteUne variable antécédente est une variable-contrôle qui intervient avant la variable indépendante et la variable dépendante dans la chaîne causale d'une relation. Elle explique pourquoi deux variables sont reliées de façon fallacieuse (relation fallacieuse). |
Variable-contrôleVariable que l'on contrôle ou dont on tient compte dans une relation entre une variable indépendante et une variable dépendante. L'introduction d'une variable-contrôle dans une relation bivariée permet de conclure ou non à une relation de causalité. |
Relation de causalitéRelation où une variable dépendante ne peut se produire sans une variable indépendante. On ne peut conclure à une relation de causalité que lorsqu'une relation entre deux variables persiste après avoir contrôlé l'effet d'une variable tierce (variable-contrôle). Cela suppose de procéder à l'analyse multivariée. |
Relation d'associationRelation où la présence d'une variable dépendante est accompagnée de celle d'une variable indépendante. On peut conclure à une relation d'association dans le cadre d'une analyse bivariée. |
Analyse bivariéeAnalyse d'une relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse bivariée à l'aide de techniques telles que l'analyse tabulaire bivariée, le test chi-carré, le test t, le test ANOVA, la corrélation linéaire et la régression linéaire. |
Analyse multivariéeAnalyse d'une relation entre trois variables ou plus, notamment en introduisant une variable-contrôle dans relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse multivariée à l'aide de techniques telles que l'analyse tabulaire multivariée, l'ANOVA factorielle, la corrélation linéaire multiple et partielle, la régression linéaire multiple, la régression logistique multiple. |
chi-carréTest d'hypothèse utilisé lorsqu'on veut analyser une relation entre deux variables qualitatives, discrètes parfois. L'enjeu est de savoir si une relation révélée par l'analyse tabulaire bivariée est statistiquement significative ou non dans la population. |
ANOVAL'ANOVA (ANalysis Of VAriance) est un test d'hypothèse utilisé lorsqu'on veut analyser une relation entre une variable indépendante qualitative non dichotomique et une variable dépendante quantitative. L'enjeu est de savoir si au moins une des différences entre trois moyennes ou plus est statistiquement significative ou non dans la population dont est issu l'échantillon étudié. |
Test tTest d'hypothèse utilisé lorsqu'on veut analyser une relation entre une variable indépendante qualitative dichotomique et une variable dépendante quantitative. L'enjeu est de savoir si une différence entre deux moyennes est statistiquement significative ou non dans la population dont est issu l'échantillon étudié. |
Fréquences observéesElles renvoient aux fréquences réelles obtenues à partir des
données d’échantillon. |