MIASS 231.1. Mathématiques sociales 3 (2024)
GLOSSAIRE
Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)
Spécial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | Tout
A |
---|
Analyse bivariéeAnalyse d'une relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse bivariée à l'aide de techniques telles que l'analyse tabulaire bivariée, le test chi-carré, le test t, le test ANOVA, la corrélation linéaire et la régression linéaire. |
Analyse multivariéeAnalyse d'une relation entre trois variables ou plus, notamment en introduisant une variable-contrôle dans relation entre une variable indépendante et une variable dépendante. On peut procéder à l'analyse multivariée à l'aide de techniques telles que l'analyse tabulaire multivariée, l'ANOVA factorielle, la corrélation linéaire multiple et partielle, la régression linéaire multiple, la régression logistique multiple. |
Analyse tabulaire bivariéeTechnique statistique descriptive permettant d'analyser l’association statistique entre deux variables qualitatives (discrètes parfois) sur la base d'un tableau croisé en fréquences ou en pourcentages. L'analyse tabulaire bivariée répond à des questions du genre: 1) Y a-t-il une relation d’association entre deux variables catégorielles dans les données d'échantillon? 2) Si oui, quelle est l’intensité de cette relation? 3) Quelle est la direction de cette relation? |
ANOVAL'ANOVA (ANalysis Of VAriance) est un test d'hypothèse utilisé lorsqu'on veut analyser une relation entre une variable indépendante qualitative non dichotomique et une variable dépendante quantitative. L'enjeu est de savoir si au moins une des différences entre trois moyennes ou plus est statistiquement significative ou non dans la population dont est issu l'échantillon étudié. |
Axe des XLigne horizontale dans un plan à deux dimensions. Il est aussi appelé axe des abscisses. |
Axe des YLigne verticale dans un plan à deux dimensions. Il est aussi appelé axe des ordonnées. |
B |
---|
Base de sondageListe numérotée et exhaustive des individus d'une population à l'étude. |
BiaisDans l'estimation d'un paramètre, c'est l'écart entre la valeur observée dans l'échantillon et la valeur réelle du paramètre de la population. Réduire le biais d'un estimé revient à constituer un échantillon aléatoire. |
C |
---|
CasLe cas
est l’unité spécifique à propos de laquelle on collecte des données d'échantillon. On parle aussi d'unité de sondage. |
Cas déviantsCe sont les cas dont les scores dévient, s'écartent de l'ensemble des scores d'une distribution. Les cas déviants présentent des scores aberrants. Ils sont caractéristiques d'une distribution asymétrique. |
Catégories collectivement exhaustives |
Catégories mutuellement exclusivesElles signifient que chaque cas appartient à une et une seule catégorie. |
CentilesMesures de position, les centiles divisent une distribution en 100 parties égales, de telle sorte que chaque partie occupe 1% des scores. La médiane correspond au 50e centile (C50). |
chi-carréTest d'hypothèse utilisé lorsqu'on veut analyser une relation entre deux variables qualitatives, discrètes parfois. L'enjeu est de savoir si une relation révélée par l'analyse tabulaire bivariée est statistiquement significative ou non dans la population. |
Chi-carré critiqueValeur se trouvant dans la table de la distribution d'échantillonnage du chi-carré. Le chi-carré critique est la valeur minimale nécessaire au rejet de l'hypothèse nulle d'une absence de relation entre deux variables catégorielles. Précisément, dans le cas d'une absence de relation (sous l'hypothèse nulle), si l'on devait répéter l'expérience de sélection de l'échantillon 100 fois, 95% des échantillons auraient des chi-carrés compris entre 0 et la valeur critique au seuil de signification 0,05; 99% des échantillons auraient des chi-carrés compris entre 0 et la valeur critique au seuil de signification 0,01, etc. La valeur critique est une sorte de constante qui dépend de deux paramètres: le seuil de signification et le nombre de degrés de libertés. |
CodageProcédure qui consiste à assigner aux données (de nature qualitative surtout) des codes numériques afin
de faciliter les opérations subséquentes de conversion des données en informations. Par exemple, pour la variable sexe, on peut assigner 1 à Homme et 2 à Femme. |
Coefficient d'aliénationLorsqu'on soustrait le coefficient de détermination du total 1 (1 moins r-deux), on obtient le coefficient d'aliénation. Le coefficient d'aliénation s'interprète comme la proportion de variation dans la variable dépendante non expliquée par la variable indépendante. |
Coefficient de corrélationIndice montrant dans quelle mesure deux variables quantitatives sont corrélées l'une à l'autre. Le coefficient de corrélation mesure précisément le degré de concentration des points (du diagramme de dispersion) autour de la droite de régression. Il varie de 0 à 1 pour une corrélation positive, et de -1 à 0 pour une corrélation négative. |
Coefficient de déterminationLorsqu'on élève au carré le coefficient de corrélation r, obtient le coefficient de détermination appelé encore r-deux. Il s'interprète comme la proportion de variation dans la variable dépendante expliquée par la variable indépendante. |
Coefficient de régression linéaireCoefficient montrant l'effet d'une variable indépendante quantitative (X) sur une variable dépendante quantitative (Y). On l'appelle aussi pente. Le coefficient de régression s'interprète comme le degré de changement en Y lorsque X augmente d'une unité. Contrairement au coefficient de corrélation linéaire, le coefficient de régression linéaire peut dépasser la valeur 1, puisqu'il est sensible aux différences dans les unités de mesure des deux variables. |
Coefficient de variationC'est le rapport entre l'écart-type et la moyenne, sur une base de comparaison 100. Approprié pour comparer la dispersion de distributions ayant des unités de mesure différentes. Par convention, lorsque le coefficient de variation relative est supérieur à 15%, la distribution est hétérogène. |
ConceptUn concept est une représentation d'une réalité d'un phénomène. Il traduit un choix parmi les significations possibles d'un terme. Ainsi, le chercheur en sciences sociales opère toujours sur des concepts et non sur des notions. |
ConsistanceUn estimé est consistant lorsque sa distribution d’échantillonnage comportant une faible variabilité. La consistance est la propriété la plus désirable d'un estimé. Augmenter la consistance d'un estimé revient à augmenter la taille de l'échantillon. |
ConstanteSur la droite de régression mettant en évidence la relation entre une variable indépendante quantitative (X) et une variable dépendante quantitative (Y), la constante correspond à la valeur fixe qui coupe l'axe Y. On l'appelle aussi intersection ou ordonnée à l'origine. Elle s'interprète comme la valeur de Y lorsque X est nul. |
Corrélation linéaireTechnique statistique utilisée pour analyser une relation d'association entre deux variables quantitatives (X et Y), permettant notamment de mesurer l'intensité de la concentration des points (du diagramme de dispersion) autour d'une droite de régression linéaire. Plus les points se regroupent autour de cette droite, plus la corrélation est forte, étant entendu que des points très dispersés traduisent une absence de corrélation. |
Corrélation négativeIl y a corrélation négative lorsque deux variables quantitatives covarient dans le sens contraire: à mesure qu'une variable augmente, l'autre diminue. Les scores les plus élevés d'une variable sont associés aux scores les plus faibles de l'autre variable. On peut aussi parler de corrélation inverse. |
Corrélation positive |
D |
---|
Découverte négativeDans le cadre de l'interprétation théorique, lorsqu'on établit que les résultats obtenus s'écartent des résultats attendus, on est en présence d'une découverte négative: l'hypothèse de recherche est infirmée. |
Découverte positiveDans le cadre de l'interprétation théorique, lorsqu'on établit que les résultats obtenus correspondent aux résultats attendus, on est en présence d'une découverte positive: l'hypothèse de recherche est confirmée. |
Désirabilité socialeLa désirabilité sociale est le biais qui consiste à vouloir se présenter sous un jour favorable devant ses interlocuteurs. Cela pose problème particulièrement lorsqu'un chercheur administre un questionnaire en face à face auprès d'un interviewé. |
Diagramme circulaireDiagramme divisé en secteurs, chaque secteur étant proportionnel à la fréquence ou au pourcentage de chacune des catégories de la variable dont les données sont représentées. Approprié pour les variables nominales comportant peu de catégories. |
Diagramme de dispersionDiagramme
à deux dimensions illustrant la corrélation entre deux variables quantitatives sous forme d''une série de points, chaque point représentant l'intersection entre deux scores pour chaque individu. On parle aussi de nuage de points. |
Diagramme en bâtons empilésUn type de diagramme où chaque barre représente une catégorie de la variable indépendante et où chaque barre est empilée, divisée selon les catégories de la variable dépendante. Les diagrammes en bâtons empilés sont aussi appelés diagrammes en bâtons divisés. Ils sont appropriés pour visualiser l’intensité et surtout la forme de la direction d’une relation entre deux variables ordinales ou discrètes. |
Diagramme en bâtons groupésUn type de diagramme où les barres sont groupées ou juxtaposées et sont associées à chacune des catégories de la variable indépendante. Chacune des barres juxtaposées représente une catégorie de la variable dépendante. Les diagrammes en bâtons groupés sont aussi appelés des diagrammes en bâtons juxtaposés. Ils sont appropriés pour visualiser l’existence d’une relation entre deux variables dont au moins l’une est nominale ou considérée comme telle. |
Diagramme en boîte et à moustachesDiagramme où 1) les bordures inférieure et supérieure de la boîte représentent respectivement le quartile 1 et le quartile 3, sachant que la quartile 2 (médiane) se situe à l'intérieur de la boîte; 2) les moustaches sont représentées par les longueurs allant du score minimal normal au quartile 1, et du score maximal normal au quartile 3; 3) les cas déviants sont représentés par des astérisques ou cercles. |
Différence attendue de moyennes |
Différence observée de moyennesElle renvoie à la différence entre deux moyennes de groupes réellement obtenues à partir des données d’échantillon. |
Différence théorique de moyennesElle renvoie à la différence entre deux moyennes de groupes dans le cas d'une absence de relation dans la population. C'est la différence de moyennes à laquelle on devrait s'attendre s'il n'y avait pas de relation entre une variable dichotomique et une variable quantitative dans la population. On parle aussi de différence attendue de moyennes de groupes. |
Direction d'une relationElle précise le sens d'une relation entre deux variables, lesquelles peut être reliées dans le même sens (relation positive) ou dans le sens inverse (relation négative). La direction s'applique si et seulement si les deux variables sont ordinales ou quantitatives. Dans le cas de l'analyse tabulaire bivariée, la direction se détecte en observant la progression croissante ou décroissante des pourcentages des catégories de la variable indépendante. |
Distribution asymétriqueDistribution présentant une longue queue s'étirant vers la droite ou la gauche. La distribution est asymétrique négative lorsqu'elle s'étire vers les scores faibles: dans cette situation la moyenne sera plus petite que la médiane ou le mode. La distribution est asymétrique positive lorsqu'elle s'étire vers les scores élevés: dans cette situation la moyenne sera plus grande que la médiane ou le mode. |
Distribution cumulativeFréquence
ou pourcentage de tous les individus qui ont des scores égaux ou inférieurs à une valeur donnée. Les distributions cumulatives (F) sont utiles pour des variables ordinales (ou quantitatives). |
Distribution d'échantillonnage
Distribution d'une statistique de tous les échantillons possibles d'une même taille dans une population donnée. Elle réfère au fait qu'une statistique fluctue, prend des valeurs différentes pour des échantillons différents lorsqu'on répète presque à l'infini l'expérience du sondage. Appelée encore théorie de l'échantillonnage, la distribution d'échantillonnage permet de passer de l'échantillon à la population, autorisant ainsi la possibilité de faire des inférences avec une marge d'erreur connue.
|
Distribution d'un échantillonDistribution des scores d'une variable à l'intérieur d'un échantillon n d'une taille donnée. C'est la façon dont les scores sont distribués, répartis dans une série de données d'échantillon. Elle donne une statistique. |
Distribution d'une populationDistribution des scores d'une variable à l'intérieur d'une population N d'une taille donnée. C'est la façon dont les scores sont distribués, répartis dans une série de données de population. Elle donne un paramètre. |
Distribution de fréquences regroupéesDistribution de
fréquences avec des valeurs regroupées en classes ou en super-catégories. |
Distribution de fréquences simplesDistribution de
fréquences avec les valeurs brutes de départ, ces valeurs n'étant pas regroupées. |
Distribution normale
Appelée encore « courbe en cloche » ou « courbe normale », la distribution normale est une distribution symétrique et unimodale. La plupart des scores sont regroupés autour de la caractéristique moyenne, de telle sorte que plus on s'éloigne de cette tendance centrale plus les scores sont moins fréquents dans des proportions similaires. La distribution normale est au fondement des statistiques inférentielles.
|
Distribution symétrique |
Distributions de fréquencesUne distribution de fréquences réfère au résumé de la façon dont les données sont distribuées selon les valeurs d'une variable pour différents individus. Ce résumé est souvent donné par un tableau ou un diagramme. Les fréquences peuvent se décliner en proportions, pourcentages, taux ou indices. Qu'elles soient absolues ou relatives, les distributions de fréquences permettent de décrire le score le plus fréquent d'une distribution et aident à rendre compte de l'ampleur d'un phénomène. |
Données statistiquesElles correspondent à des données numériques, lesquelles peuvent être de première main (primaires) ou de seconde main (secondaires). Et elles sont contextuelles et contextualisées. |
Droite de régressionCourbe linéaire la plus moyenne possible passant au plus près du nuage de points d'un diagramme de dispersion. Plus elle est oblique, i.e. sa pente abrupte, plus la corrélation linéaire est forte. La droite de régression est aussi appelée droite des moindres carrés. Elle comporte deux paramètres clés, la constante et la pente, et s'exprime mathématiquement sous forme d'une équation de régression linéaire. |
É |
---|
Écart-typeRacine carrée de la variance, l'écart-type mesure la variation ou la dispersion des scores par rapport à la moyenne d'une distribution donnée. C'est l'écart typique de l'échelle des scores. Il s'interprète comme l'écart en plus ou moins de la moyenne et définit un intervalle à l'intérieur duquel se trouve 68% des scores. C'est la mesure de variation la plus utilisée. |
ÉchantillonSous-ensemble d'individus sur lequel porte l'analyse, le sous-ensemble étant tiré d’une population dont on cherche ultimement à connaître les caractéristiques. Chaque individu d'un échantillon est appelé cas. |
Échantillonnage accidentelÉchantillonnage où l'on choisit les individus rencontrés accidentellement au gré des circonstances. Approprié lorsque l'étude porte sur des phénomènes de nature publique, tels que l'usage des services publics comme le transport intra-urbain, la fréquentation des lieux publics, etc. On peut aller à la rencontre des individus en définissant un itinéraire (le long du trajet du bus 161) ou en sélectionnant de façon systématique (à chaque arrêt du bus 161). |
Échantillonnage aléatoireMode d'échantillonnage où tous les individus d'une population ont une chance ou probabilité égale et indépendante d'être sélectionné, la sélection se faisant par tirage au sort. On l'appelle aussi échantillonnage probabiliste. L'échantillon aléatoire autorise la possibilité de procéder à l'inférence statistique, pour au moins deux raisons: 1) Un échantillon aléatoire est un échantillon "représentatif" de la population parente, permettant ainsi d'utiliser avec confiance une statistique de cet échantillon pour estimer le paramètre de la population; 2) Lorsqu'un échantillon est aléatoire, on peut calculer la probabilité qu'un individu de la population soit sélectionné dans l'échantillon (p=n/N), permettant ainsi de déterminer la marge d'erreur de l'estimation avec une probabilité connue. En général, on distingue plusieurs techniques d'échantillonnage aléatoire: simple, systématique, stratifié, grappes. |
Échantillonnage aléatoire simpleÉchantillonnage de base où l'on sélectionne aléatoirement des individus dans une population donnée de façon à ce qu'ils aient une même chance de sélection. |
Échantillonnage aléatoire systématiqueÉchantillonnage où les individus de la base de sondage sont aléatoirement choisis à l'aide d'un intervalle de sélection (k=N/n), de façon à ce que chaque individu concerné par l'intervalle k soit inclus dans l'échantillon, l'origine étant choisie au hasard entre 1 et k. Par exemple, pour un échantillon n=20 à tirer dans une population N=100, k serait égal à 5 (100/20); et si l'origine choisie au hasard était 3 (entre 1 et 5), l'échantillon serait 3, 8, 13... etc. Approprié et d'un usage très courant en contrôle de qualité, lorsqu'on veut par exemple contrôler la qualité d'un produit de façon à couvrir l'ensemble de la production. |
Échantillonnage boule de neigeÉchantillonnage où l'on choisit les individus partageant un réseau. Approprié lorsque l'étude porte sur des phénomènes de nature relationnelle, tels que l'usage des médias sociaux, les relations dans le milieu des affaires, etc. La procédure consiste à choisir un individu clé et à sélectionner ensuite tous les individus liés au premier choisi de façon à faire boule de neige. |
Échantillonnage de volontairesÉchantillonnage où l'on choisit les individus qui se sont spontanément portés volontaires. On parle aussi d'échantillonnage spontané. Approprié lorsque l'étude porte sur des tabous ou des phénomènes de déviance où les acteurs sont stigmatisés. Le questionnaire publicisé est souvent l'instrument utilisé: internet, presse, etc. |
Échantillonnage en grappesÉchantillonnage où la population est caractérisée de plusieurs grappes ou groupes spatio-temporels (quartiers, universités, etc.) et où dans un premier temps des grappes sont sélectionnées aléatoirement, et où dans un deuxième temps les individus sont choisis aléatoirement au sein des grappes sélectionnées. Finalement de deux choses l'une: soit tous les individus des grappes sélectionnées sont retenus, soit on choisit aléatoirement les individus à l'intérieur des grappes sélectionnées. |
Échantillonnage non aléatoireMode d'échantillonnage où l'échantillon est sélectionné par une méthode non aléatoire. On l'appelle aussi échantillonnage non probabiliste ou empirique. Les individus sont délibérément choisis, de façon raisonnable ou arbitraire, en fonction d'un certain nombre de critères, afin d'obtenir un échantillon caractéristique de la population parente. Pas nécessaire de disposer d'une base de sondage. On distingue plusieurs techniques d'échantillonnage non aléatoire: accidentel, volontaire, typique, boule de neige. |
Échantillonnage non probabiliste |
Échantillonnage par quotasÉchantillonnage où l'on choisit les individus de façon à reproduire la structure sociale de la population dans l'échantillon selon les mêmes quotas. D'un usage courant en sociologie, il est approprié lorsque l'étude porte sur les inégalités sociales, telles que les inégalités salariales selon le genre, la discrimination des immigrés, etc. La procédure consiste à définir des quotas (d'hommes et de femmes par exemple) et à sélectionner délibérément les individus jusqu'à atteindre les quotas fixés. Pour éviter d'obtenir un échantillon de convenance, on procède souvent à la triangulation en combinant avec une ou d'autres techniques d'échantillonnage non aléatoire: accidentel, volontaire, typique, boule de neige. |
Échantillonnage probabiliste |
Échantillonnage stratifiéÉchantillonnage où la population est caractérisée par des sous-groupes homogènes ou strates (sexe, classe sociale, groupe d'âge, etc.) et où les individus sont choisis aléatoirement à l'intérieur de chacune des strates. Concernant les strates, lorsque les proportions de l'échantillon sont similaires à celles de la population, on parle d'échantillon proportionnel. L'échantillon est non proportionnel lorsque ses proportions sont différentes de celles de la population. |
Échantillonnage typiqueÉchantillonnage où l'on choisit les individus-types au regard de la problématique étudiée. Approprié lorsque l'étude porte sur des problèmes sociaux, tels que le gros tabagisme, l'itinérance, etc. La procédure consiste à définir des critères bien précis et à sélectionner les individus qui répondent à ces critères de façon à obtenir un échantillon typique du problème étudié. |
E |
---|
Echelle de mesure
Une échelle de mesure est la série des valeurs possibles d’une variable pour des individus différents. On distingue quatre variables selon leur échelle de mesure: variable nominale, variable ordinale, variable d'intervalles, variable de ratio.
|
É |
---|
Équation de régression linéaireÉquation mathématique qui permet de prédire un score d'une variable dépendante (Y) connaissant un score d'une variable indépendante (X). Elle est symbolisée par Y = a + b X. Cette équation donne la valeur prédite Y, si la valeur de X
est connue, connaissant la constante (a) et le coefficient de régression linéaire (b). | |
E |
---|
Erreur d'échantillonnageErreur associée au fait de sélectionner des individus plutôt que d'autres, de constituer un échantillon plutôt qu'un autre au sein d''une population donnée. Habituellement mesurable lorsque l'échantillon est aléatoire, l'erreur (aléatoire) d'échantillonnage ou marge d'erreur réfère à l'écart entre une statistique de l'échantillon et le paramètre de la population. |
Erreur de prédictionÉcart entre score réel de Y et score prédit de Y à l'aide de la droite de régression linéaire. L'erreur de prédiction est aussi appelée résidu, un terme plus technique. Elle s'interprète comme l'erreur que l'on commettrait si on s'appuie sur la droite de régression pour prédire un score d'une variable dépendante (Y) connaissant un score d'une variable indépendante (X). |
Erreur non due à l'échantillonnageErreur ne relevant pas de l'échantillonnage, à l'instar des erreurs de couverture, des erreurs de mesure, des erreurs de réponse, des erreurs de non-réponse, des erreurs de saisie. Habituellement, ce sont des erreurs non mesurables. |
Erreur-typeElle renvoie à l’écart-type des statistiques (moyennes ou proportions) de tous échantillons de taille n qu’il est possible de former dans une population N donnée. Si l'on devait répéter 100 fois l'expérience de sélection de l'échantillon, il y aurait 68% de chances que le paramètre recherché de la population se trouve à plus ou moins un écart-type de la statistique de l'échantillon observé. L’erreur-type est donc une forme de marge d’erreur, mais avec un niveau de confiance de 68%. |
Erreur-type d'une différenceElle renvoie à l’écart-type des différences de moyennes de tous échantillons de taille n qu’il est possible de former dans une population donnée. Si l'on devait répéter 100 fois l'expérience de sélection de l'échantillon, il y aurait 68% de chances que la différence de deux moyennes de la population se trouve à plus ou moins un écart-type de la différence observée dans l'échantillon retenu. |
EstimateurVoir Estimé. |
EstimationL'estimation consiste à partir d'une statistique d'un échantillon, à estimer, connaître le paramètre d'une population. Deux types d'estimation sont à distinguer: l'estimation ponctuelle et l'estimation par intervalle de confiance. |
Estimation par intervalle de confianceElle consiste à estimer les deux valeurs formant l'intervalle à l'intérieur duquel se trouve le paramètre recherché d'une population avec une certaine certitude : on parle d’intervalle de confiance. L'intervalle de confiance se calcule à partir de la marge d'erreur. |
Estimation ponctuelleElle consiste à estimer un paramètre d’une population par une valeur unique: la statistique de l’échantillon. Pour que l'estimation ponctuelle soit fiable, il faut que l'échantillon soit aléatoire et de grande taille. |
EstiméLorsqu'une statistique d'un échantillon sert à estimer le paramètre de la population, cette statistique est appelée estimé d'un paramètre. Une statistique est donc appelé estimé ou estimateur. |
Ê |
---|
Êta-carréMesure d'association utilisée pour établir l'intensité ou l'effet de taille d'une variable indépendante qualitative sur une une variable dépendante. L'êta-carré est utilisée à la suite d'un test t de Student ou d'un test d'ANOVA. L'êta-carré varie de 0 à 1. Selon la règle d'interprétation de Cohen (1988), lorsque l'êta-carré se situe autour de 0,01, la relation est faible; autour de 0,06, la relation est modérée; autour de 0,14 et plus, la relation est forte. |
É |
---|
ÉtendueDifférence entre le score maximal et le score minimal d'une distribution. |
E |
---|
ExcelTableur de la suite de Microsoft Office. C'est l'un des tableurs les plus utilisés pour des opérations de calcul. |
Exclusion en liste |
Exclusion en paires |
F |
---|
F critiqueValeur se trouvant dans la table de la distribution d'échantillonnage du F d'ANOVA. Le F critique est la valeur minimale nécessaire au rejet de l'hypothèse nulle d'une absence de différence entre trois moyennes de groupes ou plus. Précisément, dans le cas d'une absence de différence (sous l'hypothèse nulle), si l'on devait répéter l'expérience de sélection de l'échantillon 100 fois, 95% des échantillons auraient des F compris entre 0 et la valeur critique au seuil de signification 0,05; 99% des échantillons auraient des F compris entre 0 et la valeur critique au seuil de signification 0,01, etc. La valeur critique est une sorte de constante qui dépend de deux paramètres: le seuil de signification et le nombre de degrés de libertés. |
FréquenceIl s'agit du nombre d'individus ou d'occurrences correspondant à une valeur dans un ensemble de données. Pour faciliter leur interprétation, les fréquences sont souvent converties en pourcentages. |
Fréquences attenduesVoir Fréquences théoriques. |
Fréquences conditionnellesLes fréquences conditionnelles renvoient à la distribution deux à deux des catégories de valeurs de deux variables catégorielles mises en relation. Ce sont les fréquences qui se trouvent à l’intérieur du tableau bivarié. Chacune de ces fréquences indique le nombre de cas correspondant à la combinaison de deux catégories. On les appelle aussi des fréquences de cellule ou des fréquences combinées. |
Fréquences marginales |
Fréquences observéesElles renvoient aux fréquences réelles obtenues à partir des
données d’échantillon. |
Fréquences théoriquesElles renvoient aux fréquences auxquelles on devrait s’attendre dans le cas d’une absence de relation entre deux variables catégorielles dans la population. On les appelle aussi des fréquences attendues ou fréquences anticipées. |
H |
---|
HasardLe hasard reflète notre incapacité à maîtriser tous les degrés de liberté d'une situation donnée, c'est-à-dire les éléments susceptibles d'exercer librement une influence sur cette situation. Lorsqu'on lance une pièce, la position de la main, l'élan du lanceur sont autant d'éléments susceptibles de faire varier le résultat en pile ou face. De même, lorsqu'on sélectionne un échantillon, le hasard de l'échantillonnage peut faire de telle sorte qu'on tombe sur un échantillon, ou un autre, encore et encore... |
HistogrammeDiagramme
formé d'une suite de barres accolées avec des intervalles de classes en
abscisse et des fréquences ou pourcentages en ordonnée. Approprié pour représenter une variable continue dont les valeurs sont transformée en classes. |
Homoscédasticité |
Hypothèse de rechercheL'hypothèse de recherche renvoie à l'énoncé d'une réponse anticipée à une question spécifique de recherche. Elle peut être univariée, bivariée ou multivariée. |
Hypothèse statistiqueUn peu tôt! À venir... |
I |
---|
IndicateurC'est un signe directement observable et mesurable d'un concept, sa manifestation concrète. Par exemple, le nombre d'années de scolarité complétées est un indicateur puisqu'il permet précisément à un chercheur d'observer et de mesurer le niveau d'éducation d'un individu. Les statistiques ne comprennent que le langage des indicateurs:) |
Intensité d'une relationElle précise la force d'une relation entre deux variables. Ces dernières peuvent être fortement, modérément, faiblement ou nullement reliées: on parle alors de relation forte, de relation modérée, de relation faible, ou de relation nulle. Dans le cas de l'analyse tabulaire bivariée, l'intensité se mesure en comparant les pourcentages de deux catégories de la variable indépendante. |
Interprétation des résultatsPuisque les chiffres ne parlent pas d'eux-mêmes, il faut les faire parler, c.à.d. les interpréter. L'interprétation des résultats consiste donc à donner un sens aux statistiques. Au moins, deux formes d'interprétation sont à distinguer: interprétation statistique et interprétation théorique. |
Interprétation statistiqueIntervenant au premier degré, elle consiste à présenter les résultats chiffrés, notamment ce qu'ils disent et ce qu'ils suggèrent. |
Interprétation théoriqueIntervenant au second degré, elle consiste à expliquer, discuter la plausibilité des résultats, notamment du point de vue de leur rapport à la problématique, de leur validité et de leur portée. |
Intervalle interquartileIl mesure la différence entre les quartiles supérieur et inférieur (Q3-Q1) d'une distribution. Ces deux quartiles définissent un intervalle à l'intérieur duquel s'étend 50 % des scores autour de la médiane. C'est la seule mesure de variation qui ne subit pas l'effet des cas déviants ou scores aberrants. |
K |
---|
KurtoseMesure de la forme de la dispersion d'une distribution, elle évalue précisément le degré d'applatissement et se lit donc verticalement. Lorsque le coefficient de kurtose est positif, on a une distribution leptokurtique; lorsqu'il est négatif, on a une distribution platykurtique; lorsqu'il est nul, on a une distribution mésokurtique. |
L |
---|
Loi des grands nombresElle postule que les caractéristiques de l’échantillon aléatoire
se rapprochent d’autant plus de celles de la population que la taille de
l’échantillon augmente. Plus la taille de l'échantillon est grande (n=30 minimum), meilleure est donc l'inférence statistique. |
M |
---|
Marge d'erreur
Elle mesure, avec une certaine certitude, l'écart entre une statistique de l'échantillon et le paramètre recherché de la population, soit l'erreur (aléatoire) d'échantillonnage d'une estimation. La marge d'erreur se calcule en multipliant l'erreur-type par le score-z associé à un niveau de confiance donné. On l'utilise pour établir l'intervalle de confiance de cette estimation.
|
Matrice de corrélationTableau
qui présente les coefficients de corrélation entre trois variables ou plus
prises deux à deux. Lorsque l'on mesure les corrélations bivariées dans un ensemble matriciel constitué de plusieurs variables, il est important de gérer les données manquantes. Il existe deux modalités d'exclusion des données manquantes: exclusion en paires et exclusion en liste. |
MédianeLorsque les scores sont ordonnés du plus petit au plus grand ou vice-versa, la médiane est le score correspondant au point-milieu d'une série de données. Elle divise une distribution en deux parties égales: 50% de part et d'autre du point-milieu. |
Mesures d'associationElles permettent d'évaluer l'intensité ou la signification réelle d'une relation. L'exemple est donné du V de Cramer, lequel est utilisé dans l'analyse d'une relation entre deux variables catégorielles dont au moins l'une est nominale ou considérée comme telle. |
Mesures de tendance centraleDécrivent l'emplacement où se trouve le centre ou milieu d'une distribution. Les mesures de tendance centrale les plus rapportées sont le mode, la médiane et la moyenne. Permettant de décrire le score le plus typique d'une distribution, elles aident à rendre compte de la représentativité d'un phénomène. |
Mesures de variationDécrivent dans quelle mesure les scores d'une distribution sont dispersés les uns des autres et autour de la tendance centrale. Les mesures de variation les plus rapportées sont l'étendue, l'intervalle interquartile, la variance, l'écart-type, le coefficient de variation et les scores-Zi. Permettant de décrire la dispersion et l'homogénéité d'une distribution, elles aident à rendre compte de la variabilité d'un phénomène. |
ModeScore le plus fréquent dans une série de données. C'est la seule mesure de tendance centrale qui convient à une variable nominale. |
Modèle de régression linéaireModèle
statistique utilisé pour expliquer une variable dépendante quantitative à l'aide d'une variable indépendante quantitative. |
MoyenneMesure la plus courante de la tendance centrale, la moyenne est le rapport entre la somme des scores et le nombre total d'individus d'une distribution. Elle correspond à la moyenne arithmétique d'une série de données. La moyenne est la seule mesure de tendance centrale qui subit l'effet des cas déviants. |
N |
---|
Niveau de confianceIl signifie le niveau de certitude, la probabilité que le vrai paramètre de la population soit compris dans l'intervalle défini par l'estimation, si l’on répétait 100 fois le sondage ou l’expérience de sélection
de l’échantillon. Le niveau de confiance est exprimé en pourcentage (95%, 99%, etc). Lorsque le niveau de confiance est de 95%, le risque d'erreur est de 5% (100-5). Le niveau de confiance est donc le contraire du risque d'erreur. |
NotionUne notion est un terme qui englobe toutes les significatives possibles d'un terme. Étant donné que le chercheur en sciences sociales précise toujours le sens qu'il confère aux termes qu'il utilise, il n'opère pas habituellement sur des notions, mais sur des concepts. |
O |
---|
OgiveDiagramme sous forme de courbe cumulative que l'on construit, à partir des fréquences cumulés ou des pourcentages cumulés (ordonnée), en prenant les limites supérieures des classes d'un histogramme (abscisse). |
P |
---|
ParamètreUn paramètre est une valeur calculée sur des données de population. Cette caractéristique est souvent inconnue et on cherche à l'estimer à l'aide d'une statistique. | |
Pente |
PolygôneDiagramme que l'on forme en joignant en leurs points milieux les intervalles de classes d'un histogramme, en fréquences ou en pourcentages, à l'aide d'une courbe. |
PopulationEnsemble d’individus, ayant une ou plusieurs caractéristiques communes, sur lesquels porte une étude. Les individus peuvent être des personnes, des groupes de personnes, des objets ou des événements. Chaque individu d'une population est appelé unité d'analyse. |
PortéeCritère d'interprétation théorique qui évalue dans quelle mesure les résultats sont applicables à d’autres contextes, populations ou sites de recherche. |
Postulat de SturgesÀ propos de la détermination du nombre de classes d'une distribution, Sturges postule que le nombre de classes est d'autant plus grand que la taille de l’échantillon est grande. La taille de l'échantillon détermine donc le nombre de classes optimales d'une série de données. |
PourcentageIl s'agit d'une fréquence standardisée à un nombre total d'individus égal à 100. Les pourcentages sont des fréquences relatives, précisément des proportions multipliées par 100. |
Pourcentage de variationDifférence entre une valeur à un temps donné (T2) et une valeur au temps de référence (T1), différence relativisée par la valeur au temps de référence (T1) et multipliée par 100. Le pourcentage ou taux de variation indique de combien en % une valeur augmente ou diminue d'un temps à l'autre (p.ex. % d'augmentation des vols, % de diminution du prix d'essence, etc.). |
ProbabilitéLa probabilité d'un phénomène ou événement est la fréquence de sa réalisation lorsqu'on répète, réalise plusieurs fois (presque à l'infini) une expérience. |
ProblématiqueElle consiste à passer de la question générale de recherche à la question spécifique de recherche. Elle réfère donc à un questionnement à propos d'un problème social que l'on tente de mettre en perspective scientifique ou sociologique (problème sociologique). |
Problème socialProblème pratique, concernant le fonctionnement d'une société, qui se pose aux citoyens et aux politiques. Par exemple, la drogue est un problème social dans la mesure où sa consommation fréquente implique l'offre de services de santé coûteux; les personnes qui s'y adonnent risquent de présenter des diagnostics de troubles mentaux et de s'exclure de la société. |
Problème sociologiqueUn problème théorique dans l'étude d'une société donnée, que se posent les scientifiques spécialisés, les sociologues, pour élucider un problème social. Par exemple, lorsqu'on cherche à aller au-delà du problème social que constitue la consommation de drogues en examinant les facteurs qui y sont associés, là on met en évidence un problème sociologique ou scientifique. |
ProportionIl s'agit du rapport entre une fréquence et le nombre total d'individus d'une distribution. Les proportions varient de 0 à 1. |
Q |
---|
QuantificationProcédure qui consiste à accorder des grandeurs à un phénomène, un aspect de la réalité sociale (de nature quantitative souvent). Par exemple, on peut quantifier l'âge des individus en termes d'années. |
QuartilesMesures de position, les quartiles divisent une distribution en quatre parties égales, de telle sorte que chaque partie occupe 25% des scores. La médiane correspond au 2e quartile (Q2). |
R |
---|
RatioUn ratio met en rapport deux mesures portant sur des ensembles plus ou moins différents. Exemple du ratio étudiants: professeurs. |
RecensementUne enquête menée auprès d'une population, et qui conduit donc à collecter des données sur tous les individus d'une population bien définie. |
Recherche qualitativeC'est un type particulier de recherche qui tente d'explorer et de comprendre en profondeur un phénomène en s’appuyant sur la manipulation de données d'observations intensives (obtenues notamment au moyen d'entrevues individuelles, de focus-groups, d'une observation participante, de monographies). |
Recherche quantitativeC'est un type particulier de recherche qui tente de décrire et d’expliquer un phénomène quantifiable en s’appuyant sur la manipulation de données d’observations numériques (obtenues notamment au moyen d'un questionnaire, d'une expérimentation). |
Régression linéaireTechnique statistique utilisée pour analyser une relation entre deux variables quantitatives (X et Y), permettant notamment de prédire un score Y connaissant un autre score de X. Cette relation est modélisée à l'aide d'une équation de régression linéaire. |
Relation d'associationRelation où la présence d'une variable dépendante est accompagnée de celle d'une variable indépendante. On peut conclure à une relation d'association dans le cadre d'une analyse bivariée. |
Relation de causalitéRelation où une variable dépendante ne peut se produire sans une variable indépendante. On ne peut conclure à une relation de causalité que lorsqu'une relation entre deux variables persiste après avoir contrôlé l'effet d'une variable tierce (variable-contrôle). Cela suppose de procéder à l'analyse multivariée. |
Relation fallacieuseRelation d'association entre deux variables qui n'est établie que sous l'influence d'une variable tierce appelée variable antécédente. Il y a donc relation fallacieuse lorsqu'une variable antécédente explique une relation entre une variable indépendante et une variable dépendante. Par exemple, la relation entre le nombre de cigognes et le taux de fécondité est une relation fallacieuse, le type de district expliquant la relation. Les districts ruraux accueillent plus de cigognes et présentent un taux de fécondité élevé. |
Relation négative |
Relation positiveIl y a relation positive lorsque deux variables sont reliées dans le même sens: à mesure qu'une variable augmente l'autre augmente proportionnellement. Les scores les plus élevés d'une variable sont associés aux scores les plus élevés de l'autre variable. On peut aussi parler de relation directe. |
RésiduVoir Erreur de prédiction. |
Risque d'erreurRisque que le vrai paramètre de la population ne soit pas compris dans l'intervalle défini par l'estimation, si l’on répétait 100 fois le sondage ou l’expérience de sélection de l’échantillon. Le risque d'erreur est habituellement exprimé en pourcentage (5%, 1%, etc). Lorsque le risque d'erreur est de 5%, le niveau de confiance est alors de 95% (100-95). Le risque d'erreur est donc le contraire du niveau de confiance. |
RobustesseCaractéristique d'un test d'hypothèse qui s'applique, dans certaines situations, malgré qu'une condition d'application ne soit pas respectée. Par exemple, lorsque la taille de l'échantillon est suffisamment grande (n≥50), le test t est robuste malgré que la variable dépendante ne suive pas une distribution normale. |
S |
---|
Scores aberrantsCe sont les scores qui s'écartent de l'ensemble des scores d'une distribution. Les scores aberrants relèvent des cas déviants. Ils sont caractéristiques d'une distribution asymétrique. |
Scores déviationUn score déviation est la différence entre chacun des scores-Xi et la moyenne d'une distribution. Les scores déviation indiquent dans quelle mesure les scores individuels dévient, s'écartent de la moyenne, mesurant ainsi sommairement la variation d'une distribution. Toutefois, la somme des scores déviation d'une distribution est toujours nulle, les différences positives et négatives une fois additionnées s'annulant. |
Scores-XiUn score-Xi correspond, pour un individu i donné, à une observation ou donnée concernant une valeur d'une variable. Valeurs réellement mesurées dans les faits, les scores-Xi sont donc les observations individuelles d'une distribution. |
Scores-ZiUn score-Z, pour un individu i donné, est la différence entre un score-Xi et la moyenne d'une distribution, différence relativisée par l'écart-type. Les scores-Zi sont des scores-Xi standardisés. Ils s'étendent en général de -3 à 3, de telle sorte que pour une distribution donnée leur moyenne est égale à 0, leur écart-type 1. |
Seuil de significationRisque d'erreur maximal dans le cas d'un test d'hypothèse. Le seuil de signification s'exprime sous une forme de proportion. Ainsi un seuil de signification 0,05 équivaut à un risque d'erreur de 5%, 0,01 équivaut à 1%, etc. Or, un risque d'erreur de 5% réfère à un niveau de confiance de 95%. Le seuil de signification équivaut au risque d'erreur, qui à son tour est le contraire du niveau de confiance. |
Signification réelleUne relation est réellement significative si elle existe substantiellement dans les faits : aussi on parle de signification sociologique, médicale, psychologique, etc. La signification réelle peut être d'intensité forte, modérée ou faible. Elle est donnée par les mesures d'association, tel le V de Cramer. |
Signification statistiqueUne relation est statistiquement significative si elle est suffisamment importante pour être généralisée avec une certaine confiance à la population dont est issu l'échantillon analysé. La signification statistique peut être au seuil de signification 0,05 (95% de confiance), 0,01 (99% de confiance), etc. Elle est donnée par les tests d'hypothèses, tel le chi-carré. |
Somme des carrésLorsqu'on élève au carré les scores déviation d'une distribution et qu'on calcule la somme, on obtient la somme des scores déviation au carré, ou simplement la somme des carrés. La somme des carrés donnent une indication sur la totalité de la variation dans une distribution. |
SondageUne enquête menée auprès d'individus constituant un échantillon. |
SPSSSignifie "Statistical Package for the Social Sciences". C'est l'un des logiciels d'analyse statistique les plus fréquemment utilisés en sciences sociales. |
StatistiqueValeur calculée sur des données d'échantillon. Une statistique peut-être vue comme l'estimé d'un paramètre d'une population. Aussi, elle est un nombre aléatoire, c'est-à-dire un nombre soumis au hasard de l'échantillonnage. |
Statistique, laBranche des mathématiques dont l'objet est le traitement méthodique de données numériques d'observation se
rapportant aux phénomènes naturels ou humains. On parle ainsi de la statistique mathématique. |
Statistiques descriptives
Méthode statistique dont l'objet est de décrire les données, d'un échantillon en particulier, de façon à les rendre plus intelligibles, communicables et utiles. Les statistiques descriptives consistent à résumer et convertir les données numériques en informations (principe de réduction). Les plus rapportées sont les distributions de fréquences, les mesures de tendance centrale et les mesures de variation.
|
Statistiques inférentielles
Méthode statistique dont l'objet est d'inférer les valeurs d'une population à partir des valeurs obtenues de l'échantillon. Les statistiques inférentielles consistent à généraliser les informations obtenues d'un échantillon à la population dont cet échantillon est issu. On distingue habituellement deux volets: estimation d'un paramètre et test d'hypothèse.
|
Statistiques, les
Ensemble de méthodes, techniques et procédures utilisées pour calculer des résumés numériques (statistiques descriptives) et en dégager des considérations générales (statistiques inférentielles).
|
SymétrieMesure de la forme de la dispersion d'une distribution, elle se lit horizontalement. Lorsque le coefficient de symétrie est positif, on a une distribution asymétrique positive; lorsqu'il est négatif, une distribution asymétrique négative; lorsqu'il est nul, une distribution symétrique. |
T |
---|
T critiqueValeur se trouvant dans la table de la distribution d'échantillonnage du t de Student. Le t critique est la valeur minimale nécessaire au rejet de l'hypothèse nulle d'une absence de différence entre deux moyennes de groupes. Précisément, dans le cas d'une absence de différence (sous l'hypothèse nulle), si l'on devait répéter l'expérience de sélection de l'échantillon 100 fois, 95% des échantillons auraient des t compris entre 0 et la valeur critique au seuil de signification 0,05; 99% des échantillons auraient des t compris entre 0 et la valeur critique au seuil de signification 0,01, etc. La valeur critique est une sorte de constante qui dépend de deux paramètres: le seuil de signification et le nombre de degrés de libertés. |
TauxUne forme de proportion exprimée par rapport à un nombre constant : 100 (taux de chômage par rapport à 100 travailleurs potentiels),
1000 (taux de natalité par rapport à 1000 habitants), 100000 (taux de suicide par rapport à 100000 habitants), etc. |
Test bilatéralDans le cas du test t, c'est un test utilisé lorsque qu’on s’intéresse seulement à la différence entre deux moyennes de moyennes, sans se préoccuper de savoir laquelle des deux est plus grande ou petite que l'autre. On l'appelle aussi test bidirectionnel. Un test bilatéral considère les deux côtés de la distribution d’échantillonnage. Il est plus exigeant en termes de rejet de l'hypothèse nulle et demeure donc plus souvent utilisé que le test unilatéral. |
Test d'hypothèseLe test d’hypothèse consiste à formuler une hypothèse de recherche concernant une population et à chercher de valider, tester ce paramètre
supposé de la population à l'aide d'une statistique
de l'échantillon. |
Test tTest d'hypothèse utilisé lorsqu'on veut analyser une relation entre une variable indépendante qualitative dichotomique et une variable dépendante quantitative. L'enjeu est de savoir si une différence entre deux moyennes est statistiquement significative ou non dans la population dont est issu l'échantillon étudié. |
Test unilatéralDans le cas du test t, c'est un test utilisé lorsque que la direction de la différence entre deux moyennes de moyennes est prédite. On se préoccupe de savoir laquelle des deux moyennes est plus grande (test unilatéral supérieur) ou plus petite (test unilatéral inférieur). Le test unilatéral est aussi appelé test unidirectionnel puisqu'il considère un seul côté de la distribution d’échantillonnage. Contrairement au test bilatéral, le test unilatéral est moins exigeant en termes de rejet de l'hypothèse nulle et demeure donc moins souvent utilisé. |
Théorème central limiteIl postule que la distribution d’échantillonnage, issue
d’échantillons aléatoires de grande taille, 1) suit un modèle normal prédictible, 2) que sa moyenne s'apparente au paramètre de la population, 3) et que son écart-type est égal à l'écart-type de la population relativisé par la taille de l'échantillon. |
U |
---|
Unité d'analyseL’unité
d’analyse est la personne, l’objet ou l'évènement faisant partie d'une population que le chercheur étudie. |
V |
---|
V de CramerMesure d'association utilisée pour analyser une relation entre deux variables catégorielles dont au moins est l'une est nominale ou considérée comme telle. Le V de Cramer est une des mesures d'association les plus utilisées à la suite d'un test du chi-carré. Le V de Cramer varie de 0 à 1. Selon la règle d'interprétation de Fox (1999), lorsque le V de Cramer se situe entre 0 et 0,10, la relation est nulle; entre 0,10 et 0,20, la relation est faible; entre 0,20 et 0,30, la relation est modérée; 0,30 et plus, la relation est forte. |
Validité externeCritère d'interprétation théorique qui évalue si les résultats d'un échantillon peuvent être généralisés à la population de laquelle est tiré cet échantillon. |
Validité interneCritère d'interprétation théorique qui évalue si l'on peut avoir suffisamment confiance aux données de l'échantillon pour que les résultats qui en résultent soient crédibles. |
Variable
Caractéristique qui varie en fonction des individus et qui prend au moins deux valeurs (p.ex. sexe, âge). Une variable permet de mesurer un phénomène, de rendre opératoire un concept. On distingue deux types de variable selon leur nature: variable qualitative et variable quantitative.
|
Variable antécédenteUne variable antécédente est une variable-contrôle qui intervient avant la variable indépendante et la variable dépendante dans la chaîne causale d'une relation. Elle explique pourquoi deux variables sont reliées de façon fallacieuse (relation fallacieuse). |
Variable continueUne variable quantitative est continue lorsqu'elle comporte un nombre presque illimité de valeurs métriques sur la droite des nombres réels. Ses valeurs comportent donc des décimales (p.ex. âge: 25 ans 2 mois 2 semaines...). |
Variable d'intervalles |
Variable de ratio |
Variable dépendante | |
Variable dichotomiqueC'est une variable qualitative qui détient exactement 2 valeurs catégorielles. |
Variable discrèteUne variable quantitative est discrète lorsqu'elle prend un nombre limité de valeurs métriques sur la droite des nombres réels. Ses valeurs procèdent d'un dénombrement et correspondent donc à des nombres séparés sans décimales (p.ex nombre d'enfants dans une famille: 0; 1; 2, etc.) |
Variable indépendanteLa variable indépendante est le facteur explicatif d'une autre variable qui se trouve être la variable dépendante. Hypothétiquement, elle influence la variable dépendante. | |
Variable nominale |
Variable ordinale |
Variable qualitative |
Variable quantitative |
Variable-contrôleVariable que l'on contrôle ou dont on tient compte dans une relation entre une variable indépendante et une variable dépendante. L'introduction d'une variable-contrôle dans une relation bivariée permet de conclure ou non à une relation de causalité. |
VarianceExprimée au carré, la variance mesure la variation ou la dispersion des scores par rapport à la moyenne d'un ensemble de données. C'est la moyenne de la somme des carrés des scores déviation. Mesure de variation la moins appropriée en statistiques descriptives, la variance s'avère toutefois très utile en statistiques inférentielles. |
Variation d'échantillonnage |