MIASS 231.1. Mathématiques sociales 3 (2024)
GLOSSAIRE
Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)
Spécial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | Tout
I |
---|
Intervalle interquartileIl mesure la différence entre les quartiles supérieur et inférieur (Q3-Q1) d'une distribution. Ces deux quartiles définissent un intervalle à l'intérieur duquel s'étend 50 % des scores autour de la médiane. C'est la seule mesure de variation qui ne subit pas l'effet des cas déviants ou scores aberrants. |
K |
---|
KurtoseMesure de la forme de la dispersion d'une distribution, elle évalue précisément le degré d'applatissement et se lit donc verticalement. Lorsque le coefficient de kurtose est positif, on a une distribution leptokurtique; lorsqu'il est négatif, on a une distribution platykurtique; lorsqu'il est nul, on a une distribution mésokurtique. |
L |
---|
Loi des grands nombresElle postule que les caractéristiques de l’échantillon aléatoire
se rapprochent d’autant plus de celles de la population que la taille de
l’échantillon augmente. Plus la taille de l'échantillon est grande (n=30 minimum), meilleure est donc l'inférence statistique. |
M |
---|
Marge d'erreur
Elle mesure, avec une certaine certitude, l'écart entre une statistique de l'échantillon et le paramètre recherché de la population, soit l'erreur (aléatoire) d'échantillonnage d'une estimation. La marge d'erreur se calcule en multipliant l'erreur-type par le score-z associé à un niveau de confiance donné. On l'utilise pour établir l'intervalle de confiance de cette estimation.
|
Matrice de corrélationTableau
qui présente les coefficients de corrélation entre trois variables ou plus
prises deux à deux. Lorsque l'on mesure les corrélations bivariées dans un ensemble matriciel constitué de plusieurs variables, il est important de gérer les données manquantes. Il existe deux modalités d'exclusion des données manquantes: exclusion en paires et exclusion en liste. |
MédianeLorsque les scores sont ordonnés du plus petit au plus grand ou vice-versa, la médiane est le score correspondant au point-milieu d'une série de données. Elle divise une distribution en deux parties égales: 50% de part et d'autre du point-milieu. |
Mesures d'associationElles permettent d'évaluer l'intensité ou la signification réelle d'une relation. L'exemple est donné du V de Cramer, lequel est utilisé dans l'analyse d'une relation entre deux variables catégorielles dont au moins l'une est nominale ou considérée comme telle. |
Mesures de tendance centraleDécrivent l'emplacement où se trouve le centre ou milieu d'une distribution. Les mesures de tendance centrale les plus rapportées sont le mode, la médiane et la moyenne. Permettant de décrire le score le plus typique d'une distribution, elles aident à rendre compte de la représentativité d'un phénomène. |
Mesures de variationDécrivent dans quelle mesure les scores d'une distribution sont dispersés les uns des autres et autour de la tendance centrale. Les mesures de variation les plus rapportées sont l'étendue, l'intervalle interquartile, la variance, l'écart-type, le coefficient de variation et les scores-Zi. Permettant de décrire la dispersion et l'homogénéité d'une distribution, elles aident à rendre compte de la variabilité d'un phénomène. |
ModeScore le plus fréquent dans une série de données. C'est la seule mesure de tendance centrale qui convient à une variable nominale. |
Modèle de régression linéaireModèle
statistique utilisé pour expliquer une variable dépendante quantitative à l'aide d'une variable indépendante quantitative. |
MoyenneMesure la plus courante de la tendance centrale, la moyenne est le rapport entre la somme des scores et le nombre total d'individus d'une distribution. Elle correspond à la moyenne arithmétique d'une série de données. La moyenne est la seule mesure de tendance centrale qui subit l'effet des cas déviants. |
N |
---|
Niveau de confianceIl signifie le niveau de certitude, la probabilité que le vrai paramètre de la population soit compris dans l'intervalle défini par l'estimation, si l’on répétait 100 fois le sondage ou l’expérience de sélection
de l’échantillon. Le niveau de confiance est exprimé en pourcentage (95%, 99%, etc). Lorsque le niveau de confiance est de 95%, le risque d'erreur est de 5% (100-5). Le niveau de confiance est donc le contraire du risque d'erreur. |
NotionUne notion est un terme qui englobe toutes les significatives possibles d'un terme. Étant donné que le chercheur en sciences sociales précise toujours le sens qu'il confère aux termes qu'il utilise, il n'opère pas habituellement sur des notions, mais sur des concepts. |
O |
---|
OgiveDiagramme sous forme de courbe cumulative que l'on construit, à partir des fréquences cumulés ou des pourcentages cumulés (ordonnée), en prenant les limites supérieures des classes d'un histogramme (abscisse). |
P |
---|
ParamètreUn paramètre est une valeur calculée sur des données de population. Cette caractéristique est souvent inconnue et on cherche à l'estimer à l'aide d'une statistique. | |
Pente |
PolygôneDiagramme que l'on forme en joignant en leurs points milieux les intervalles de classes d'un histogramme, en fréquences ou en pourcentages, à l'aide d'une courbe. |
PopulationEnsemble d’individus, ayant une ou plusieurs caractéristiques communes, sur lesquels porte une étude. Les individus peuvent être des personnes, des groupes de personnes, des objets ou des événements. Chaque individu d'une population est appelé unité d'analyse. |
PortéeCritère d'interprétation théorique qui évalue dans quelle mesure les résultats sont applicables à d’autres contextes, populations ou sites de recherche. |
Postulat de SturgesÀ propos de la détermination du nombre de classes d'une distribution, Sturges postule que le nombre de classes est d'autant plus grand que la taille de l’échantillon est grande. La taille de l'échantillon détermine donc le nombre de classes optimales d'une série de données. |
PourcentageIl s'agit d'une fréquence standardisée à un nombre total d'individus égal à 100. Les pourcentages sont des fréquences relatives, précisément des proportions multipliées par 100. |
Pourcentage de variationDifférence entre une valeur à un temps donné (T2) et une valeur au temps de référence (T1), différence relativisée par la valeur au temps de référence (T1) et multipliée par 100. Le pourcentage ou taux de variation indique de combien en % une valeur augmente ou diminue d'un temps à l'autre (p.ex. % d'augmentation des vols, % de diminution du prix d'essence, etc.). |
ProbabilitéLa probabilité d'un phénomène ou événement est la fréquence de sa réalisation lorsqu'on répète, réalise plusieurs fois (presque à l'infini) une expérience. |
ProblématiqueElle consiste à passer de la question générale de recherche à la question spécifique de recherche. Elle réfère donc à un questionnement à propos d'un problème social que l'on tente de mettre en perspective scientifique ou sociologique (problème sociologique). |
Problème socialProblème pratique, concernant le fonctionnement d'une société, qui se pose aux citoyens et aux politiques. Par exemple, la drogue est un problème social dans la mesure où sa consommation fréquente implique l'offre de services de santé coûteux; les personnes qui s'y adonnent risquent de présenter des diagnostics de troubles mentaux et de s'exclure de la société. |
Problème sociologiqueUn problème théorique dans l'étude d'une société donnée, que se posent les scientifiques spécialisés, les sociologues, pour élucider un problème social. Par exemple, lorsqu'on cherche à aller au-delà du problème social que constitue la consommation de drogues en examinant les facteurs qui y sont associés, là on met en évidence un problème sociologique ou scientifique. |
ProportionIl s'agit du rapport entre une fréquence et le nombre total d'individus d'une distribution. Les proportions varient de 0 à 1. |
Q |
---|
QuantificationProcédure qui consiste à accorder des grandeurs à un phénomène, un aspect de la réalité sociale (de nature quantitative souvent). Par exemple, on peut quantifier l'âge des individus en termes d'années. |
QuartilesMesures de position, les quartiles divisent une distribution en quatre parties égales, de telle sorte que chaque partie occupe 25% des scores. La médiane correspond au 2e quartile (Q2). |
R |
---|
RatioUn ratio met en rapport deux mesures portant sur des ensembles plus ou moins différents. Exemple du ratio étudiants: professeurs. |
RecensementUne enquête menée auprès d'une population, et qui conduit donc à collecter des données sur tous les individus d'une population bien définie. |
Recherche qualitativeC'est un type particulier de recherche qui tente d'explorer et de comprendre en profondeur un phénomène en s’appuyant sur la manipulation de données d'observations intensives (obtenues notamment au moyen d'entrevues individuelles, de focus-groups, d'une observation participante, de monographies). |
Recherche quantitativeC'est un type particulier de recherche qui tente de décrire et d’expliquer un phénomène quantifiable en s’appuyant sur la manipulation de données d’observations numériques (obtenues notamment au moyen d'un questionnaire, d'une expérimentation). |
Régression linéaireTechnique statistique utilisée pour analyser une relation entre deux variables quantitatives (X et Y), permettant notamment de prédire un score Y connaissant un autre score de X. Cette relation est modélisée à l'aide d'une équation de régression linéaire. |
Relation d'associationRelation où la présence d'une variable dépendante est accompagnée de celle d'une variable indépendante. On peut conclure à une relation d'association dans le cadre d'une analyse bivariée. |
Relation de causalitéRelation où une variable dépendante ne peut se produire sans une variable indépendante. On ne peut conclure à une relation de causalité que lorsqu'une relation entre deux variables persiste après avoir contrôlé l'effet d'une variable tierce (variable-contrôle). Cela suppose de procéder à l'analyse multivariée. |
Relation fallacieuseRelation d'association entre deux variables qui n'est établie que sous l'influence d'une variable tierce appelée variable antécédente. Il y a donc relation fallacieuse lorsqu'une variable antécédente explique une relation entre une variable indépendante et une variable dépendante. Par exemple, la relation entre le nombre de cigognes et le taux de fécondité est une relation fallacieuse, le type de district expliquant la relation. Les districts ruraux accueillent plus de cigognes et présentent un taux de fécondité élevé. |
Relation négative |
Relation positiveIl y a relation positive lorsque deux variables sont reliées dans le même sens: à mesure qu'une variable augmente l'autre augmente proportionnellement. Les scores les plus élevés d'une variable sont associés aux scores les plus élevés de l'autre variable. On peut aussi parler de relation directe. |
RésiduVoir Erreur de prédiction. |
Risque d'erreurRisque que le vrai paramètre de la population ne soit pas compris dans l'intervalle défini par l'estimation, si l’on répétait 100 fois le sondage ou l’expérience de sélection de l’échantillon. Le risque d'erreur est habituellement exprimé en pourcentage (5%, 1%, etc). Lorsque le risque d'erreur est de 5%, le niveau de confiance est alors de 95% (100-95). Le risque d'erreur est donc le contraire du niveau de confiance. |
RobustesseCaractéristique d'un test d'hypothèse qui s'applique, dans certaines situations, malgré qu'une condition d'application ne soit pas respectée. Par exemple, lorsque la taille de l'échantillon est suffisamment grande (n≥50), le test t est robuste malgré que la variable dépendante ne suive pas une distribution normale. |
S |
---|
Scores aberrantsCe sont les scores qui s'écartent de l'ensemble des scores d'une distribution. Les scores aberrants relèvent des cas déviants. Ils sont caractéristiques d'une distribution asymétrique. |
Scores déviationUn score déviation est la différence entre chacun des scores-Xi et la moyenne d'une distribution. Les scores déviation indiquent dans quelle mesure les scores individuels dévient, s'écartent de la moyenne, mesurant ainsi sommairement la variation d'une distribution. Toutefois, la somme des scores déviation d'une distribution est toujours nulle, les différences positives et négatives une fois additionnées s'annulant. |
Scores-XiUn score-Xi correspond, pour un individu i donné, à une observation ou donnée concernant une valeur d'une variable. Valeurs réellement mesurées dans les faits, les scores-Xi sont donc les observations individuelles d'une distribution. |
Scores-ZiUn score-Z, pour un individu i donné, est la différence entre un score-Xi et la moyenne d'une distribution, différence relativisée par l'écart-type. Les scores-Zi sont des scores-Xi standardisés. Ils s'étendent en général de -3 à 3, de telle sorte que pour une distribution donnée leur moyenne est égale à 0, leur écart-type 1. |
Seuil de significationRisque d'erreur maximal dans le cas d'un test d'hypothèse. Le seuil de signification s'exprime sous une forme de proportion. Ainsi un seuil de signification 0,05 équivaut à un risque d'erreur de 5%, 0,01 équivaut à 1%, etc. Or, un risque d'erreur de 5% réfère à un niveau de confiance de 95%. Le seuil de signification équivaut au risque d'erreur, qui à son tour est le contraire du niveau de confiance. |
Signification réelleUne relation est réellement significative si elle existe substantiellement dans les faits : aussi on parle de signification sociologique, médicale, psychologique, etc. La signification réelle peut être d'intensité forte, modérée ou faible. Elle est donnée par les mesures d'association, tel le V de Cramer. |
Signification statistiqueUne relation est statistiquement significative si elle est suffisamment importante pour être généralisée avec une certaine confiance à la population dont est issu l'échantillon analysé. La signification statistique peut être au seuil de signification 0,05 (95% de confiance), 0,01 (99% de confiance), etc. Elle est donnée par les tests d'hypothèses, tel le chi-carré. |