GLOSSAIRE

Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)

Consultez le glossaire à l'aide de cet index

Spécial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | Tout

Page: (Précédent) 1 2 3 4 (Suivant)
Tout

I

Intervalle interquartile

Il mesure la différence entre les quartiles supérieur et inférieur (Q3-Q1) d'une distribution. Ces deux quartiles définissent un intervalle à l'intérieur duquel s'étend 50 % des scores autour de la médiane. C'est la seule mesure de variation qui ne subit pas l'effet des cas déviants ou scores aberrants.

K

Kurtose

Mesure de la forme de la dispersion d'une distribution, elle évalue précisément le degré d'applatissement et se lit donc verticalement. Lorsque le coefficient de kurtose est positif, on a une distribution leptokurtique; lorsqu'il est négatif, on a une distribution platykurtique; lorsqu'il est nul, on a une distribution mésokurtique.

L

Loi des grands nombres

Elle postule que les caractéristiques de l’échantillon aléatoire se rapprochent d’autant plus de celles de la population que la taille de l’échantillon augmente. Plus la taille de l'échantillon est grande (n=30 minimum), meilleure est donc l'inférence statistique.

M

Marge d'erreur

Elle mesure, avec une certaine certitude, l'écart entre une statistique de l'échantillon et le paramètre recherché de la population, soit l'erreur (aléatoire) d'échantillonnage d'une estimation. La marge d'erreur se calcule en multipliant l'erreur-type par le score-z associé à un niveau de confiance donné. On l'utilise pour établir l'intervalle de confiance de cette estimation.

Matrice de corrélation

Tableau qui présente les coefficients de corrélation entre trois variables ou plus prises deux à deux. Lorsque l'on mesure les corrélations bivariées dans un ensemble matriciel constitué de plusieurs variables, il est important de gérer les données manquantes. Il existe deux modalités d'exclusion des données manquantes: exclusion en paires et exclusion en liste.

Médiane

Lorsque les scores sont ordonnés du plus petit au plus grand ou vice-versa, la médiane est le score correspondant au point-milieu d'une série de données. Elle divise une distribution en deux parties égales: 50% de part et d'autre du point-milieu.

Mesures d'association

Elles permettent d'évaluer l'intensité ou la signification réelle d'une relation. L'exemple est donné du V de Cramer, lequel est utilisé dans l'analyse d'une relation entre deux variables catégorielles dont au moins l'une est nominale ou considérée comme telle.

Mesures de tendance centrale

Décrivent l'emplacement où se trouve le centre ou milieu d'une distribution. Les mesures de tendance centrale les plus rapportées sont le mode, la médiane et la moyenne. Permettant de décrire le score le plus typique d'une distribution, elles aident à rendre compte de la représentativité d'un phénomène.

Mesures de variation

Décrivent dans quelle mesure les scores d'une distribution sont dispersés les uns des autres et autour de la tendance centrale. Les mesures de variation les plus rapportées sont l'étendue, l'intervalle interquartile, la variance, l'écart-type, le coefficient de variation et les scores-Zi. Permettant de décrire la dispersion et l'homogénéité d'une distribution, elles aident à rendre compte de la variabilité d'un phénomène.

Mode

Score le plus fréquent dans une série de données. C'est la seule mesure de tendance centrale qui convient à une variable nominale.

Modèle de régression linéaire

Modèle statistique utilisé pour expliquer une variable dépendante quantitative à l'aide d'une variable indépendante quantitative.

Moyenne

Mesure la plus courante de la tendance centrale, la moyenne est le rapport entre la somme des scores et le nombre total d'individus d'une distribution. Elle correspond à la moyenne arithmétique d'une série de données. La moyenne est la seule mesure de tendance centrale qui subit l'effet des cas déviants.

N

Niveau de confiance

Il signifie le niveau de certitude, la probabilité que le vrai paramètre de la population soit compris dans l'intervalle défini par l'estimation, si l’on répétait 100 fois le sondage ou l’expérience de sélection de l’échantillon. Le niveau de confiance est exprimé en pourcentage (95%, 99%, etc). Lorsque le niveau de confiance est de 95%, le risque d'erreur est de 5% (100-5). Le niveau de confiance est donc le contraire du risque d'erreur.

Notion

Une notion est un terme qui englobe toutes les significatives possibles d'un terme. Étant donné que le chercheur en sciences sociales précise toujours le sens qu'il confère aux termes qu'il utilise, il n'opère pas habituellement sur des notions, mais sur des concepts.

O

Ogive

Diagramme sous forme de courbe cumulative que l'on construit, à partir des fréquences cumulés ou des pourcentages cumulés (ordonnée), en prenant les limites supérieures des classes d'un histogramme (abscisse).

P

Paramètre

Un paramètre est une valeur calculée sur des données de population. Cette caractéristique est souvent inconnue et on cherche à l'estimer à l'aide d'une statistique.

Termes associés:

Pente

Voir Coefficient de régression linéaire.

Polygône

Diagramme que l'on forme en joignant en leurs points milieux les intervalles de classes d'un histogramme, en fréquences ou en pourcentages, à l'aide d'une courbe.

Population

Ensemble d’individus, ayant une ou plusieurs caractéristiques communes, sur lesquels porte une étude. Les individus peuvent être des personnes, des groupes de personnes, des objets ou des événements. Chaque individu d'une population est appelé unité d'analyse.

Portée

Critère d'interprétation théorique qui évalue dans quelle mesure les résultats sont applicables à d’autres contextes, populations ou sites de recherche.

Postulat de Sturges

À propos de la détermination du nombre de classes d'une distribution, Sturges postule que le nombre de classes est d'autant plus grand que la taille de l’échantillon est grande. La taille de l'échantillon détermine donc le nombre de classes optimales d'une série de données.

Pourcentage

Il s'agit d'une fréquence standardisée à un nombre total d'individus égal à 100. Les pourcentages sont des fréquences relatives, précisément des proportions multipliées par 100.

Pourcentage de variation

Différence entre une valeur à un temps donné (T2) et une valeur au temps de référence (T1), différence relativisée par la valeur au temps de référence (T1) et multipliée par 100. Le pourcentage ou taux de variation indique de combien en % une valeur augmente ou diminue d'un temps à l'autre (p.ex. % d'augmentation des vols, % de diminution du prix d'essence, etc.).

Probabilité

La probabilité d'un phénomène ou événement est la fréquence de sa réalisation lorsqu'on répète, réalise plusieurs fois (presque à l'infini) une expérience.

Problématique

Elle consiste à passer de la question générale de recherche à la question spécifique de recherche. Elle réfère donc à un questionnement à propos d'un problème social que l'on tente de mettre en perspective scientifique ou sociologique (problème sociologique).

Problème social

Problème pratique, concernant le fonctionnement d'une société, qui se pose aux citoyens et aux politiques. Par exemple, la drogue est un problème social dans la mesure où sa consommation fréquente implique l'offre de services de santé coûteux; les personnes qui s'y adonnent risquent de présenter des diagnostics de troubles mentaux et de s'exclure de la société.

Problème sociologique

Un problème théorique dans l'étude d'une société donnée, que se posent les scientifiques spécialisés, les sociologues, pour élucider un problème social. Par exemple, lorsqu'on cherche à aller au-delà du problème social que constitue la consommation de drogues en examinant les facteurs qui y sont associés, là on met en évidence un problème sociologique ou scientifique.

Proportion

Il s'agit du rapport entre une fréquence et le nombre total d'individus d'une distribution. Les proportions varient de 0 à 1.

Q

Quantification

Procédure qui consiste à accorder des grandeurs à un phénomène, un aspect de la réalité sociale (de nature quantitative souvent). Par exemple, on peut quantifier l'âge des individus en termes d'années.

Quartiles

Mesures de position, les quartiles divisent une distribution en quatre parties égales, de telle sorte que chaque partie occupe 25% des scores. La médiane correspond au 2e quartile (Q2).

R

Ratio

Un ratio met en rapport deux mesures portant sur des ensembles plus ou moins différents. Exemple du ratio étudiants: professeurs.

Recensement

Une enquête menée auprès d'une population, et qui conduit donc à collecter des données sur tous les individus d'une population bien définie.

Recherche qualitative

C'est un type particulier de recherche qui tente d'explorer et de comprendre en profondeur un phénomène en s’appuyant sur la manipulation de données d'observations intensives (obtenues notamment au moyen d'entrevues individuelles, de focus-groups, d'une observation participante, de monographies).

Recherche quantitative

C'est un type particulier de recherche qui tente de décrire et d’expliquer un phénomène quantifiable en s’appuyant sur la manipulation de données d’observations numériques (obtenues notamment au moyen d'un questionnaire, d'une expérimentation).

Régression linéaire

Technique statistique utilisée pour analyser une relation entre deux variables quantitatives (X et Y), permettant notamment de prédire un score Y connaissant un autre score de X. Cette relation est modélisée à l'aide d'une équation de régression linéaire.

Relation d'association

Relation où la présence d'une variable dépendante est accompagnée de celle d'une variable indépendante. On peut conclure à une relation d'association dans le cadre d'une analyse bivariée.

Relation de causalité

Relation où une variable dépendante ne peut se produire sans une variable indépendante. On ne peut conclure à une relation de causalité que lorsqu'une relation entre deux variables persiste après avoir contrôlé l'effet d'une variable tierce (variable-contrôle). Cela suppose de procéder à l'analyse multivariée.

Relation fallacieuse

Relation d'association entre deux variables qui n'est établie que sous l'influence d'une variable tierce appelée variable antécédente. Il y a donc relation fallacieuse lorsqu'une variable antécédente explique une relation entre une variable indépendante et une variable dépendante. Par exemple, la relation entre le nombre de cigognes et le taux de fécondité est une relation fallacieuse, le type de district expliquant la relation. Les districts ruraux accueillent plus de cigognes et présentent un taux de fécondité élevé.

Relation négative

Il y a relation négative lorsque deux variables sont reliées dans le sens contraire: à mesure qu'une variable augmente, l'autre diminue. Les scores les plus élevés d'une variable sont associés aux scores les plus faibles de l'autre variable. On peut aussi parler de relation inverse.

Relation positive

Il y a relation positive lorsque deux variables sont reliées dans le même sens: à mesure qu'une variable augmente l'autre augmente proportionnellement. Les scores les plus élevés d'une variable sont associés aux scores les plus élevés de l'autre variable. On peut aussi parler de relation directe.

Résidu

Voir Erreur de prédiction.

Risque d'erreur

Risque que le vrai paramètre de la population ne soit pas compris dans l'intervalle défini par l'estimation, si l’on répétait 100 fois le sondage ou l’expérience de sélection de l’échantillon. Le risque d'erreur est habituellement exprimé en pourcentage (5%, 1%, etc). Lorsque le risque d'erreur est de 5%, le niveau de confiance est alors de 95% (100-95). Le risque d'erreur est donc le contraire du niveau de confiance.

Robustesse

Caractéristique d'un test d'hypothèse qui s'applique, dans certaines situations, malgré qu'une condition d'application ne soit pas respectée. Par exemple, lorsque la taille de l'échantillon est suffisamment grande (n≥50), le test t est robuste malgré que la variable dépendante ne suive pas une distribution normale.

S

Scores aberrants

Ce sont les scores qui s'écartent de l'ensemble des scores d'une distribution. Les scores aberrants relèvent des cas déviants. Ils sont caractéristiques d'une distribution asymétrique.

Scores déviation

Un score déviation est la différence entre chacun des scores-Xi et la moyenne d'une distribution. Les scores déviation indiquent dans quelle mesure les scores individuels dévient, s'écartent de la moyenne, mesurant ainsi sommairement la variation d'une distribution. Toutefois, la somme des scores déviation d'une distribution est toujours nulle, les différences positives et négatives une fois additionnées s'annulant.

Scores-Xi

Un score-Xi correspond, pour un individu i donné, à une observation ou donnée concernant une valeur d'une variable. Valeurs réellement mesurées dans les faits, les scores-Xi sont donc les observations individuelles d'une distribution.

Scores-Zi

Un score-Z, pour un individu i donné, est la différence entre un score-Xi et la moyenne d'une distribution, différence relativisée par l'écart-type. Les scores-Zi sont des scores-Xi standardisés. Ils s'étendent en général de -3 à 3, de telle sorte que pour une distribution donnée leur moyenne est égale à 0, leur écart-type 1.

Seuil de signification

Risque d'erreur maximal dans le cas d'un test d'hypothèse. Le seuil de signification s'exprime sous une forme de proportion. Ainsi un seuil de signification 0,05 équivaut à un risque d'erreur de 5%, 0,01 équivaut à 1%, etc. Or, un risque d'erreur de 5% réfère à un niveau de confiance de 95%. Le seuil de signification équivaut au risque d'erreur, qui à son tour est le contraire du niveau de confiance.

Signification réelle

Une relation est réellement significative si elle existe substantiellement dans les faits : aussi on parle de signification sociologique, médicale, psychologique, etc. La signification réelle peut être d'intensité forte, modérée ou faible. Elle est donnée par les mesures d'association, tel le V de Cramer.

Signification statistique

Une relation est statistiquement significative si elle est suffisamment importante pour être généralisée avec une certaine confiance à la population dont est issu l'échantillon analysé. La signification statistique peut être au seuil de signification 0,05 (95% de confiance), 0,01 (99% de confiance), etc. Elle est donnée par les tests d'hypothèses, tel le chi-carré.