GLOSSAIRE

Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)



Consultez le glossaire à l'aide de cet index

Spécial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | Tout

Page: (Précédent)   1  2  3  4  (Suivant)
  Tout

D

Droite de régression

Courbe linéaire la plus moyenne possible passant au plus près du nuage de points d'un diagramme de dispersion. Plus elle est oblique, i.e. sa pente abrupte, plus la corrélation linéaire est forte. La droite de régression est aussi appelée droite des moindres carrés. Elle comporte deux paramètres clés, la constante et la pente, et s'exprime mathématiquement sous forme d'une équation de régression linéaire.

É

Écart-type

Racine carrée de la variance, l'écart-type mesure la variation ou la dispersion des scores par rapport à la moyenne d'une distribution donnée. C'est l'écart typique de l'échelle des scores. Il s'interprète comme l'écart en plus ou moins de la moyenne et définit un intervalle à l'intérieur duquel se trouve 68% des scores.  C'est la mesure de variation la plus utilisée.


Échantillon

Sous-ensemble d'individus sur lequel porte l'analyse, le sous-ensemble étant tiré d’une population dont on cherche ultimement à connaître les caractéristiques. Chaque individu d'un échantillon est appelé cas.


Échantillonnage accidentel

Échantillonnage où l'on choisit les individus rencontrés accidentellement au gré des circonstances. Approprié lorsque l'étude porte sur des phénomènes de nature publique, tels que l'usage des services publics comme le transport intra-urbain, la fréquentation des lieux publics, etc. On peut aller à la rencontre des individus en définissant un itinéraire (le long du trajet du bus 161) ou en sélectionnant de façon systématique (à chaque arrêt du bus 161).

Échantillonnage aléatoire

Mode d'échantillonnage où tous les individus d'une population ont une chance ou probabilité égale et indépendante d'être sélectionné, la sélection se faisant par tirage au sort. On l'appelle aussi échantillonnage probabiliste. L'échantillon aléatoire autorise la possibilité de procéder à l'inférence statistique, pour au moins deux raisons: 1) Un échantillon aléatoire est un échantillon "représentatif" de la population parente, permettant ainsi d'utiliser avec confiance une statistique de cet échantillon pour estimer le paramètre de la population; 2) Lorsqu'un échantillon est aléatoire, on peut calculer la probabilité qu'un individu de la population soit sélectionné dans l'échantillon (p=n/N), permettant ainsi de déterminer la marge d'erreur de l'estimation avec une probabilité connue. En général, on distingue plusieurs techniques d'échantillonnage aléatoire: simple, systématique, stratifié, grappes.

Échantillonnage aléatoire simple

Échantillonnage de base où l'on sélectionne aléatoirement des individus dans une population donnée de façon à ce qu'ils aient une même chance de sélection. 


Échantillonnage aléatoire systématique

Échantillonnage où les individus de la base de sondage sont aléatoirement choisis à l'aide d'un intervalle de sélection (k=N/n), de façon à ce que chaque individu concerné par l'intervalle k soit inclus dans l'échantillon, l'origine étant choisie au hasard entre 1 et k. Par exemple, pour un échantillon n=20 à tirer dans une population N=100, k serait égal à 5 (100/20); et si l'origine choisie au hasard était 3 (entre 1 et 5), l'échantillon serait 3, 8, 13... etc. Approprié et d'un usage très courant en contrôle de qualité, lorsqu'on veut par exemple contrôler la qualité d'un produit de façon à couvrir l'ensemble de la production.


Échantillonnage boule de neige

Échantillonnage où l'on choisit les individus partageant un réseau. Approprié lorsque l'étude porte sur des phénomènes de nature relationnelle, tels que l'usage des médias sociaux, les relations dans le milieu des affaires, etc. La procédure consiste à choisir un individu clé et à sélectionner ensuite tous les individus liés au premier choisi de façon à faire boule de neige.

Échantillonnage de volontaires

Échantillonnage où l'on choisit les individus qui se sont spontanément portés volontaires. On parle aussi d'échantillonnage spontané. Approprié lorsque l'étude porte sur des tabous ou des phénomènes de déviance où les acteurs sont stigmatisés. Le questionnaire publicisé est souvent l'instrument utilisé: internet, presse, etc.

Échantillonnage en grappes

Échantillonnage où la population est caractérisée de plusieurs grappes ou groupes spatio-temporels (quartiers, universités, etc.) et où dans un premier temps des grappes sont sélectionnées aléatoirement, et où dans un deuxième temps les individus sont choisis aléatoirement au sein des grappes sélectionnées. Finalement de deux choses l'une: soit tous les individus des grappes sélectionnées sont retenus, soit on choisit aléatoirement les individus à l'intérieur des grappes sélectionnées.


Échantillonnage non aléatoire

Mode d'échantillonnage où l'échantillon est sélectionné par une méthode non aléatoire. On l'appelle aussi échantillonnage non probabiliste ou empirique. Les individus sont délibérément choisis, de façon raisonnable ou arbitraire, en fonction d'un certain nombre de critères, afin d'obtenir un échantillon caractéristique de la population parente. Pas nécessaire de disposer d'une base de sondage. On distingue plusieurs techniques d'échantillonnage non aléatoire: accidentel, volontaire, typique, boule de neige.

Échantillonnage non probabiliste

Échantillonnage par quotas

Échantillonnage où l'on choisit les individus de façon à reproduire la structure sociale de la population dans l'échantillon selon les mêmes quotas. D'un usage courant en sociologie, il est approprié lorsque l'étude porte sur les inégalités sociales, telles que les inégalités salariales selon le genre, la discrimination des immigrés, etc. La procédure consiste à définir des quotas (d'hommes et de femmes par exemple) et à sélectionner délibérément les individus jusqu'à atteindre les quotas fixés. Pour éviter d'obtenir un échantillon de convenance, on procède souvent à la triangulation en combinant avec une ou d'autres techniques d'échantillonnage non aléatoire: accidentel, volontaire, typique, boule de neige.

Échantillonnage probabiliste

Échantillonnage stratifié

Échantillonnage où la population est caractérisée par des sous-groupes homogènes ou strates (sexe, classe sociale, groupe d'âge, etc.) et où les individus sont choisis aléatoirement à l'intérieur de chacune des strates. Concernant les strates, lorsque les proportions de l'échantillon sont similaires à celles de la population, on parle d'échantillon proportionnel. L'échantillon est non proportionnel lorsque ses proportions sont différentes de celles de la population.


Échantillonnage typique

Échantillonnage où l'on choisit les individus-types au regard de la problématique étudiée. Approprié lorsque l'étude porte sur des problèmes sociaux, tels que le gros tabagisme, l'itinérance, etc. La procédure consiste à définir des critères bien précis et à sélectionner les individus qui répondent à ces critères de façon à obtenir un échantillon typique du problème étudié.

E

Echelle de mesure

Une échelle de mesure est la série des valeurs possibles d’une variable pour des individus différents. On distingue quatre variables selon leur échelle de mesure: variable nominale, variable ordinale, variable d'intervalles, variable de ratio.


É

Équation de régression linéaire

Équation mathématique qui permet de prédire un score d'une variable dépendante (Y) connaissant un score d'une variable indépendante (X). Elle est symbolisée par Y = a + b X. Cette équation donne la valeur prédite Y, si la valeur de X est connue, connaissant la constante (a) et le coefficient de régression linéaire (b).

E

Erreur d'échantillonnage

Erreur associée au fait de sélectionner des individus plutôt que d'autres, de constituer un échantillon plutôt qu'un autre au sein d''une population donnée. Habituellement mesurable lorsque l'échantillon est aléatoire, l'erreur (aléatoire) d'échantillonnage ou marge d'erreur réfère à l'écart entre une statistique de l'échantillon et le paramètre de la population.

Erreur de prédiction

Écart entre score réel de Y et score prédit de Y à l'aide de la droite de régression linéaire. L'erreur de prédiction est aussi appelée résidu, un terme plus technique. Elle s'interprète comme l'erreur que l'on commettrait si on s'appuie sur la droite de régression pour prédire un score d'une variable dépendante (Y) connaissant un score d'une variable indépendante (X).

Erreur non due à l'échantillonnage

Erreur ne relevant pas de l'échantillonnage, à l'instar des erreurs de couverture, des erreurs de mesure, des erreurs de réponse, des erreurs de non-réponse, des erreurs de saisie. Habituellement, ce sont des erreurs non mesurables. 

Erreur-type

Elle renvoie à l’écart-type des statistiques (moyennes ou proportions) de tous échantillons de taille n qu’il est possible de former dans une population N donnée. Si l'on devait répéter 100 fois l'expérience de sélection de l'échantillon, il y aurait 68% de chances que le paramètre recherché de la population se trouve à plus ou moins un écart-type de la statistique de l'échantillon observé. L’erreur-type est donc une forme de marge d’erreur, mais avec un niveau de confiance de 68%.

Erreur-type d'une différence

Elle renvoie à l’écart-type des différences de moyennes de tous échantillons de taille n qu’il est possible de former dans une population donnée. Si l'on devait répéter 100 fois l'expérience de sélection de l'échantillon, il y aurait 68% de chances que la différence de deux moyennes de la population se trouve à plus ou moins un écart-type de la différence observée dans l'échantillon retenu. 

Estimateur

Voir Estimé.

Estimation

L'estimation consiste à partir d'une statistique d'un échantillon, à estimer, connaître le paramètre d'une population. Deux types d'estimation sont à distinguer: l'estimation ponctuelle et l'estimation par intervalle de confiance.

Estimation par intervalle de confiance

Elle consiste à estimer les deux valeurs formant l'intervalle à l'intérieur duquel se trouve le paramètre recherché d'une population avec une certaine certitude : on parle d’intervalle de confiance. L'intervalle de confiance se calcule à partir de la marge d'erreur

Estimation ponctuelle

Elle consiste à estimer un paramètre d’une population par une valeur unique: la statistique de l’échantillon. Pour que l'estimation ponctuelle soit fiable, il faut que l'échantillon soit aléatoire et de grande taille.


Estimé

Lorsqu'une statistique d'un échantillon sert à estimer le paramètre de la population, cette statistique est appelée estimé d'un paramètre. Une statistique est donc appelé estimé ou estimateur.

Ê

Êta-carré

Mesure d'association utilisée pour établir l'intensité ou l'effet de taille d'une variable indépendante qualitative sur une une variable dépendante. L'êta-carré est utilisée à la suite d'un test t de Student ou d'un test d'ANOVA. L'êta-carré varie de 0 à 1. Selon la règle d'interprétation de Cohen (1988), lorsque l'êta-carré se situe autour de 0,01, la relation est faible; autour de 0,06, la relation est modérée; autour de 0,14 et plus, la relation est forte.

É

Étendue

Différence entre le score maximal et le score minimal d'une distribution.

E

Excel

Tableur de la suite de Microsoft Office. C'est l'un des tableurs les plus utilisés pour des opérations de calcul.

Exclusion en liste

Exclusion de tous cas pour lesquels il manque au moins une donnée en considérant simultanément l'ensemble des variables analysées. L'avantage de cette modalité de gestion des données manquantes, c'est qu'elle permet d'analyser les variables sur une même base.

Exclusion en paires

Exclusion des cas pour lesquels il manque au moins une donnée pour les variables prises deux à deux. L'avantage de cette modalité de gestion des données manquantes, c'est qu'elle minimise la perte de l’information contenue dans l'ensemble des variables analysées.


F

F critique

Valeur se trouvant dans la table de la distribution d'échantillonnage du F d'ANOVA. Le F critique est la valeur minimale nécessaire au rejet de l'hypothèse nulle d'une absence de différence entre trois moyennes de groupes ou plus. Précisément, dans le cas d'une absence de différence (sous l'hypothèse nulle), si l'on devait répéter l'expérience de sélection de l'échantillon 100 fois, 95% des échantillons auraient des F compris entre 0 et la valeur critique au seuil de signification 0,05; 99% des échantillons auraient des F compris entre 0 et la valeur critique au seuil de signification 0,01, etc. La valeur critique est une sorte de constante qui dépend de deux paramètres: le seuil de signification et le nombre de degrés de libertés.

Fréquence

Il s'agit du nombre d'individus ou d'occurrences correspondant à une valeur dans un ensemble de données. Pour faciliter leur interprétation, les fréquences sont souvent converties en pourcentages.

Fréquences attendues

Fréquences conditionnelles

Les fréquences conditionnelles renvoient à la distribution deux à deux des catégories de valeurs de deux variables catégorielles mises en relation. Ce sont les fréquences qui se trouvent à l’intérieur du tableau bivarié. Chacune de ces fréquences indique le nombre de cas correspondant à la combinaison de deux catégories. On les appelle aussi des fréquences de cellule ou des fréquences combinées.



Fréquences marginales

Les fréquences marginales réfèrent à la distribution univariée de chacune de deux variables catégorielles mises en relation. Elles sont repérables dans les dernières rangée et colonne d'un tableau bivarié. Chacune de ces fréquences indique la somme du nombre de cas correspondant à une catégorie.



Fréquences observées

Elles renvoient aux fréquences réelles obtenues à partir des données d’échantillon.

Fréquences théoriques

Elles renvoient aux fréquences auxquelles on devrait s’attendre dans le cas d’une absence de relation entre deux variables catégorielles dans la population. On les appelle aussi des fréquences attendues ou fréquences anticipées.


H

Hasard

Le hasard reflète notre incapacité à maîtriser tous les degrés de liberté d'une situation donnée, c'est-à-dire les éléments susceptibles d'exercer librement une influence sur cette situation. Lorsqu'on lance une pièce, la position de la main, l'élan du lanceur sont autant d'éléments susceptibles de faire varier le résultat en pile ou face. De même, lorsqu'on sélectionne un échantillon, le hasard de l'échantillonnage peut faire de telle sorte qu'on tombe sur un échantillon, ou un autre, encore et encore...

Histogramme

Diagramme formé d'une suite de barres accolées avec des intervalles de classes en abscisse et des fréquences ou pourcentages en ordonnée. Approprié pour représenter une variable continue dont les valeurs sont transformée en classes.


Homoscédasticité

Égalité des variances de deux ou plusieurs groupes. L'homoscédasticité est une des conditions d'application du test t et du test ANOVA. Elle suppose que les variances de deux ou plusieurs groupes sont comparables. Dans le cas contraire, on parle d'hétéroscédasticité. 

Hypothèse de recherche

L'hypothèse de recherche renvoie à l'énoncé d'une réponse anticipée à une question spécifique de recherche. Elle peut être univariée, bivariée ou multivariée.

Hypothèse statistique

Un peu tôt! À venir...

I

Indicateur

C'est un signe directement observable et mesurable d'un concept, sa manifestation concrète. Par exemple, le nombre d'années de scolarité complétées est un indicateur puisqu'il permet précisément à un chercheur d'observer et de mesurer le niveau d'éducation d'un individu. Les statistiques ne comprennent que le langage des indicateurs:)

Intensité d'une relation

Elle précise la force d'une relation entre deux variables. Ces dernières peuvent être fortement, modérément, faiblement ou nullement reliées: on parle alors de relation forte, de relation modérée, de relation faible, ou de relation nulle. Dans le cas de l'analyse tabulaire bivariée, l'intensité se mesure en comparant les pourcentages de deux catégories de la variable indépendante.

Interprétation des résultats

Puisque les chiffres ne parlent pas d'eux-mêmes, il faut les faire parler, c.à.d. les interpréter. L'interprétation des résultats consiste donc à donner un sens aux statistiques. Au moins, deux formes d'interprétation sont à distinguer: interprétation statistique et interprétation théorique.

Interprétation statistique

 Intervenant au premier degré, elle consiste à présenter les résultats chiffrés, notamment ce qu'ils disent et ce qu'ils suggèrent.

Interprétation théorique

Intervenant au second degré, elle consiste à expliquer, discuter la plausibilité des résultats, notamment du point de vue de leur rapport à la problématique, de leur validité et de leur portée.


Page: (Précédent)   1  2  3  4  (Suivant)
  Tout