GLOSSAIRE

Recueil de concepts statistiques et définition (vous pouvez ajouter un nouvel article ou commenter un article)




Tri actuellement Par date de modification ascendant Trier chronologiquement: Par date de modification modifier à descendant | Par date de création

Page:  1  2  3  4  (Suivant)
  Tout

Estimation ponctuelle

Elle consiste à estimer un paramètre d’une population par une valeur unique: la statistique de l’échantillon. Pour que l'estimation ponctuelle soit fiable, il faut que l'échantillon soit aléatoire et de grande taille.


Estimation par intervalle de confiance

Elle consiste à estimer les deux valeurs formant l'intervalle à l'intérieur duquel se trouve le paramètre recherché d'une population avec une certaine certitude : on parle d’intervalle de confiance. L'intervalle de confiance se calcule à partir de la marge d'erreur

Marge d'erreur

 

Elle mesure, avec une certaine certitude, l'écart entre une statistique de l'échantillon et le paramètre recherché de la population, soit l'erreur (aléatoire) d'échantillonnage d'une estimation. La marge d'erreur se calcule en multipliant l'erreur-type par le score-z associé à un niveau de confiance donné. On l'utilise pour établir l'intervalle de confiance de cette estimation.

 

Erreur-type

Elle renvoie à l’écart-type des statistiques (moyennes ou proportions) de tous échantillons de taille n qu’il est possible de former dans une population N donnée. Si l'on devait répéter 100 fois l'expérience de sélection de l'échantillon, il y aurait 68% de chances que le paramètre recherché de la population se trouve à plus ou moins un écart-type de la statistique de l'échantillon observé. L’erreur-type est donc une forme de marge d’erreur, mais avec un niveau de confiance de 68%.

Loi des grands nombres

Elle postule que les caractéristiques de l’échantillon aléatoire se rapprochent d’autant plus de celles de la population que la taille de l’échantillon augmente. Plus la taille de l'échantillon est grande (n=30 minimum), meilleure est donc l'inférence statistique. 

Théorème central limite

Il postule que la distribution d’échantillonnage, issue d’échantillons aléatoires de grande taille, 1) suit un modèle normal prédictible, 2) que sa moyenne s'apparente au paramètre de la population, 3) et que son écart-type est égal à l'écart-type de la population relativisé par la taille de l'échantillon.

Niveau de confiance

Il signifie le niveau de certitude, la probabilité que le vrai paramètre de la population soit compris dans l'intervalle défini par l'estimation, si l’on répétait 100 fois le sondage ou l’expérience de sélection de l’échantillon. Le niveau de confiance est exprimé en pourcentage (95%, 99%, etc). Lorsque le niveau de confiance est de 95%, le risque d'erreur est de 5% (100-5). Le niveau de confiance est donc le contraire du risque d'erreur

Risque d'erreur

Risque que le vrai paramètre de la population ne soit pas compris dans l'intervalle défini par l'estimation, si l’on répétait 100 fois le sondage ou l’expérience de sélection de l’échantillon. Le risque d'erreur est habituellement exprimé en pourcentage (5%, 1%, etc). Lorsque le risque d'erreur est de 5%, le niveau de confiance est alors de 95% (100-95). Le risque d'erreur est donc le contraire du niveau de confiance.  

Distribution d'un échantillon

Distribution des scores d'une variable à l'intérieur d'un échantillon n d'une taille donnée. C'est la façon dont les scores sont distribués, répartis dans une série de données d'échantillon. Elle donne une statistique.

Distribution d'une population

Distribution des scores d'une variable à l'intérieur d'une population N d'une taille donnée. C'est la façon dont les scores sont distribués, répartis dans une série de données de population. Elle donne un paramètre.

Échantillonnage de volontaires

Échantillonnage où l'on choisit les individus qui se sont spontanément portés volontaires. On parle aussi d'échantillonnage spontané. Approprié lorsque l'étude porte sur des tabous ou des phénomènes de déviance où les acteurs sont stigmatisés. Le questionnaire publicisé est souvent l'instrument utilisé: internet, presse, etc.

Échantillonnage accidentel

Échantillonnage où l'on choisit les individus rencontrés accidentellement au gré des circonstances. Approprié lorsque l'étude porte sur des phénomènes de nature publique, tels que l'usage des services publics comme le transport intra-urbain, la fréquentation des lieux publics, etc. On peut aller à la rencontre des individus en définissant un itinéraire (le long du trajet du bus 161) ou en sélectionnant de façon systématique (à chaque arrêt du bus 161).

Échantillonnage boule de neige

Échantillonnage où l'on choisit les individus partageant un réseau. Approprié lorsque l'étude porte sur des phénomènes de nature relationnelle, tels que l'usage des médias sociaux, les relations dans le milieu des affaires, etc. La procédure consiste à choisir un individu clé et à sélectionner ensuite tous les individus liés au premier choisi de façon à faire boule de neige.

Échantillonnage typique

Échantillonnage où l'on choisit les individus-types au regard de la problématique étudiée. Approprié lorsque l'étude porte sur des problèmes sociaux, tels que le gros tabagisme, l'itinérance, etc. La procédure consiste à définir des critères bien précis et à sélectionner les individus qui répondent à ces critères de façon à obtenir un échantillon typique du problème étudié.

Échantillonnage par quotas

Échantillonnage où l'on choisit les individus de façon à reproduire la structure sociale de la population dans l'échantillon selon les mêmes quotas. D'un usage courant en sociologie, il est approprié lorsque l'étude porte sur les inégalités sociales, telles que les inégalités salariales selon le genre, la discrimination des immigrés, etc. La procédure consiste à définir des quotas (d'hommes et de femmes par exemple) et à sélectionner délibérément les individus jusqu'à atteindre les quotas fixés. Pour éviter d'obtenir un échantillon de convenance, on procède souvent à la triangulation en combinant avec une ou d'autres techniques d'échantillonnage non aléatoire: accidentel, volontaire, typique, boule de neige.

Base de sondage

Liste numérotée et exhaustive des individus d'une population à l'étude.

Test d'hypothèse

Le test d’hypothèse consiste à formuler une hypothèse de recherche concernant une population et à chercher de valider, tester ce paramètre supposé de la population à l'aide d'une statistique de l'échantillon.

Consistance

Un estimé est consistant lorsque sa distribution d’échantillonnage comportant une faible variabilité. La consistance est la propriété la plus désirable d'un estimé. Augmenter la consistance d'un estimé revient à augmenter la taille de l'échantillon.


Estimé

Lorsqu'une statistique d'un échantillon sert à estimer le paramètre de la population, cette statistique est appelée estimé d'un paramètre. Une statistique est donc appelé estimé ou estimateur.

Estimateur

Voir Estimé.

Écart-type

Racine carrée de la variance, l'écart-type mesure la variation ou la dispersion des scores par rapport à la moyenne d'une distribution donnée. C'est l'écart typique de l'échelle des scores. Il s'interprète comme l'écart en plus ou moins de la moyenne et définit un intervalle à l'intérieur duquel se trouve 68% des scores.  C'est la mesure de variation la plus utilisée.


Variance

Exprimée au carré, la variance mesure la variation ou la dispersion des scores par rapport à la moyenne d'un ensemble de données. C'est la moyenne de la somme des carrés des scores déviation. Mesure de variation la moins appropriée en statistiques descriptives, la variance s'avère toutefois très utile en statistiques inférentielles.


Intervalle interquartile

Il mesure la différence entre les quartiles supérieur et inférieur (Q3-Q1) d'une distribution. Ces deux quartiles définissent un intervalle à l'intérieur duquel s'étend 50 % des scores autour de la médiane. C'est la seule mesure de variation qui ne subit pas l'effet des cas déviants ou scores aberrants

Cas déviants

Ce sont les cas dont les scores dévient, s'écartent de l'ensemble des scores d'une distribution. Les cas déviants présentent des scores aberrants. Ils sont caractéristiques d'une distribution asymétrique.

Scores aberrants

Ce sont les scores qui s'écartent de l'ensemble des scores d'une distribution. Les scores aberrants relèvent des cas déviants. Ils sont caractéristiques d'une distribution asymétrique.

Distribution normale

 

Appelée encore « courbe en cloche » ou « courbe normale », la distribution normale est une distribution symétrique et unimodale. La plupart des scores sont regroupés autour de la caractéristique moyenne, de telle sorte que plus on s'éloigne de cette tendance centrale plus les scores sont moins fréquents dans des proportions similaires. La distribution normale est au fondement des statistiques inférentielles.

 

Distribution symétrique

Une distribution dont la moyenne, le mode et la médiane sont égaux, de telle sorte que 50% des scores sont situés de part et d'autre de la tendance centrale. Par exemple, toute distribution normale est symétrique.

Distribution asymétrique

Distribution présentant une longue queue s'étirant vers la droite ou la gauche. La distribution est asymétrique négative lorsqu'elle s'étire vers les scores faibles: dans cette situation la moyenne sera plus petite que la médiane ou le mode. La distribution est asymétrique positive lorsqu'elle s'étire vers les scores élevés: dans cette situation la moyenne sera plus grande que la médiane ou le mode

Symétrie

Mesure de la forme de la dispersion d'une distribution, elle se lit horizontalement. Lorsque le coefficient de symétrie est positif, on a une distribution asymétrique positive; lorsqu'il est négatif, une distribution asymétrique négative; lorsqu'il est nul, une distribution symétrique.

Kurtose

Mesure de la forme de la dispersion d'une distribution, elle évalue précisément le degré d'applatissement et se lit donc verticalement. Lorsque le coefficient de kurtose est positif, on a une distribution leptokurtique; lorsqu'il est négatif, on a une distribution platykurtique; lorsqu'il est nul, on a une distribution mésokurtique.

Mesures de variation

Décrivent dans quelle mesure les scores d'une distribution sont dispersés les uns des autres et autour de la tendance centrale. Les mesures de variation les plus rapportées sont l'étendue, l'intervalle interquartile, la variance, l'écart-type, le coefficient de variation et les scores-Zi. Permettant de décrire la dispersion et l'homogénéité d'une distribution, elles aident à rendre compte de la variabilité d'un phénomène.

Étendue

Différence entre le score maximal et le score minimal d'une distribution.

Coefficient de variation

C'est le rapport entre l'écart-type et la moyenne, sur une base de comparaison 100. Approprié pour comparer la dispersion de distributions ayant des unités de mesure différentes. Par convention, lorsque le coefficient de variation relative est supérieur à 15%, la distribution est hétérogène.

Scores-Zi

Un score-Z, pour un individu i donné, est la différence entre un score-Xi et la moyenne d'une distribution, différence relativisée par l'écart-type. Les scores-Zi sont des scores-Xi standardisés. Ils s'étendent en général de -3 à 3,  de telle sorte que pour une distribution donnée leur moyenne est égale à 0, leur écart-type 1.

Scores-Xi

Un score-Xi correspond, pour un individu i donné, à une observation ou donnée concernant une valeur d'une variable. Valeurs réellement mesurées dans les faits, les scores-Xi sont donc les observations individuelles d'une distribution. 

Mesures de tendance centrale

Décrivent l'emplacement où se trouve le centre ou milieu d'une distribution. Les mesures de tendance centrale les plus rapportées sont le mode, la médiane et la moyenne. Permettant de décrire le score le plus typique d'une distribution, elles aident à rendre compte de la représentativité d'un phénomène.

Pourcentage

Il s'agit d'une fréquence standardisée à un nombre total d'individus égal à 100. Les pourcentages sont des fréquences relatives, précisément des proportions multipliées par 100.

Proportion

Il s'agit du rapport entre une fréquence et le nombre total d'individus d'une distribution. Les proportions varient de 0 à 1.

Taux

Une forme de proportion exprimée par rapport à un nombre constant : 100 (taux de chômage par rapport à 100 travailleurs potentiels), 1000 (taux de natalité par rapport à 1000 habitants), 100000 (taux de suicide par rapport à 100000 habitants), etc. 

Ratio

Un ratio met en rapport deux mesures portant sur des ensembles plus ou moins différents. Exemple du ratio étudiants: professeurs.


Pourcentage de variation

Différence entre une valeur à un temps donné (T2) et une valeur au temps de référence (T1), différence relativisée par la valeur au temps de référence (T1) et multipliée par 100. Le pourcentage ou taux de variation indique de combien en % une valeur augmente ou diminue d'un temps à l'autre (p.ex. % d'augmentation des vols, % de diminution du prix d'essence, etc.).

Postulat de Sturges

À propos de la détermination du nombre de classes d'une distribution, Sturges postule que le nombre de classes est d'autant plus grand que la taille de l’échantillon est grande. La taille de l'échantillon détermine donc le nombre de classes optimales d'une série de données.

Mode

Score le plus fréquent dans une série de données. C'est la seule mesure de tendance centrale qui convient à une variable nominale.

Moyenne

Mesure la plus courante de la tendance centrale, la moyenne est le rapport entre la somme des scores et le nombre total d'individus d'une distribution. Elle correspond à la moyenne arithmétique d'une série de données. La moyenne est la seule mesure de tendance centrale qui subit l'effet des cas déviants.


Médiane

Lorsque les scores sont ordonnés du plus petit au plus grand ou vice-versa, la médiane est le score correspondant au point-milieu d'une série de données. Elle divise une distribution en deux parties égales: 50% de part et d'autre du point-milieu.


Quartiles

Mesures de position, les quartiles divisent une distribution en quatre parties égales, de telle sorte que chaque partie occupe 25% des scores. La médiane correspond au 2e quartile (Q2).

Centiles

Mesures de position, les centiles divisent une distribution en 100 parties égales, de telle sorte que chaque partie occupe 1% des scores. La médiane correspond au 50e centile (C50).

Scores déviation

Un score déviation est la différence entre chacun des scores-Xi et la moyenne d'une distribution. Les scores déviation indiquent dans quelle mesure les scores individuels dévient, s'écartent de la moyenne, mesurant ainsi sommairement la variation d'une distribution. Toutefois, la somme des scores déviation d'une distribution est toujours nulle, les différences positives et négatives une fois additionnées s'annulant. 

Somme des carrés

Lorsqu'on élève au carré les scores déviation d'une distribution et qu'on calcule la somme, on obtient la somme des scores déviation au carré, ou simplement la somme des carrés. La somme des carrés donnent une indication sur la totalité de la variation dans une distribution.

Diagramme en boîte et à moustaches

Diagramme où 1) les bordures inférieure et supérieure de la boîte représentent respectivement le quartile 1 et le quartile 3, sachant que la quartile 2 (médiane) se situe à l'intérieur de la boîte; 2) les moustaches sont représentées par les longueurs allant du score minimal normal au quartile 1, et du score maximal normal au quartile 3; 3) les cas déviants sont représentés par des astérisques ou cercles.


Page:  1  2  3  4  (Suivant)
  Tout