Imprimer tout le livreImprimer tout le livre

Méthodes d'échantillonnage.

Il existe deux types de méthodes d'échantillonnage : L'échantillonnage probabiliste et l'échantillonnage non probabiliste. La différence entre les deux tient au fait que dans le cas de l'échantillonnage probabiliste chaque unité a une « chance » d'être sélectionnée et que cette chance peut être quantifiée, ce qui n'est pas vrai pour l'échantillonnage non probabiliste; dans ce cas, chaque unité incluse à l'intérieur d'une population n'a pas une chance égale d'être sélectionnée.

Site: Plateforme d'apprentissage en ligne de l'UGB
Cours: L’ECHANTILLONNAGE ET SES TECHNIQUES EN RECHERCHE QUANTITATIVE
Livre: Méthodes d'échantillonnage.
Imprimé par: Visiteur anonyme
Date: dimanche 22 décembre 2024, 07:13

1 Échantillonnage probabiliste.

L'échantillonnage probabiliste entraîne la sélection d'un échantillon à partir d'une population, sélection qui repose sur le principe de la randomisation (la sélection au hasard ou aléatoire) ou la chance. Il est plus complexe, prend plus de temps et est habituellement plus coûteux que l'échantillonnage non probabiliste. Toutefois, comme les unités de la population sont sélectionnées au hasard et qu'il est possible de calculer la probabilité d'inclusion de chaque unité dans l'échantillon, on peut, grâce à l'échantillonnage probabiliste, produire des estimations fiables, de même que des estimations de l'erreur d'échantillonnage et faire des inférences au sujet de la population.

Il existe plusieurs méthodes différentes permettant de sélectionner un échantillon probabiliste. La méthode qu'on choisira dépendra d'un certain nombre de facteurs, comme la base de sondage dont on disposera, la façon dont la population sera distribuée, ce que sonder les membres de la population coûtera et la façon également dont les utilisateurs analyseront les données. Lorsque nous choisissons un plan d'échantillonnage probabiliste, notre but devrait consister à réduire le plus possible l'erreur d'échantillonnage des estimations pour les variables d'enquête les plus importantes, tout en réduisant le plus possible également le délai et le coût de réalisation de l'enquête.

Voici les méthodes d'échantillonnage probabiliste les plus courantes :

1.1 Échantillonnage aléatoire simple.

Dans un échantillonnage aléatoire simple (EAS), chaque membre d'une population a une chance égale d'être inclus à l'intérieur de l'échantillon. Chaque combinaison de membres de la population a aussi une chance égale de composer l'échantillon. Ces deux propriétés sont ce qui définit un échantillonnage aléatoire simple. On doit dresser une liste de toutes les unités incluses dans la population observée pour sélectionner un échantillon aléatoire simple.

Exemple 1 : Il faudrait numéroter dans un ordre séquentiel chaque entrée ou inscription pour prélever un échantillon aléatoire simple d'un annuaire téléphonique. S'il y avait 10 000 entrées dans l'annuaire téléphonique et si la taille de l'échantillon était 2 000 numéros, un ordinateur devrait alors générer au hasard 2 000 numéros entre 1 et 10 000. Chaque numéro aurait la même chance qu'un autre d'être généré par l'ordinateur (ce qui respecterait l'exigence de l'échantillonnage aléatoire simple : une chance égale pour chaque unité). Les 2 000 entrées dans l'annuaire téléphonique correspondant aux 2 000 numéros aléatoires générés par l'ordinateur composeraient l'échantillon.

Un échantillonnage aléatoire simple peut s'effectuer avec ou sans remplacement. Un échantillon avec remplacement signifie qu'il est possible que l'entrée dans l'annuaire téléphonique échantillonnée soit sélectionnée deux fois ou plus. Habituellement, l'échantillonnage aléatoire simple est effectué sans remplacement, parce qu'il est plus pratique et donne des résultats plus précis. Nous ferons référence à l'échantillonnage sans remplacement lorsque nous traiterons de l'échantillonnage aléatoire simple aux fins des présentes descriptions.

L'échantillonnage aléatoire simple est la méthode d'échantillonnage la plus facile à appliquer et la plus couramment utilisée. L'avantage de cette technique tient au fait qu'elle n'exige pas de données additionnelles dans la base de sondage (comme des régions géographiques) autres que la liste complète des membres de la population observée et l'information pour les contacter. Également, puisque l'échantillonnage aléatoire simple est une méthode simple et que la théorie qui la sous-tend est bien établie, il existe des formules-types pour déterminer la taille de l'échantillon, les estimations, etc., et ces formules sont faciles à utiliser.

D'un autre côté, cette technique ne fait aucunement appel aux données auxiliaires contenues dans la base de sondage (p.ex., le nombre d'employés de chaque entreprise) qui pourraient rendre le plan d'échantillonnage plus efficace. En outre, même s'il est facile d'appliquer l'échantillonnage aléatoire simple à de petites populations, le faire peut être coûteux et irréalisable pour de grandes populations, parce qu'il faut en identifier et en étiqueter toutes les unités avant l'échantillonnage. Son application peut également être coûteuse s'il faut effectuer des interviews sur place, puisqu'il est possible que l'échantillon soit géographiquement distribué dans toute la population.

Un tirage à la loterie est un bon exemple d'échantillonnage aléatoire simple. Par exemple, lorsqu'un échantillon de six numéros est généré au hasard à partir d'une population de 49 numéros, chacun de ces derniers a une chance égale d'être sélectionné et chaque combinaison de six numéros a la même chance d'être la combinaison gagnante. Même si les gens tendent à éviter une combinaison comme 1-2-3-4-5-6, cette combinaison a la même chance d'être la série gagnante de numéros que la combinaison 8-15-21-28-32-40.

Exemple 2 : Supposons que notre université compte 500 étudiants et que nous devons mener une courte enquête sur la qualité des aliments servis au restau U. Nous déterminons qu'un échantillon de 10 étudiants devrait suffire à nos fins. Pour obtenir notre échantillon, nous attribuons à chaque étudiant de notre université un numéro compris entre 1 et 500. Pour sélectionner cet échantillon, nous utilisons une table de numéros générés au hasard. Tout ce que nous avons à faire consiste à prendre un point de départ à l'intérieur de la table (un numéro de rangée et un numéro de colonne) et à examiner les numéros aléatoires qui y figurent. Dans ce cas, puisque les données ne dépassent pas trois chiffres, les numéros aléatoires devraient renfermer trois chiffres également. Nous ne tenons pas compte des numéros aléatoires supérieurs à 500, parce qu'ils ne correspondent à aucun des étudiants de notre université. Rappelons-nous que notre échantillon est un échantillon sans remplacement et que, si un numéro se répète, nous devons le sauter et utiliser le numéro aléatoire suivant. Les 10 premiers numéros différents entre 001 et 500 composent notre échantillon.

Exemple 3 : Imaginons que nous sommes propriétaire d'un cinéma et que nous y organiserons un festival de films d'horreur le mois prochain. Pour déterminer quels films d'horreur nous y présenterons, nous voulons demander à des cinéphiles lesquels parmi les films que nous leur énumérerons ils préfèrent. Pour dresser la liste des films nécessaire à notre sondage, nous décidons d'échantillonner 100 des 1 000 meilleurs films d'horreur de tous les temps. La population des films d'horreur se divise en proportions égales entre les films classiques (tournés en ou avant 1969) et les films modernes (produits en ou après 1970). L'une des façons d'obtenir un échantillon consisterait à écrire tous les titres des films sur des bouts de papier et à les placer dans une boîte et à tirer ensuite 100 titres et nous aurions alors notre échantillon. En utilisant cette méthode, nous aurions l'assurance que chaque film courrait une chance égale d'être sélectionné.

Nous pourrions aussi calculer la probabilité de sélection de tel ou tel film. Puisque nous connaissons la taille de l'échantillon (n) et la population totale (N), calculer la probabilité pour un film d'horreur d'être inclus dans notre échantillon deviendrait une simple question de division :

Probabilité de sélection (la même pour chaque film)

= (n ÷ N) x 100 %

= (100 ÷ 1 000) x 100 %

= 10 %

Cela signifie que chaque titre de film inscrit sur notre liste aurait 10 % de chances ou 1 chance sur 10 d'être sélectionné.

Nous pouvons constater que l'un des inconvénients de l'échantillonnage aléatoire simple (parce que ce n'est pas le seul, mais c'en est un important) est le fait que nous savons que la population se compose de 500 films classiques et de 500 films modernes et que nous connaissons la date de parution sur les écrans de chaque film à partir de la base de sondage, mais qu'on n'utilise aucunement cette information. L'échantillon en question pourrait renfermer 77 films classiques et 23 films modernes, qui ne seraient pas représentatifs de la population entière des films d'horreur.


1.2 Échantillonnage systématique.

Parfois appelé échantillonnage par intervalles, l'échantillonnage systématique (SYS) signifie qu'il existe un écart, ou un intervalle, entre chaque unité sélectionnée qui est incluse dans l'échantillon. Il faut suivre les étapes énumérées ci-dessous pour sélectionner un échantillon systématique :

- Numéroter de 1 à N les unités incluses dans votre base de sondage (où N est la taille de la population totale).

- Déterminer l'intervalle d'échantillonnage (K) en divisant le nombre d'unités incluses dans la population par la taille de l'échantillon désiré. Par exemple, pour sélectionner un échantillon de 100 unités à partir d'une population de 400, nous aurions besoin d'un intervalle d'échantillonnage de 400 ÷ 100 = 4. K = 4. Par conséquent, nous devrons sélectionner une unité sur 4 pour avoir finalement au total 100 unités à l'intérieur de notre échantillon.

- Sélectionner au hasard un nombre entre 1 et K. Ce nombre s'appelle l'origine choisie au hasard et serait le premier nombre inclus dans notre échantillon. À l'aide de l'échantillon fourni ci-dessus, nous sélectionnerions un chiffre entre 1 et 4 à partir d'une table de nombres aléatoires (pris au hasard). Si nous choisissions 3, la troisième unité incluse dans notre base de sondage serait la première unité comprise dans notre échantillon; si nous choisissions 2, le début de notre échantillon serait la deuxième unité incluse dans notre base de sondage.

- Sélectionner chaque Kième  (dans ce cas, chaque 4ième) unité après ce premier nombre. L'échantillon pourrait, par exemple, se composer des unités suivantes de façon à constituer un échantillon de 100 : 3 (l'origine choisie au hasard), 7, 11, 15, 19... 395, 399 (jusqu'à N, qui est 400 dans ce cas).

Nous pouvons constater, à l'aide de l'exemple fourni ci-dessus, que dans le cas d'un échantillonnage systématique, seuls k (quatre dans  notre exemple) échantillons possibles, qui correspondent aux k (quatre dans  notre exemple)  origines choisies au hasard également possibles, peuvent être sélectionnés :

1, 5, 9, 13... 393, 397

2, 6, 10, 14... 394, 398

3, 7, 11, 15... 395, 399

4, 8, 12, 16... 396, 400

Chaque membre de la population ne fait partie que de l'un des quatre échantillons et chaque échantillon a une chance égale d'être sélectionné. Cela nous permet de constater que chaque unité a une chance sur quatre d'être sélectionnée à l'intérieur de l'échantillon. Sa probabilité d'être sélectionnée est la même que si l'on sélectionnait un échantillon aléatoire simple de 100 unités. La principale différence tient au fait que dans le cas d'un échantillonnage aléatoire simple, toute combinaison de 100 unités aurait une chance de constituer l'échantillon, tandis que dans celui d'un échantillonnage systématique, il n'y a que K  (quatre dans notre exemple) échantillons possibles. Cela nous permet aussi de constater à quel point l'échantillonnage systématique est précis comparativement à l'échantillonnage aléatoire simple. L'ordre de la population incluse dans la base de sondage déterminera les échantillons possibles pour l'échantillonnage systématique. Si la population est distribuée au hasard dans la base de sondage, un échantillonnage systématique devrait alors produire des résultats similaires à ceux d'un échantillonnage aléatoire simple.

On utilise souvent cette méthode dans l'industrie, où l'on sélectionne une unité pour des essais à partir d'une chaîne de production afin de s'assurer que la machinerie et l'équipement sont d'une qualité uniforme. Un essayeur à l'intérieur d'une usine pourrait, par exemple, soumettre à un contrôle de la qualité chaque 20ième produit sur une ligne de montage. L'essayeur pourrait choisir une origine au hasard entre les nombres 1 et 20. Cela déterminerait le premier produit à essayer; chaque 20ième produit serait ensuite soumis à des essais.

Les intervieweurs peuvent utiliser cette technique d'échantillonnage lorsqu'ils interrogent des gens pour une enquête-échantillon. Le responsable d'une étude de marché pourrait sélectionner, par exemple, chaque 10ième personne qui entrerait dans un magasin, après avoir sélectionné au hasard la première personne. Un enquêteur peut interviewer les occupants de chaque 5ième maison d'une rue, après avoir sélectionné au hasard l'une des cinq premières maisons.

Exemple 4 : Imaginez que vous devez mener une enquête pour votre université sur les logements pour les étudiants. Dix mille (10 000) étudiants sont inscrits dans votre établissement d'enseignement et vous voulez en prélever un échantillon systématique de 500. Pour ce faire, vous devez premièrement déterminer ce que serait votre intervalle d'échantillonnage (K) :

Population totale ÷ taille de l'échantillon = intervalle d'échantillonnage

N ÷ n = K

= 10 000 ÷ 500

= 20

Il faudrait attribuer un numéro séquentiel à chaque étudiant pour entreprendre cet échantillonnage systématique. On choisirait le point de départ en sélectionnant un numéro au hasard entre 1 et 20. Si ce numéro était 9, on sélectionnerait alors le 9ième  étudiant inscrit sur la liste et chaque 20ième  étudiant par la suite. L'échantillon d'étudiants serait constitué de ceux qui correspondraient aux numéros d'étudiant 9, 29, 49, 69... 9 929, 9 949, 9 969 et 9 989.

Dans les exemples utilisés jusqu'ici, l'intervalle d'échantillonnage K était toujours un nombre entier, mais ce n'est pas toujours le cas. Par exemple, si vous prélever un échantillon de 30 unités d'une population qui en compte 740, votre intervalle d'échantillonnage (ou K) sera 24,7. Dans de tels cas, il existe quelques possibilités de faire en sorte que le nombre soit plus facile à utiliser. Nous pouvons arrondir le nombre, c'est-à-dire au nombre entier supérieur le plus rapproché (le plus près) ou au nombre entier inférieur le plus rapproché. Le fait de l'arrondir au nombre entier inférieur le plus rapproché nous assurera de sélectionner au moins le nombre d'unités que nous voulions à l'origine (et nous pourrons ensuite supprimer certaines unités pour obtenir la taille exacte de l'échantillon de notre choix).

Les avantages de l'échantillonnage systématique tiennent au fait que la sélection de l'échantillon ne peut être plus facile (vous n'obtenez qu'un seul nombre aléatoire – l'origine choisie au hasard – et le reste de l'échantillon suit automatiquement) et que l'échantillon est distribué dans des proportions égales à l'intérieur de la population répertoriée. Le plus gros inconvénient de la méthode d'échantillonnage systématique tient au fait que les échantillons possibles risquent de ne pas être représentatifs de la population s'il existe un certain cycle sur le plan du mode d'ordonnancement de la population inscrite sur une liste et si ce cycle coïncide d'une quelconque façon avec l'intervalle d'échantillonnage. C'est ce que l'on peut constater dans l'exemple qui suit :

Exemple  5 : Supposez que vous dirigez une épicerie de grande surface et que vous possédez une liste des employés de chacune de ses sections. L'épicerie est divisée entre les 10 sections suivantes : le comptoir de charcuterie, la boulangerie, les caisses, les stocks, le comptoir des viandes, les fruits et légumes, la pharmacie, le magasin de photographie, le magasin de fleurs et le nettoyage à sec. Chaque section compte 10 employés, y compris un gérant (ce qui fait 100 employés au total). Votre liste est ordonnée par section, le gérant y étant énuméré le premier et les autres employés y étant ensuite inscrits dans l'ordre décroissant d'ancienneté.

Si vous voulez sonder vos employés au sujet de leurs réflexions sur leur milieu de travail, vous pourriez choisir un petit échantillon pour répondre à vos questions. Si vous utilisiez un échantillonnage systématique et si votre intervalle d'échantillonnage était 10, vous pourriez alors ne sélectionner finalement que les gérants ou que les employés de chaque section ayant le moins d'ancienneté. Ce type d'échantillon ne vous donnerait pas un portrait complet ni approprié des réflexions de vos employés.


1.3 Échantillonnage stratifié.

Lorsqu'on utilise l'échantillonnage stratifié, on divise la population en groupes homogènes (appelés strates), qui sont mutuellement exclusifs, puis on sélectionne à partir de chaque strate des échantillons indépendants. On peut utiliser n'importe quelle des méthodes d'échantillonnage mentionnées dans la présente section (et il en existe d'autres) pour sélectionner l'échantillon à l'intérieur de chaque strate. La méthode d'échantillonnage peut varier d'une strate à une autre. Lorsqu'on utilise l'échantillonnage aléatoire simple pour sélectionner l'échantillon à l'intérieur de chaque strate, on appelle le plan d'échantillonnage un plan d'échantillonnage aléatoire simple stratifié. On peut stratifier avant l'échantillonnage une population au moyen de toute variable dont on dispose pour la totalité des unités incluses dans la base de sondage (comme l'âge, le sexe, le lieu de résidence, le revenu, etc.)

Pourquoi doit-on créer des strates? Pour bien des raisons, la principale étant que leur création peut rendre la stratégie d'échantillonnage plus efficace. Nous avons mentionné précédemment que nous avions besoin d'un échantillon plus grand pour obtenir une estimation plus exacte d'une caractéristique qui varie beaucoup d'une unité à l'autre. Si chaque personne incluse dans une population, par exemple, avait le même salaire, il suffirait alors d'un échantillon d'une seule unité pour obtenir une estimation précise du salaire moyen des membres de cette population.

C'est l'idée qui sous-tend le gain d'efficacité qu'on réalise grâce à la stratification. Si nous créons des strates à l'intérieur desquelles des unités auraient des caractéristiques qui seraient similaires (comme le revenu) et qui différeraient considérablement de celles d'unités incluses dans d'autres strates (comme la profession et le type de logement), nous n'aurions alors besoin que d'un petit échantillon tiré de chaque strate afin d'obtenir une estimation précise du revenu total pour la strate en question. Nous pourrions ensuite combiner ces estimations afin d'obtenir une estimation précise du revenu total de l'ensemble de la population. Si nous devions utiliser un échantillonnage aléatoire simple de la population entière sans effectuer de stratification, il nous faudrait un échantillon plus grand que la totalité de tous les échantillons de strate afin d'obtenir pour le revenu total une estimation du même degré de précision.

L'échantillonnage stratifié nous assure d'obtenir une taille d'échantillon suffisante pour des sous-groupes de la population à laquelle nous nous intéressons. Étant donné que chaque strate devient une population indépendante lorsque nous stratifions une population, nous devrons déterminer pour chaque strate la taille de l'échantillon.

La stratification est des plus utiles lorsque les variables de stratification sont : simples à utiliser; faciles à observer et étroitement reliées au thème de l'enquête.


1.4 Échantillonnage en grappes.

Il est parfois trop dispendieux de disséminer un échantillon dans l'ensemble de la population. Les coûts de déplacement risquent de devenir élevés lorsque les intervieweurs doivent sonder des gens d'un bout à l'autre du pays. En pareil cas, peut choisir la technique de l'échantillonnage en grappes pour réduire les coûts.

La technique de l'échantillonnage en grappes entraîne la division de la population en groupes ou en grappes comme son nom l'indique. Suivant cette technique, on sélectionne au hasard un certain nombre de grappes pour représenter la population totale, puis on englobe dans l'échantillon toutes les unités incluses à l'intérieur des grappes sélectionnées. On n'inclut dans l'échantillon aucune unité de grappes non sélectionnées; ces unités sont représentées par celles tirées de grappes sélectionnées. La technique en question diffère de la technique d'échantillonnage stratifié, qui entraîne la sélection d'unités de chaque groupe.

Mentionnons, entre autres exemples de grappes, les usines, les établissements d'enseignement et les régions géographiques telles que les subdivisions électorales. On utilise les grappes sélectionnées pour représenter la population.

Exemple 6 : Supposez que vous représentez une organisation d'athlétisme désirant déterminer quels sports pratiquent les élèves de 3ième  au Sénégal. Il serait trop coûteux et trop long d'interroger chaque élève sénégalais de 3ième ou même deux ou trois élèves de chaque classe de 3ième  au Sénégal. On sélectionne plutôt au hasard 100 écoles de tout le pays.

Ces écoles fournissent des grappes d'échantillons. On sonde ensuite chaque élève de 3ième de chacune des 100 grappes. Les élèves inclus dans ces grappes représentent, en effet, tous les élèves de 3ième  au Sénégal.

Comme nous l'avons mentionné, réduire les coûts est l'une des raisons d'utiliser l'échantillonnage en grappes. Ce dernier crée des « poches » d'unités échantillonnées, au lieu de disséminer l'échantillon sur tout le territoire. Le fait que l'on ne dispose pas parfois d'une liste de toutes les unités incluses dans la population (une nécessité lorsqu'on effectue un échantillonnage aléatoire simple, un échantillonnage systématique ou un échantillonnage avec probabilité proportionnelle à la taille), tandis qu'une liste de toutes les grappes est disponible ou facile à dresser, constitue une autre raison d'utiliser l'échantillonnage en grappes.

Dans la plupart des cas, une perte d'efficacité comparativement à ce qu'il en est lorsqu'on utilise un échantillonnage aléatoire simple représente le principal inconvénient de l'emploi de l'échantillonnage en grappes. Il est habituellement préférable de sonder un grand nombre de petites grappes, plutôt qu'un petit nombre de grandes grappes. Pourquoi? Parce que les unités avoisinantes tendent à se ressembler davantage, ce qui donne un échantillon ne représentant pas l'éventail complet d'opinions ou de situations de l'ensemble de la population. Dans l’exemples précédent, les élèves de la même école ont tendance à pratiquer les mêmes types de sports (suivant les installations dont dispose leur établissement d'enseignement.

L'échantillonnage en grappes ne permet pas de contrôler totalement la taille finale de l'échantillon, ce qui constitue un autre inconvénient de son utilisation. Puisque toutes les écoles ne comptent pas le même nombre d'élèves de 3ième  et que les îlots ne renferment pas non plus le même nombre de ménages, et que nous devons sonder chaque élève ou ménage inclus dans notre échantillon, ce dernier peut être finalement d'une taille supérieure ou inférieure à ce que nous espérions.


1.5 Échantillonnage à plusieurs degrés.

La méthode d'échantillonnage à plusieurs degrés ressemble à la méthode d'échantillonnage en grappes, sauf qu'il faut dans son cas prélever un échantillon à l'intérieur de chaque grappe sélectionnée, plutôt que d'inclure toutes les unités dans la grappe. Ce type d'échantillonnage exige au moins deux degrés. On identifie et sélectionne au premier degré de grands groupes ou de grandes grappes. Ces grappes renferment plus d'unités de la population qu'il n'en faut pour l'échantillon final. Pour obtenir un échantillon final, on prélève au second degré des unités de la population à partir des grappes sélectionnées (à l'aide de l'une des méthodes d'échantillonnage probabiliste possibles). Si l'on utilise plus de deux degrés, le processus de sélection d'unités de la population à l'intérieur des grappes se poursuit jusqu'à l'obtention d'un échantillon final. Exemple 7 : Dans l'exemple n° 6 d'échantillonnage en grappes, on choisissait 100 écoles, puis on interviewait chaque élève de 3ième de ces écoles. Dans le cas de l'échantillonnage à plusieurs degrés, nous pourrions plutôt sélectionner davantage d'écoles, nous procurer une liste de tous les élèves de 3ième de ces écoles sélectionnées et choisir un échantillon au hasard (un échantillon aléatoire simple, par exemple) d'élèves de chaque école. Ce serait un plan d'échantillonnage à deux degrés. Nous pourrions aussi obtenir une liste de toutes les classes de 3ième des écoles sélectionnées, prélever un échantillon aléatoire de classes de chacune de ces écoles, nous procurer une liste de tous les élèves des classes sélectionnées et finalement choisir un échantillon au hasard d'élèves de chaque classe. Ce serait un plan d'échantillonnage à trois degrés. Le processus se complique chaque fois que nous ajoutons un degré. Imaginons maintenant que chaque école compte en moyenne 80 élèves de 3ième. L'échantillonnage en grappes donnerait alors à notre organisation un échantillon d'environ 8 000 élèves (100 écoles x 80 élèves de 11e année). Si nous voulions un échantillon de plus grande taille, nous pourrions sélectionner des écoles comptant davantage d'élèves et, pour obtenir un échantillon plus petit, sélectionner des écoles comptant moins d'élèves. L'un des moyens de contrôler la taille de l'échantillon consisterait à stratifier les écoles en grande taille, en taille moyenne et en petite taille (tailles ici signifiant le nombre d'élèves de 3ième) et à sélectionner un échantillon d'écoles de chaque strate. On appelle cette méthode la méthode d'échantillonnage en grappes stratifiées. Si nous utilisions un plan d'échantillonnage à trois degrés, nous pourrions sélectionner un échantillon de 400 écoles, puis sélectionner deux classes de 3ième par école (en supposant qu'il y ait deux classes de 3ième ou plus dans chaque établissement d'enseignement). Finalement, nous pourrions sélectionner 10 élèves par classe. De cette façon, nous finirions quand même par avoir un échantillon d'environ 8 000 élèves (400 écoles x 2 classes x 10 élèves), mais l'échantillon serait davantage disséminé. Nous pouvons constater à partir de cet exemple que l'échantillonnage à plusieurs degrés nous offre quand même l'avantage d'un échantillon plus concentré, ce qui réduit les coûts. Cependant, l'échantillon n'est pas aussi concentré que d'autres grappes et sa taille est quand même plus grande que celle d'un échantillon aléatoire simple. Nous n'avons pas non plus besoin de disposer d'une liste de tous les élèves membres de la population. Tout ce qu'il nous faut, c'est une liste des classes des 400 écoles et une liste également des élèves des 800 classes. Il est vrai que ce type d'échantillon exige plus d'information qu'en nécessite l'échantillonnage en grappes. L'échantillonnage à plusieurs degrés épargne cependant quand même beaucoup de temps et d'efforts, parce qu'il ne nécessite pas la création d'une liste de toutes les unités incluses dans une population.

1.6 Échantillonnage à plusieurs phases.

Un échantillonnage à plusieurs phases entraîne la collecte de données de base auprès d'un échantillon d'unités de grande taille et ensuite, pour un sous-échantillon de ces unités, la collecte de données plus détaillées. La forme la plus courante d'échantillonnage à plusieurs phases est l'échantillonnage à deux phases (ou l'échantillonnage double), mais il est également possible d'effectuer un échantillonnage à trois phases ou plus.

L'échantillonnage à plusieurs phases est assez différent de l'échantillonnage à plusieurs degrés, malgré les similarités entre eux sur le plan de leur appellation. Même si l'échantillonnage à plusieurs phases suppose aussi le prélèvement de deux échantillons ou plus, dans son cas, tous les échantillons sont tirés de la même base de sondage et les unités sont structurellement les mêmes à chaque phase. Comme dans le cas de l'échantillonnage à plusieurs degrés, plus l'on utilisera de phases, plus le plan d'échantillonnage et l'estimation deviendront complexes.

L'échantillonnage à plusieurs phases est utile lorsqu'il manque à l'intérieur de la base de sondage des données auxiliaires qui pourraient servir à stratifier la population ou à rejeter à la sélection une partie de la population.

Exemple 8 : Supposons qu'une organisation a besoin d'informations  sur des éleveurs de bétail de la vallée, mais que dans la base de sondage sont énumérés tous les types d'exploitations agricoles : d'élevage de bétail et de production laitière, de grains, de volailles et de fruits et de légumes. Pour compliquer les choses, la base de sondage ne fournit aucune donnée auxiliaire sur les exploitations agricoles qui y sont énumérées.

On pourrait mener une enquête toute simple dont la seule question serait : « Votre exploitation agricole est-elle en partie ou en totalité consacrée à l'élevage du bétail? » Si elle ne comptait qu'une seule question, cette enquête devrait entraîner un faible coût par interview, ce qui, par conséquent, permettrait à l'organisation de prélever un grand échantillon. Une fois le premier échantillon prélevé, on pourrait en extraire un second, plus petit, à partir des éleveurs de bétail et poser à ces derniers des questions plus détaillées. En utilisant cette méthode, l'organisation éviterait de dépenser de l'argent à sonder des unités ne faisant pas partie du champ d'observation (c'est-à-dire les producteurs agricoles autres que les éleveurs de bétail).

On pourrait utiliser l'échantillonnage à plusieurs phases lorsqu'on disposerait d'un budget insuffisant pour recueillir des données auprès de l'échantillon entier ou lorsque recueillir des données auprès de l'échantillon entier imposerait un fardeau excessif aux répondants ou même quand les coûts de collecte pour différentes questions d'une enquête différeraient énormément.

Exemple 9 : On pose aux participants à une enquête sur la santé des questions de fond au sujet de leur régime alimentaire et de leurs habitudes au niveau de la consommation de tabac et d'alcool et de la pratique de l'exercice physique. Cette enquête oblige, en outre, les répondants à se soumettre à certains examens médicaux.

Remplir des questionnaires ou interviewer des participants sont des procédures relativement peu dispendieuses, mais les examens médicaux exigent la supervision et l'aide d'un professionnel ou d'une professionnelle de la santé qualifié(e), de même que l'utilisation d'un laboratoire équipé, ce qui peut dans un cas comme dans l'autre être assez coûteux. La meilleure façon de mener l'enquête susmentionnée consisterait à utiliser une méthode d'échantillonnage à deux phases. À la première phase, on soumettrait aux interviews un échantillon d'une taille appropriée. On prélèverait à partir de cet échantillon un échantillon plus petit. Ce sont les membres de ce second échantillon qui passeraient des examens médicaux.


2 Échantillonnage non probabiliste

La différence entre l'échantillonnage probabiliste et l'échantillonnage non probabiliste tient à une hypothèse de base au sujet de la nature de la population étudiée. Dans le cas de l'échantillonnage probabiliste, chaque unité a une chance égale d'être sélectionnée. Dans celui de l'échantillonnage non probabiliste, on suppose que la distribution des caractéristiques à l'intérieur de la population est égale. C'est ce qui fait que le chercheur croit que n'importe quel échantillon serait représentatif et que les résultats, par conséquent, seront exacts. Pour l'échantillonnage probabiliste, la randomisation est une caractéristique du processus de sélection, plutôt qu'une hypothèse au sujet de la structure de la population.

Dans le cas de l'échantillonnage non probabiliste, puisqu'on choisit arbitrairement des unités, il n'existe aucune façon d'estimer la probabilité pour une unité quelconque d'être incluse dans l'échantillon. Également, comme la méthode en question ne fournit aucunement l'assurance que chaque unité aura une chance d'être incluse dans l'échantillon, on ne peut estimer la variabilité de l'échantillonnage ni identifier le biais possible.

On ne peut mesurer la fiabilité d'un échantillonnage non probabiliste; la seule façon de mesurer la qualité des données en résultant consiste à comparer certains des résultats de l'enquête à l'information dont on dispose au sujet de la population. Encore une fois, rien ne fournit l'assurance que les estimations ne dépasseront pas un niveau acceptable d'erreur. Les statisticiens hésitent à utiliser les méthodes d'échantillonnage non probabiliste, parce qu'il n'existe aucun moyen de mesurer la précision des échantillons en découlant.

Malgré ces inconvénients, les méthodes d'échantillonnage non probabiliste peuvent être utiles lorsqu'on désire des commentaires descriptifs au sujet des échantillons eux-mêmes. Deuxièmement, leur utilisation prend peu de temps tout en étant plus économique et plus pratique. Il existe aussi des domaines, comme la recherche sociale appliquée, où il est impossible ou presque impossible d'effectuer un échantillonnage probabiliste.

L'application de la plupart des méthodes d'échantillonnage non probabiliste exige un certain effort et une certaine organisation, mais d'autres méthodes d'échantillonnage non probabiliste, comme l'échantillonnage de commodité, sont à l'occasion appliquées et n'exigent pas de plan d'action formel.

Voici les types les plus courants des méthodes en question :


2.1 Échantillonnage de commodité ou à l'aveuglette.

On appelle parfois l'échantillonnage de commodité l'échantillonnage à l'aveuglette ou accidentel. Cet échantillonnage n'est pas normalement représentatif de la population cible, parce qu'on ne sélectionne des unités d'échantillonnage dans son cas que si on peut y avoir facilement et commodément accès.

Il arrive que monsieur ou madame Tout-le-monde utilise l'échantillonnage de commodité. Un critique gastronomique, par exemple, peut goûter plusieurs entrées ou plats principaux pour juger de la qualité et de la variété d'un menu. Les reporters des stations de télévision sont, en outre, souvent à la recherche de soi-disant « interviews de gens de la rue » pour déterminer comment la population perçoit un enjeu ou une question. Dans ces deux cas, on choisit l'échantillon au hasard, sans utiliser de méthode d'enquête particulière.

L'avantage évident de la méthode, c'est qu'elle est facile à utiliser, mais la présence de biais annule énormément ce dernier. Même si ses applications utiles sont limitées, la technique peut donner des résultats exacts lorsque la population est homogène.

Un scientifique pourrait, par exemple, utiliser cette méthode pour déterminer si un lac est pollué. En supposant que l'eau du lac est bien mélangée, tout échantillon donnerait de l'information identique. Un scientifique pourrait en toute sécurité puiser de l'eau n'importe où dans le lac, sans se tracasser au sujet de la représentativité de son échantillon.

Parmi les autres exemples d'échantillonnage de commodité, mentionnons :

les 100 premiers clients à entrer dans un grand magasin;

les trois premières personnes qui téléphonent à une station de radio dans le cadre d'un concours qu'elle a organisé.

2.2 Échantillonnage volontaire.

Comme l'expression le laisse entendre, ce type d'échantillonnage intervient lorsque des gens offrent volontairement leurs services pour l'étude dont il est question. Il serait, par exemple, difficile et contraire à l'éthique dans le cadre d'expériences psychologiques ou d'essais de produits pharmaceutiques (de tests de médicaments) de recruter au hasard pour y participer des gens du grand public. En pareils cas, on prélève l'échantillon à partir d'un groupe de volontaires. Il arrive parfois qu'un chercheur offre de l'argent à des gens pour les inciter à participer à son étude. En échange, les volontaires acceptent la possibilité d'avoir à se prêter à des processus longs, exigeants ou quelques fois désagréables.

Le fait d'échantillonner des participants volontaires plutôt que la population en général peut introduire des biais marqués. Souvent, à l'occasion des sondages d'opinion, seuls les gens qui se soucient assez fortement d'une façon ou d'une autre de la question étudiée ont tendance à y répondre. La majorité silencieuse n'y répond généralement pas, ce qui entraîne un important biais sur le plan de la sélection.

Les stations de radio et de télévision ont souvent recours à des sondages par ligne ouverte pour interroger un auditoire ou un public sur ses vues.

Bien souvent, on ne limite ni la fréquence ni le nombre des appels téléphoniques qu'un répondant peut effectuer en pareil cas. Une personne pourrait malheureusement, de ce fait, voter à plusieurs reprises. Il faut aussi noter que les gens qui participent à de tels sondages pourraient avoir des vues différentes de celles des gens qui ne le font pas.


2.3 Échantillonnage au jugé.

On utilise la méthode d'échantillonnage au jugé lorsqu'on prélève un échantillon en se fondant sur certains jugements au sujet de l'ensemble de la population. L'hypothèse qui sous-tend son utilisation est que l'enquêteur sélectionnera des unités qui seront caractéristiques de la population. La question cruciale dans ce cas est l'objectivité : Dans quelle mesure peut-on se fier à son jugement pour en arriver à un échantillon typique? L'échantillonnage au jugé est exposé aux préjugés du chercheur et est peut-être encore davantage biaisé que l'échantillonnage de commodité ou à l'aveuglette. Étant donné que l'échantillonnage au jugé reflète toutes les idées préconçues que risque d'avoir le chercheur, il peut y avoir introduction de biais importants si ces idées sont inexactes.

Les statisticiens utilisent souvent cette méthode dans le cadre d'études préparatoires comme des tests préalables de questionnaires et des discussions en groupe. Ils préfèrent également avoir recours à cette méthode à l'intérieur du cadre de laboratoires où le choix des sujets des expériences (comme des animaux, des êtres humains et des végétaux) reflète les croyances ou les convictions antérieures de l'enquêteur au sujet de la population.

La réduction du coût et du temps qu'exige l'acquisition de l'échantillon est l'un des avantages de l'échantillonnage au jugé.


2.4 Échantillonnage par quotas

L'échantillonnage par quotas est l'une des formes les plus courantes d'échantillonnage non probabiliste. Il s'effectue jusqu'à ce qu'un nombre précis d'unités (de quotas) pour diverses sous populations ait été sélectionné. Puisqu'il n'existe aucune règle qui régirait la façon dont il faudrait s'y prendre pour remplir ces quotas, l'échantillonnage par quotas est réellement un moyen de satisfaire aux objectifs en matière de taille d'échantillon pour certaines sous populations.

Les quotas peuvent être fondés sur des proportions de la population. Si une population, par exemple, compte 100 hommes et 100 femmes et s'il faut en prélever un échantillon de 20 personnes, il se peut que nous voulions diviser l'échantillon en proportions égales entre les sexes, ce qui donnerait 10 hommes et 10 femmes. On peut penser que l'échantillonnage par quotas est préférable à d'autres formes d'échantillonnage non probabiliste (comme l'échantillonnage au jugé), parce qu'il impose l'inclusion dans l'échantillon de membres de différentes sous populations.

L'échantillonnage par quotas est un peu similaire à l'échantillonnage stratifié parce que dans son cas également les unités semblables sont regroupées. Toutefois, il en diffère, cependant, sur le plan du mode de sélection. Dans le cas d'un échantillonnage probabiliste, on sélectionne les unités au hasard, tandis que dans celui d'un échantillonnage par quotas, on laisse habituellement à l'intervieweur le soin de déterminer qui sera échantillonné. Cela peut donner lieu à des biais de sélection. Les responsables d'études de marché utilisent donc souvent l'échantillonnage par quotas (pour des enquêtes ou des sondages téléphoniques, en particulier), plutôt que l'échantillonnage stratifié, parce qu'il est relativement peu coûteux et facile à administrer et a la propriété souhaitable de respecter les proportions de la population. L'échantillonnage par quotas camoufle toutefois des biais pouvant être significatifs.

Comme dans le cas de toutes les autres méthodes d'échantillonnage non probabiliste, il faut supposer pour l'échantillonnage par quotas que les personnes sélectionnées sont semblables à celles qu'on ne sélectionne pas, afin de formuler des inférences au sujet de la population. Des hypothèses aussi audacieuses sont rarement valables.

Exemple 10 : La commission sociale des étudiants de l’UGB veut jauger l'opinion de ces derniers au sujet de la qualité de leurs activités parascolaires. Elle décide d'interroger 100 des 1 000 étudiants de l’UGB en utilisant comme sous population les années d'études (c'est-à-dire les 1, 2, 3, 4, 5 et 6ième  années).

Le tableau ci-dessous fournit le nombre d'étudiants.

 

 

 

 

 

 

 

 

Tableau 1. Nombre d'étudiants inscrits à l’UGB, par année d'études

Année d'études

Nombre d'étudiants

Pourcentage des étudiants

(%)

Quota d'étudiants à l'intérieur de l'échantillon de 100

1

150

15

15

 

2

220

22

22

 

3

160

16

16

 

4

150

15

15

 

5

200

20

20

 

6

120

12

12

 

Total

1 000

100

100

 

 

La commission sociale veut s'assurer que l'échantillon reflète le pourcentage d'étudiants de chacune des années d'études. La formule est la suivante :

Pourcentage d'étudiants en 4ième  année

= (nombre d'étudiants de 4ième  année ÷ nombre total d'étudiants) x 100 %

= (150 ÷ 1 000) x 100

= 15 %

Puisque 15 % des membres de la population de l’UGB sont en 4ième  année, l'échantillon devrait être constitué dans une proportion de 15 % d'étudiants de 4e année. Utilisons, par conséquent, la formule suivante pour calculer le nombre d'étudiants de 4e année qui devrait être inclus dans l'échantillon :

Échantillon d'étudiants de 4ième  année

= (15 % de 100) x 100 = 0,15 x 100 = 15 étudiants

La principale différence entre l'échantillonnage stratifié et l'échantillonnage par quotas tient au fait que le premier entraînerait la sélection des étudiants à l'aide d'une méthode d'échantillonnage probabiliste comme l'échantillonnage aléatoire simple ou l'échantillonnage systématique. On n'utilise pas une telle technique dans le cas de l'échantillonnage par quotas. On pourrait sélectionner les 15 étudiants en choisissant les 15 premiers étudiants de 4ième  année qui entreraient au restau une journée donnée ou en choisissant 15 étudiants dans les deux premières rangées d'une classe en particulier. N'oublions pas que les étudiants qui arrivent en retard ou qui s'assoient dans le fond de la classe peuvent avoir des opinions différentes de celles des étudiants qui arrivent plus tôt ou qui s'assoient en avant lorsqu'ils entrent dans la classe.

Le fait que l'échantillonnage par quotas ne respecte pas l'exigence fondamentale du hasard est le principal argument militant contre son utilisation. Certaines unités peuvent n'avoir aucune chance d'être sélectionnées ou on risque de ne pas connaître leur chance de l'être. L'échantillon peut donc être biaisé.

Il est courant, mais il n'est pas nécessaire, que l'échantillonnage par quotas fasse appel à des procédures de sélection au hasard aux stades de départ, en grande partie de la même façon que le fait l'échantillonnage probabiliste. La première étape de l'échantillonnage à plusieurs degrés, par exemple, consisterait à sélectionner au hasard les régions géographiques. La différence se situe au niveau de la sélection des unités aux stades finals du processus.

Dans le cas de l'échantillonnage à plusieurs degrés, les unités reposent sur des listes à jour pour ce qui est des régions sélectionnées et on sélectionne un échantillon suivant un processus aléatoire. Dans le cas de l'échantillonnage par quotas, on indique à chaque intervieweur combien de répondants devraient être des hommes et combien d'entre eux, des femmes, de même que combien de gens devraient représenter les divers groupes d'âge. On calcule donc les quotas à partir des données dont on dispose pour la population; par conséquent, le sexe, les groupes d'âge ou d'autres variables démographiques sont représentés dans les bonnes proportions à l'intérieur des échantillons. Les intervieweurs peuvent, cependant, ne pas obtenir un échantillon représentatif de répondants dans le cas de chacun des quotas. Supposons, par exemple, qu'une organisation veut trouver de l'information sur les professions des hommes de 20 à 25 ans. Une intervieweuse se rend sur un campus d'université et sélectionne les 50 premiers hommes de 20 à 25 ans qu'elle rencontre par hasard et qui acceptent de participer à l'enquête de son organisation. Toutefois, cet échantillon ne signifie pas que ces 50 hommes sont représentatifs de tous les hommes de 20 à 25 ans.

L'échantillonnage par quotas est généralement moins coûteux que l'échantillonnage aléatoire. Il est également facile à administrer, compte tenu notamment du fait qu'on peut omettre de la procédure les tâches consistant à dresser la liste de la population entière, à sélectionner au hasard l'échantillon et à exercer un suivi auprès des non-répondants. L'échantillonnage par quotas, qui est une méthode d'échantillonnage efficace lorsqu'on a instamment besoin d'informations, peut être effectué indépendamment des bases de sondage qui existent. Il peut être la seule méthode d'échantillonnage appropriée dans bien des cas où il n'existe pas de base de sondage convenable pour la population étudiée.