Échantillonnage

Signaler

Lorsqu’on effectue un grand nombre de simulations d’une expérience à l’aide d’un programme ou d’un tableur, on peut avoir une idée de la probabilité d’un événement ou de la proportion d’une certaine quantité dans une population de grande taille.

I Vocabulaire

Effectuons n fois la même expérience aléatoire. On obtient n résultats. Si les répétitions sont indépendantes, ces n résultats constituent un échantillon de taille n.

On dispose d’une population dans laquelle est présent un caractère avec une proportion p. Lorsque l’on sélectionne un échantillon de cette population, il serait étonnant que le caractère y soit avec la même proportion p. Ce phénomène s’appelle la fluctuation due à l’échantillonnage (ou fluctuation d’échantillonnage).

II Résultats théoriques

À propos de la loi des grands nombres

Simulons n fois une expérience à deux issues : « succès » ou « échec ». Soit f la fréquence d’apparition du succès. Alors, si n est grand, cette fréquence est proche de la probabilité du « succès » lors d’une expérience.

Définition : On appelle intervalle de fluctuation au seuil de 95% correspondant à un échantillon de taille nn un intervalle centré sur pp pour lequel la probabilité que la fréquence observée d'apparition du caractère est au moins égale à 0,95.

Propriété : 

 Lorsque n25n\ge 25 et 0,2p0,80,2\le p \le 0,8, un intervalle de fluctuation au seuil de 95% est donné par : [p-\frac{1}{\sqrt{n}};p+\frac{1}{\sqrt{n}}]

Estimation d’une proportion dans une population.

On dispose d’un échantillon de taille n de l’expérience consistant à tirer une boule dans une urne composée de boules blanches et de boules noires. Alors la fréquence d’apparition d’une boule blanche dans l’échantillon est une estimation de la proportion de boules blanches dans l’urne. Elle est d’autant plus précise que n est grand.

Théorème (Intervalle de fluctuation)

On dispose de N échantillons de taille n (n étant grand) d’une expérience aléatoire à deux issues (« succès » et « échec »). Soit p la probabilité d’une issue (par exemple « succès ») et f la fréquence observée de cette issue dans un échantillon.

Alors il est presque certain que la distance d(p ; f) est inférieure à 1n, c’est-à-dire |pf|1n, ou encore :

chap11_fiche44_i01

f[p1n;p+1n]

f appartient presque certainement au segment hachuré.

Méthode

Simuler une expérience aléatoire

PB_Bac_05294_Mat2_TT_p295-318_C11_Algo_2

Dans l’algorithme ci-contre, la variable n contient la valeur 10 000 et la variable azar contient un nombre aléatoire de [0 ; 1] qui change à chaque passage.


a. Pourquoi cet algorithme simule-t-il le lancer d’une pièce non truquée ?


b. Après avoir lancé l’algorithme, on trouve pile = 4 982 et face = 5 018. Les fréquences liées à ces valeurs sont-elles comprises dans l’intervalle de fluctuation ?

Repère
Conseils

a. Si la pièce est non truquée, la probabilité d’obtenir « pile » est égale à celle d’obtenir « face » : elles sont toutes les deux égales à 12.

b. Utilisez la définition du cours.

solution


a. On exécute 10 000 fois l’opération suivante : si le nombre aléatoire azar est inférieur à 0,5, on ajoute 1 au contenu de la variable pile et, sinon, on ajoute 1 au contenu de la variable face.

À la fin du processus, la variable pile contient le nombre de fois où le nombre azar a été inférieur à 0,5 au cours des 10 000 tentatives, et la variable face contient le nombre de fois où le nombre azar a été supérieur ou égal à 0,5 au cours des 10 000 tentatives.

De cette façon, on simule le nombre de « pile » et le nombre de « face » obtenus au cours de 10 000 lancers.


b. La pièce de monnaie est supposée non truquée. L’intervalle de fluctuation cherché est :

[0,5110000;0,5+110000]=[0,49;0,51].

Comme 498210000=0,4982 et 501810000=0,5018, les deux proportions affichées appartiennent à cet intervalle.