Nuage de points et ajustement affine

Signaler
On représente une série statistique à deux variables par un nuage de points et on cherche une droite passant « le plus près possible » des points du nuage.

XX et YY sont deux variables statistiques numériques dont les valeurs relevées sont respectivement x1,x2,,xnx_1, x_2, \dots, x_n et y1,y2,,yny_1, y_2, \dots, y_n.

I. Nuage de points et point moyen


Définition : Dans le plan muni d’un repère orthogonal, le nuage de points associé à la série statistique est l’ensemble des points Mi(xi;yi)M_i(x_i ; y_i), ii entier entre 11 et nn.

Définition : Le point moyen est G(xˉ;yˉ)G(\bar{x} ; \bar{y}), où xˉ\bar{x} et yˉ\bar{y} sont les moyennes des séries :
xˉ=x1+x2++xnn\bar{x} = \dfrac{x_1 + x_2 + \dots + x_n}{n} et yˉ=y1+y2++ynn\bar{y} = \dfrac{y_1 + y_2 + \dots + y_n}{n}

II. Ajustement affine

Droite de Mayer
On répartit, par abscisses croissantes, les points en deux sous-nuages de même effectif, éventuellement à une unité près ; G1G_1 et G2G_2 sont les points moyens des deux sous-nuages. La droite (G1G2)(G_1 G_2) est appelée droite de Mayer.

Droite de régression de yy en xx ou droite des moindres carrés
La somme des carrés des distances de chaque point du nuage au point de même abscisse de la droite de régression de yy en xx est minimale.

picture-in-text
Cette droite, déterminée par la méthode des moindres carrés, passe par le point moyen GG et a pour équation réduite y=ax+by = ax + b, avec : a=σxyσx2a = \dfrac{\sigma_{xy}}{\sigma_x^2} et b=yˉaxˉb = \bar{y} - a\bar{x}
σxy=1ni=1n(xixˉ)(yiyˉ)\sigma_{xy} = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) et σx=1ni=1nxi2xˉ2\sigma_x = \sqrt{\frac{1}{n} \sum_{i=1}^n x_i^2 - \bar{x}^2}

Application : Si y=ax+by = ax + b est l’équation réduite d’une droite d’ajustement du nuage, on peut faire une estimation de la valeur vv de YY associée à une valeur uu de XX autre que x1,x2,,xnx_1, x_2, \dots, x_n en posant v=au+bv = au + b.

Méthode
Déterminer deux ajustements affines d’une série statistique à deux variables
Le tableau ci-dessous donne l’évolution du nombre de PACS (pacte civil de solidarité), en milliers, conclus en France entre 2004 et 2010.
Tous les résultats numériques seront arrondis au centième.
a. Représenter le nuage de points associé à cette série. Calculer les coordonnées de son point moyen GG et placer GG sur le graphique.
b. Déterminer, à l’aide de la calculatrice, l’équation réduite de la droite de régression DD obtenue par la méthode des moindres carrés et tracer cette droite sur le graphique.
c. Déterminer l’équation réduite de la droite de Mayer DD' et tracer cette droite sur le graphique.
d. Vérifier que les droites DD et DD' passent par GG.

Conseils
c. Déterminez les coordonnées des points moyens de deux sous-nuages.
d. Montrez que les coordonnées de GG, déterminées à la question a., vérifient les équations de DD et de DD'.

Solution :
a. GG a pour coordonnées (3,17;121,45)(3,17 ; 121,45).
b. D’après la calculatrice, DD a pour équation y=27,92x+33,05y = 27,92x + 33,05. Elle est tracée en bleu sur le graphique.
c. On partage le nuage en deux sous-nuages de 3 points chacun ; le premier a pour point moyen G1(1,33;67,53)G_1(1,33 ; 67,53), le deuxième a pour point moyen G2(5;175,37)G_2(5 ; 175,37). La droite de Mayer DD' est (G1G2)(G_1G_2). Elle a pour équation y=29,38x+28,45y = 29,38x + 28,45 ; elle est tracée en rouge sur le graphique.
d. Avec l’équation y=27,92x+33,05y = 27,92x + 33,05, pour x=3,17x = 3,17, on a y=121,55y = 121,55, valeur voisine de l’ordonnée de GG.
Avec l’équation y=29,38x+28,45y = 29,38x + 28,45, pour x=3,17x = 3,17, on a y=121,58y = 121,58, valeur voisine de l’ordonnée de GG.
  • e4c6466e-5273-4f7f-ab18-b8a584ab9d58