SERIES STATISTIQUES A DEUX VARIABLES

 

 

I - NOTATION ET REPRESENTATION DES SERIES STATISTIQUES DOUBLES

 

Dans la partie précédente, nous avons étudié une population selon un seul caractère. Cependant, il est souvent utile de considérer à la fois plusieurs caractères de la population (exemple : taille, poids…)

 

Une série statistique double peut être donnée comme l'énumération d'un certain nombre de résultats. Le tableau 1 donne le poids et la taille d'un groupe d'élèves.

Dans ce tableau figure un numéro, arbitrairement attribué, il permet un repérage des indices i des xi et yi. et peut être utilisé pour la représentation graphique.

 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Taille (cm)

153

158

160

159

155

170

163

153

165

170

158

163

155

152

165

162

152

156

158

167

Poids (kg)

45

45

50

51

53

60

55

48

60

51

52

52

45

49

45

50

45

48

46

49

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

Taille (cm)

172

154

172

150

160

156

160

166

175

165

159

155

151

163

168

156

155

162

175

166

Poids (kg)

60

45

55

45

50

48

60

45

61

45

45

53

45

54

45

42

58

45

51

45

 

Tableau 1 : Poids et taille d'un groupe de 40 élèves

 

Sur une population P, d'effectif N, on étudie simultanément un caractère X qui peut prendre les valeurs ou modalités x1, x2, …, xr et un caractère Y qui peut prendre les valeurs y1, y2, …, ys.

X et Y peuvent être indifféremment des caractères quantitatifs ou qualitatifs. Les xi et les yj désignent les classes des caractères X et Y dans le cas d'une série classée.

On utilise un tableau dit à double entrée ou tableau carré.

Caractère Y

 

Caractère X

y1

y2

 

 

yj

 

 

ys

totaux

x1

n11

n12

 

 

n1j

 

 

n1s

n1.

x2

n21

n22

 

 

 

 

 

 

n2.

 

 

 

 

 

 

 

 

 

 

xi

ni1

ni2

 

 

nij

 

 

nis

ni.

 

 

 

 

 

 

 

 

 

 

xr

nr1

nr2

 

 

nrj

 

 

nrs

nr.

totaux

n.1

n.2

 

 

n.j

 

 

n.s

N

 

Effectifs partiels

On appelle effectif partiel nij du couple (xi ; yj) le nombre d'individus présentant la modalité xi du caractère X et la modalité yj du caractère Y.

 

Distributions marginales

La dernière ligne et la dernière colonne du tableau représentent les distributions marginales (dans la marge), c’est-à-dire la distribution de X sans tenir compte du caractère Y ou celle de Y sans tenir compte de X.

Les distributions marginales peuvent être traitées comme une série simple.

 

·         Effectifs marginaux

La somme des effectifs partiels contenus dans la ligne xi est égal à l’effectif des éléments dont la valeur du caractère X est xi

De la même manière, La somme des effectifs partiels contenus dans la colonne yj est égal à l’effectif des éléments dont la valeur du caractère Y est yj

On les appelle effectifs partiels marginaux.

On les note respectivement :                         et        

 

·      Fréquences marginales

On appelle fréquence fi. marginale de xi le rapport  

où ni . est l'effectif marginal de xi et N l'effectif total.

De même  est la fréquence marginale de yj

 

Exemple : Le dépouillement de la série du tableau 1 donne.

 

       Poids (kg)

 

Taille (cm)

] 40;45]

] 45;50]

] 50;55]

] 55;61]

totaux

]149 ; 155]

6

2

2

 

 

]155 ; 160]

3

5

2

1

11

]160 ; 165]

3

1

3

1

8

]165 ; 170]

3

1

1

1

6

]170 ; 175]

0

0

2

2

4

totaux

15

9

10

6

40

 

Dans un repère orthogonal xOy, on marque les points de coordonnées (xi ; yj). On obtient un graphique appelé "nuage de points".

 

·      Fréquences conditionnelles

On suppose que tous les effectifs marginaux sont différents de zéro.

On appelle fréquence conditionnelle de la valeur xi sachant yj le nombre noté fi/j.

En divisant par N le numérateur et le dénominateur on a :

De même, on définit la fréquence conditionnelle de la valeur yj sachant xi. 

 

Eléments caractéristiques

On définit en particulier les moyennes   et , les variances V(X) et V(Y) et les écart-types s(X) et s(Y).

·      Moyennes arithmétiques

La moyenne de X est     ou       

La moyenne de Y est     ou       

 

·      Variances

La variance de X est        ou       

La variance de Y est      ou       

 

Formules de Koenig : On montre que

       ou       

et de même          ou       

 

·         Covariance

On appelle covariance du couple (X ; Y), et on note cov (X ; Y),la moyenne de

 

On démontre que :   

La covariance joue un rôle analogue à celui de la variance dans le cas d’une série statistique simple.

Si l’on fait X=Y on retrouve la formule de la variance.

 

Changement de variable

Soit le changement de variable défini par : xi = x0 + hx’i  et yi = y0 + ky’j 

La covariance s’écrit :

cov ( X, Y) = hk cov(X', Y')

 

Coefficient de corrélation linéaire

On appelle coefficient de corrélation linéaire de (X ; Y) le nombre réel noté r et égal à

Si on effectue le changement de variable xi = x0 + hx’i  et yi = y0 + ky’j  , on obtient

Le coefficient de corrélation est donc invariant par ce changement de variable.

Propriétés

On montre que : -1 £ r £ 1.

Si X et Y sont indépendants alors r = 0. La réciproque est fausse.

 

 

II - Ajustement linéaire

 

Nous avons étudié, précédemment, des tableaux d'effectifs traduisant l'observation de deux caractères X et Y, quantitatifs ou qualitatifs d'une même population.

Le problème est de savoir si ces deux caractères sont liés ou indépendants. A priori, puisqu'on les étudie ensemble, on soupçonne qu'ils ne sont pas indépendants.

Lorsque les deux variables X et Y sont numériques, on représente chaque individu par le couple (xi, yj) où xi et yj sont respectivement les valeurs des caractères X et Y.

 

Exemple : On considère la série du tableau 2

 

x

0,4

1,2

1,6

2

2,4

2,6

3,2

3,4

3,8

4

4,5

5

y

11

8

19

15

24

28

25

38

39

34

35

48

 

On peut représenter graphiquement ces données.

On constate que les points représentatifs de la série de notes ne sont pas rigoureusement alignés mais qu'ils forment un "nuage de points" relativement allongé.

On peut se demander  si l'on peut déterminer une droite qui résume approximativement l'ensemble de ces points.

La recherche d'une telle droite est un ajustement linéaire.

 

2.1. Définition

 

Pour représenter graphiquement les couples (xi , yj), on marque dans un repère xOy les points de coordonnées (xi , yj). On obtient un graphique appelé nuage de points.

 

Ajuster un ensemble de points consiste à déterminer une courbe C simple "aussi proche que possible" de l'ensemble des points Mij(xi, yj).

 

Ajustement linéaire : C'est le cas où l'on peut prendre pour C une droite. Cette droite est dite droite ajustée à l'ensemble de points.

 

2.2. Ajustement linéaire graphique (ou ajustement à "main levée")

 

Théoriquement, diverses sortes d'ajustement linéaire sont possibles, le plus simple est l'ajustement graphique réalisé par le dessinateur.

Cette méthode consiste à placer une droite D qui semble être la plus proche possible des points, ceux-ci se répartissent à peu près également de part et d'autre de D. On détermine ensuite son équation à l'aide de deux de ses points.

Il est commode d'utiliser une règle transparente comportant des parallèles équidistantes.

Cette méthode donne un résultat approximatif qui dépend de l'opérateur.

 

2.3. Méthode de Mayer  (ou méthode des moyennes discontinues)

 

On appelle point moyen G d'un ensemble de points Mij(xi, yj), le point ayant:

            - pour abscisse la moyenne de xi :             

            - pour ordonnée la moyenne  de yj  :          

On range le points Mij dans l'ordre croissant de leurs abscisses, et on divise la suite obtenue en 2 parties E1 et E2 d'effectifs voisins.

On considère le point moyen G1 de E1, et point moyen G2 de E2. La droite G1G2 est une droite ajustée. On l'appelle droite de Mayer. On montre qu'elle passe par le point moyen G de l'ensemble des points Mij.

On vérifie que la droite Mayer a pour équation : 

Exemple : Représenter le nuage de points du tableau 2 et de tracer la droite ajustée (droite de Mayer)

 

2.4. Méthode des "moyennes mobiles" ou "partielles"

 

Afin d'éliminer les irrégularités que peut présenter la suite de points Mi (xi ; yi) du graphique, on remplace alors chaque valeur de yi par la moyenne de yi et de deux ou trois valeurs voisines.

Exemple : On considère la série du tableau 2

 

x

0,4

1,2

1,6

2

2,4

2,6

3,2

3,4

3,8

4

4,5

5

y

11

8

19

15

24

28

25

38

39

34

35

48

 

Ce tableau devient (Tableau 3) en groupant deux valeurs consécutives par leur moyenne.

 

Tableau 3

x

0,8

1,4

1,8

2,2

2,5

2,9

3,3

3,6

3,9

4,2

4,7

y

9,5

13,5

17

19,5

26

26,5

31,5

38,5

36,5

34,5

41,5

 

On obtient le tableau 4 si l'on prend pour trois valeurs consécutives de x, la valeur centrale et si l'on associe à cette valeur centrale la valeur moyenne des yi associés.

 

Tableau 4

x

1,2

2,4

3,4

4,5

y

12,7

22,3

34

49

 

 

2.5. Méthode des moindres carrés

 

·         Principe de la méthode des moindres carrés

La méthode des moindres carrés présente un caractère plus rigoureux que les précédentes. Elle consiste à rechercher une droite telle que la somme de ses "distance" aux différents points Mij (xi ; yj) soit minimale

 

Cette méthode peut être utilisée à la plupart des séries doubles.

Pour s'assurer que l'ajustement est valide, on calcule le coefficient de corrélation linéaire

 ;       -1 £ r £ 1

Si la valeur absolue de r est voisin de 1, l'ajustement est valide. ( 0,7 < |r| < 1).

 

·         Première droite des moindres carrés

Soit Mij le point de coordonnées (xi ; yj). On appelle distance de Mij parallèlement à Oy à une droite (D) d'équation y = ax + b le nombre

dij = Mij M'ij = | yj - ax + b |.

On démontre que lorsque a et b varient, la somme des carrés des distances est minimale pour             et      

L'équation y = ax + b s'appelle droite d'ajustement (ou d'estimation) de y en x (ou première droite des moindres carrés).

 

 

a - Applications de la méthode des moindres carrés à des données individuelles

 

Droite d'estimation de y en x

La droite d'ajustement a pour équation y* = ax + b.   y* estimée par opposition a y ( y observée).

Les coefficients a e b sont déterminés à partir des formules :

             et             .

On montre que :        

Exemple : Déterminer l'équation de la droite de régression de y en x de la série du tableau 2.

Présentation des calculs

xi

yi

xi2

yi2

xi yi

x1

y1

 

 

 

x2

y2

 

 

 

 

 

 

xn

yn

 

 

 

 

On rappelle que pour le calcul des moyennes et des variances de x et y on utilise les formules:

Les moyennes         et        

Les variances       et        

 

·         Droite d'estimation de x en y.

Le calcul précédent fait jouer un rôle dissymétrique aux variables x et y. Or, rien ne permet de dire si l'une des variables dépend de l'autre. Il est alors aussi logique de recommencer les calculs précédents, mais en inversant les rôles des deux variables.

On définit une droite d'ajustement de x en y d'équation x= a' y + b' avec :

       et         .

Exemple :Reprendre le cas de l'exemple précédent pour déterminer l'équation de la droite d'estimation de x en y.

 

Remarques

Cette deuxième droite d'estimation est différente de la précédente, mais on ne peut dire si elle représente un meilleur ajustement.

Le carré du coefficient de corrélation est égal au produit des pentes

.

Si les deux droites sont identiques, on aurait | r | = 1. Si les droites sont proches, | r | est voisin de 1, ce qui correspond à un ajustement valide. Par contre, si | r | n'est pas très différent de zéro, les deux pentes a et a' sont loin d'être inverses l'une de l'autre, et par conséquent les droites d'ajustement sont sensiblement différentes : les points (xi ; yi) sont loin d'être alignés.

 

b - Applications de la méthode des moindres carrés à des données groupées

Le principe de calcul est le même. Les coefficients a et b sont calculés à partir des expressions

et           

 

Présentation des calculs

Pour calculer les moyennes et , les variances V(X) et V(Y) et la covariance cov(X,Y), on complète le tableau suivant :

 

Y

X

y1

y2

...

yj

...

ys

ni.

xi

ni. xi

ni. xi2

x1

n11

n12

...

n1j

...

n1s

 

 

 

 

 

 

x2

n21

n22

...

...

...

...

 

 

 

 

 

 

 

 

 

 

 

 

xi

ni1

ni2

 

nij

nis

 

 

 

 

 

 

 

 

 

 

 

 

xr

nr1

nr2

nrj

nrs

 

 

 

 

 

 

n.j

 

 

 

 

 

 

N

 

yj

 

 

 

 

 

 

 

 

 

 

 

n.j yj

 

 

 

 

 

 

 

 

 

 

 

n.j yj2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

On remarque que :

Pour la ligne x1,           

et pour le calcul de la covariance :