Cours Statistique Inférentielle

Consignes de cours

Prérequis

  1. Notations Mathématiques : sommes (discrète $\Sigma$ et intégrale $\int$), racine carré, ...
  2. Statistique descriptive (vu en L1) : moyenne, écart-type, quantile, histogramme

Esprit du cours (en résumé)

Commençons par rappeler que ce cours a été spécifiquement construit pour un public d'étudiants dit "non matheux". Voilà quelques points spécifiques qui le caractérisent :
  1. Cours de langue : Bizarrement, nous demandons aux étudiants de concevoir dans un premier temps ce cours plus comme un cours de langue plutôt qu'un cours basé sur des techniques mathématiques. Il est toutefois à noter que l'effort demandé n'est pas démesuré car le nombre de mots à apprendre sera très limité (entre 10 et 20 notations mathématiques à assimiler).
  2. Pas (ou très peu) de techniques mathématiques : Dans un second temps, une fois les quelques mots de langage mathématique assimilés, nous pourrons plus facilement décrire et appréhender les concepts mathématiques (en fait, probabiliste et statistique) spécifique au cours dont les aspects techniques ne reposent que sur quelques concepts de base de la Statistique Descriptive (moyenne, quantile, écart-type, histogramme).
  3. Représentations graphiques : Les aspects les plus techniques du cours seront toujours interprétables à partir de représentations graphiques. L'objectif du cours est clairement de comprendre les concepts de cours décrits à partir de ces représentations graphiques.

Rythme du cours

  • Nous commençons par une première séance de td consacré à la présentation des problématiques pratiques du cours
  • Les 3 cours et TD suivants sont consacrés à la présentation de tous les outils de cours. Cela est rendu possible grâce à la visualisation graphique des outils de cours (voir Appli internet sur la page de cours). L'objectif est alors d'avoir le plus rapidement possible une vue globale sur le contenu du cours.
  • Les 6 derniers cours et TD sont alors consacrés à la mise en pratique et ainsi l'assimilation (en douceur) des outils d'estimation et d'aide à la décision. Il est attendu que les étudiants soucieux de maîtriser ces éléments de cours sauront poser toutes questions nécessaires. Il sera bien entendu possible de revisiter les outils uniquement introduits dans les 3 premières semaines de cours.

Attitude (attendue) pour suivre le cours

Il est tout d'abord important de réaliser que les outils introduits dans ce cours sont dans la famille des cours quantitatifs les plus utiles dans de nombreux domaines applicatifs (économie, biologie, psychologie, ...).
  • Nous espérons alors qu'un étudiant (normalement curieux) saura se responsabiliser en consacrant un minimum de temps. Malgré le nombre limité d'heures allouées à ce cours, il est tout de même considéré qu'avec une attitute active en cours et TD, il est possible de maîtriser en fin d'année les outils introduits dans ce cours.
  • Toutefois, nous sommes conscients et nous en avertissons les étudiants que l'une des difficultés de ce cours est bien de suivre les consignes de cours. Il est notamment quasiment impossible de suivre ce cours de manière intermittente car sans investissements constants le risque est de se sentir complètement perdu et ainsi d'avoir une envie irrésistible d'abandonner les efforts.
  • Une attitude devenue courante pour un étudiant ces dernières années consiste à penser que ce cours n'est pas adapté à son niveau. Nous acceptons toutes les critiques en fin d'année de la part d'étudiants soucieux comme nous d'améliorer la démarche pédagogique de ce cours. Les étudiants ne peuvent pas le savoir mais ce cours se nourrit année après année d'interactions de la sorte.

Position du problème

Paramètre d'intérêt INCONNU

Quand on étudie des problématiques tels que :
  1. les intentions de votes pour un candidat "Max" avant un 2ème tour d'élection
  2. la rentabilité d'un produit A ou B avant de le lancer sur le marché
il émerge des quantités d'intérêt (proportion, moyenne, variance, ...), appelées dans ce cours, paramètres d'intérêt qui sont INCONNUS compte tenu de la trop grande taille de la population dont elles dépendent.

Mathématiquement, si $\boldsymbol{\mathcal{Y}^\bullet}=(\mathcal{Y}^\bullet_1,\cdots,\mathcal{Y}^\bullet_N)$ désigne la population ($\bullet$ devant être remplacé par un signe distinctif de la problématique : Max, A ou B), le paramètre d'intérêt est souvent la moyenne : $$ \mu^\bullet=\frac{\mathcal{Y}^\bullet_1+\cdots+\mathcal{Y}^\bullet_N}N=\frac1N\sum_{i=1}^N\mathcal{Y}^\bullet_i=:\overline{\mathcal{Y}^\bullet} $$ Attention : $\mu^\bullet$ ($\mu$ correspondant au "m" grec pour désigner une moyenne) désigne le nom du paramètre d'intérêt quand la "barre au dessus" dans $\overline{\mathcal{Y}^\bullet}$ désigne l'opérateur de moyenne. Notons aussi que dans le cas où la population ne contient que des 0 ou 1, la moyenne devient une proportion et il est alors préférable de la noter $p^\bullet=\mu^\bullet$.

Echantillonnage

Une solution envisageable est alors de construire un échantillon (c-à-d, extraire une partie de la population) et de se contenter de n'avoir qu'un ordre de grandeur de la valeur du paramètre d'intérêt.
  • Dans le cadre du cours, on suppose ne pas connaître de caractéristiques relatives à la population autres que sa taille $N$.
  • Même si alors la notion de représentativité exacte est impossible pour un échantillon, il est souhaitable que l'échantillon ressemble le plus possible à la population (c-à-d, le plus représentatif possible).
  • La construction d'un échantillon par tirage aléatoire avec ou sans remise dans la population est la solution qui garantit que tous les individus de la population ont les mêmes chances d'être choisi dans l'échantillon. La représentativité maximale (sans a priori sur la population) est ainsi garantie.
  • Afin de simplifier les aspects techniques, nous choisissons de ne traiter que l'échantillonnage par tirages aléatoires avec remise. La simplicité découle du fait que tous les tirages sont dans ce cas une même expérience qui est alors répétée autant de fois que nécessaires.
  • Un unique échantillon est (en général) disponible dans une étude réelle. On l'appelle échantillon du jour J et on le note $\mathbf{y}^\bullet=(y_1,\cdots,y_n)$ avec $n$ espéré le plus grand possible bien qu'étant très petit par rapport à $N$.

Estimation

  • A partir de l'échantillon $\mathbf{y}^\bullet$ remplaçant la population INCONNUE $\boldsymbol{\mathcal{Y}}^\bullet$, on peut proposer un "remplaçant" du paramètre d'intérêt (ainsi) INCONNU.
  • On l'appelle officiellement estimation du paramère d'intérêt.
  • Si on reprend l'exemple de la moyenne $\mu^\bullet$, on la note $\widehat{\mu^\bullet}(\mathbf{y^\bullet})$.
    • Le "chapeau" placé sur le paramètre d'intérêt se dit "estimation de".
    • En complément, la dépendance de cette estimation en l'échantillon se fait par l'utilisation des parenthèses (comme pour une fonction mathématique). De manière plus imagée, '$(\cdot)$' se dit "calculé à partir de".
    $\widehat{\mu^\bullet}(\mathbf{y^\bullet})$ se traduit donc "estimation du paramètre d'intérêt calculée à partir de l'échantillon du jour J"
L'obtention de l'expression de $\widehat{\mu^\bullet}(\mathbf{y^\bullet})$ est intuitive : la moyenne de la population est naturellement remplacée par la moyenne de l'échantillon : $$\widehat{\mu^\bullet}(\mathbf{y^\bullet})=\overline{y^\bullet}:=\frac1n\sum_{i=1}^n y_i$$ Notons que cette intuition est possible car le rôle de la moyenne est de ramener à l'unité (en divisant la somme par l'effectif total) et donc de rendre comparable des moyennes de vecteurs (suite de nombres) de taille très différentes.

Nature aléatoire de l'échantillonnage et Variable aléatoire d'intérêt

Afin de satisfaire au critère de représentativité maximale, la contruction de l'échantillon est (purement) aléatoire et ainsi l'estimation qui en dépend est aussi de nature aléatoire. Nous entrons ainsi dans le monde des probabilités.
  • Décrivons l'expérience aléatoire relative à une construction d'échantillon dans une population: cela consiste à faire un tirage aléatoire dans la population.
  • Une manière élégante de formaliser le problème est généralement d'introduire une variable qui décrit le résultat de l'expérience. Choisir un individu dans la population revient à choisir un entier entre 1 et $N$.
  • Soit $I$ un entier choisi au hasard dans $\{1,\cdots,N\}$, le résultat qui nous intéresse est donc $Y^\bullet=\mathcal{Y}^\bullet_I$.
  • $Y^\bullet$ est alors de nature aléatoire car l'indice $I$ l'est aussi. $Y^\bullet$ est appelée variable aléatoire d'intérêt.
  • Pour traduire la nature aléatoire de l'échantillon, nous regroupons les résultats des $n$ mêmes expériences aléatoires dans le vecteur aléatoire $\mathbf{Y}^\bullet=(Y^\bullet_1,\cdots,Y^\bullet_n)$ où $Y^\bullet_i$ est le résultat de la $i^{ème}$ répétition de $Y^\bullet$ que l'on appelle naturellement modèle. Nous n'insisterons pas ici sur la notion de modèle car dans notre cadre d'étude il se résume à une simple variable aléatoire. Il faut toutefois savoir que ce concept est central dans un cours plus avancé tel qu'un cours d'économétrie (voir en L3).
  • L'échantillon $\mathbf{y}^\bullet$ du jour J est donc une réalisation de $\mathbf{Y}^\bullet$ et l'estimation $\widehat{\mu^\bullet}(\mathbf{y}^\bullet)$ est donc une réalisation de $\widehat{\mu^\bullet}(\mathbf{Y}^\bullet)$ qui est donc une variable aléatoire dite échantillonnale car sa nature aléatoire ne résulte que de celle de l'échantillon $\mathbf{Y}^\bullet$.
Pour finir, sauriez-vous établir le lien entre le paramètre d'intérêt (qui dérive directement de la population) et la variable d'intérêt? La solution s'obtient via une Approche Mathématique des Probabilités (A.M.P.) : $\mathbb{E}\left(Y^\bullet\right)=\mu^\bullet$ ? Compte tenu du relativement faible nombre d'heures à disposition dans ce cours, nous ne pouvons apprendre les techniques mathématiques de l'A.M.P. au risque de nous limiter sur un plan méthodologique. Nous est-il cependant possible de comprendre les résultats obtenus via l'A.M.P. et, par exemple, l'interprétation du résultat précédent ($\mathbb{E}\left(Y^\bullet\right)=\mu^\bullet$)? Voici les principaux objectifs de ce cours :
  • de mettre l'accent sur le langage mathématique et non sur les techniques mathématiques
  • de proposer une Approche Expérimentale des Probabilités (A.E.P.), complémentaire à l'A.M.P., puisqu'elle vise à proposer un décodeur de l'A.M.P. afin de comprendre et utiliser les développements des matheux qui nous sont utiles
  • d'aller plus loin sur un plan méthodologique et ainsi traiter de nombreux exemples en s'appuyant sur un langage informatique R
Le meilleur conseil est donc d'appréhender 90% de ce cours comme un cours de langue où par chance le vocabulaire se limite à une vingtaine de mots.

Approche Expérimentale des Probabilités

Introduction

Comme son nom l'indique, l'A.E.P. repose sur l'expérimentation. La démarche consiste alors à répéter $m$ (plutôt très grand) fois l'expérience aléatoire et à étudier les différentes réalisations de la variable aléatoire d'intérêt en utilisant principalement les outils de la Statistique Descriptive (vue en L1).
  • Notons $y^\bullet_{[1]},y^\bullet_{[2]},\cdots,y^\bullet_{[m]}$ ces $m$ réalisations expérimentales. Le signe distinctif introduit spécialement dans ce cours basée sur l'A.E.P. est le $[\cdot]$ en indice qui désigne alors le résultat d'une expérience.
  • Combien d'expériences faut-il faire pour connaître exactement la variabilité de $Y^\bullet$ ? Réponse : le plus grand nombre de fois possible $m=+\infty$. Sur un plan expérimental, on peut prétendre dire que :
    • lorsque $m$ est très grand, $\left(y^\bullet_{[\cdot]}\right)_{m}:=\left(y^\bullet_{[1]},\cdots,y^\bullet_{[m]}\right)$ représentent "presque tous les résultats possibles de $Y^\bullet$"
    • $\left(y^\bullet_{[\cdot]}\right)_{\infty}:=\left(y^\bullet_{[1]},\cdots,y^\bullet_{[m]},\cdots\right)$ représentent "tous les résultats possibles de $Y^\bullet$"
  • Enonçons quelques éléments de décodage entre A.M.P. et A.E.P. :
    • moyenne : $\color{brown}{\mathbb{E}\left(Y^\bullet\right)}=\color{darkcyan}{\overline{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq \overline{\left({y^\bullet_{[\cdot]}}\right)}_{m}}:=\displaystyle \frac1m \sum_{k=1}^m y^\bullet_{[k]}$
    • proportion (ou fréquence) : $\color{brown}{\mathbb{P}\left(Y^\bullet\in E\right)}=\color{darkcyan}{\overline{\left({y^\bullet}_{[\cdot]}\in E\right) }_{\infty}\simeq \overline{\left({y^\bullet}_{[\cdot]}\in E\right) }_{m}}:=\displaystyle \frac1m \sum_{k=1}^m \left(y^\bullet_{[k]}\in E\right)$
    • écart-type : $\color{brown}{\sigma\left(Y^\bullet\right)}=\color{darkcyan}{\overleftrightarrow{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq \overleftrightarrow{\left({y^\bullet_{[\cdot]}}\right)}_{m}}:=\displaystyle \sqrt{\frac1m \sum_{k=1}^m \left(y^\bullet_{[k]} - \overline{\left({y^\bullet_{[\cdot]}}\right)}_{m}\right)^2}$
    • quantile (d'ordre $\alpha$) : $\color{brown}{q_{\alpha}\left(Y^\bullet\right)}=\color{darkcyan}{q_{\alpha}{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq q_{\alpha}{\left({y^\bullet_{[\cdot]}}\right)}_{m}}$
    L'un des intérêts de l'A.E.P. est (à la différence de l'A.M.P.) qu'il est possible de traiter une variable aléatoire de la même façon qu'elle soit discrète ou continue. Grâce à l'A.E.P., nous pouvons interpréter $\mathbb{E}\left(Y^\bullet\right)=\mu^\bullet$ (issu de l'A.M.P.) en disant que "la moyenne de tous les résultats expérimentaux de $Y^\bullet$ est égale au paramètre d'intérêt $\mu^\bullet$".

Variable aléatoire d'intérêt $Y^\bullet$

Protocole expérimental

  • récolte des $m$ résultats expérimentaux : $y^\bullet_{[1]},\cdots,y^\bullet_{[m]}$
    R> ## On lance un dé m=10000 fois
    R> m<-10000
    R> y <- sample(1:6,m,replace=TRUE)
    R> y
        [1] 6 3 3 5 5 4 5 6 4 4 5 3 6 5 5 6 3 4 5 6 1 4 5 2 2 5 2 4 1 4 5 4 3 3 1 2
       [37] 6 1 5 1 1 1 6 2 6 4 6 2 2 6 6 6 6 6 2 4 3 5 6 6 3 5 3 1 3 4 1 1 1 3 4 1
    ...
     [9937] 5 5 6 6 2 4 1 1 3 5 2 1 2 6 6 3 5 1 4 2 3 2 5 3 5 2 6 2 2 5 5 5 5 3 4 4
     [9973] 1 4 4 1 4 1 5 5 1 6 4 6 5 2 1 4 1 4 1 6 4 1 1 1 2 2 5 2
    
    
  • tri par ordre croissant
    R> sort(y)
        [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
       [37] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
    ...
     [9937] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
     [9973] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
    
    
  • quelques résumés
    R> mean(y)
    [1] 3.5138
    R> sd(y)
    [1] 1.715256
    R> summary(y)
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      1.000   2.000   4.000   3.514   5.000   6.000
    
    
  • table des répartitions
    R> ## table des fréquences en pourcentages
    R> table(y)/m*100
    y
        1     2     3     4     5     6 
    16.86 16.04 16.89 16.33 16.83 17.05 
    R> ## les proportions
    R> mean(y==1)*100
    [1] 16.86
    R> mean(y==2)*100
    [1] 16.04
    R> mean(y==6)*100
    [1] 17.05
    
    

Représentation graphique

Pour représenter graphiquement les résultats expérimentaux $y^\bullet_{[1]},\cdots,y^\bullet_{[m]}$ on va construire un $[m]$-mur officiellement appelé $[m]$-histogramme (discret ou continu selon la nature de la variable aléatoire d'intérêt) en suivant les règles suivantes :
  • tous les $m$ résultats expérimentaux sont représentés par des $[m]$-briques de même forme, de même surface $\frac1m$ (c-à-d, surface totale du $[m]$-mur égale à $1=100\%$)
  • les largeurs des $[m]$-briques sont
    • pour variable aléatoire d'intérêt discrète : fixes et indépendantes de $m$ (idéalement le $[m]$-mur sera le plus compact possible ce qui fixe de manière unique cette largeur)
    • pour variable aléatoire d'intérêt continue : de plus en plus petites lorsque le nombre d'expériences $m$ augmente
Les questions à se poser :
  • Quelles sont les formes des $[\infty]$-briques dans les cas de variables d'intérêt discrète et continue ?
  • Que représente l'$[\infty]$-mur (ou $[\infty]$-histogramme) représentant l'empilement de toutes les $[\infty]$-briques ?
  • Si on vous donne la forme d'un $[\infty]$-histogramme, comment feriez-vous pour choisir une nouvelle réalisation de la variable aléatoire d'intérêt $Y^\bullet$ ?

Variable aléatoire clonée $Y^{c,\bullet}$

  • Intuitivement, sauriez-vous anticiper l'$[\infty]$-histogramme associé à la variable aléatoire $Y^{c,\bullet}$ consistant à choisir au hasard une $[\infty]$-brique parmi celles de l'$[\infty]$-histogramme associé à la variable aléatoire d'intérêt $Y^\bullet$ ?
  • Peut-on dire que $Y^\bullet$ et $Y^{c,\bullet}$ ont la même loi de probabilité ?
  • Lorsqu'un mathématicien a réussi par un calcul à identifier de manière explicite la forme du $[\infty]$-histogramme, il lui donne un nom de loi et écrit : $Y^\bullet \leadsto \mathcal{L}_0$.
    • Par exemple, pour l'expérience du dé, $Y^\bullet\leadsto \mathcal{U}(\{1,2,3,4,5,6\})$ (qui se lit "loi uniforme" sur l'ensemble des 6 faces).
    • Si l'on veut prendre un exemple de variable d'intérêt continue, on peut considérer l'exemple du choix au hasard d'un réel compris entre 0 et 1. Dans ce cas, $Y^\bullet\leadsto \mathcal{U}([0,1])$. L'$[\infty]$-histogramme est plutôt appelé densité de probabilité dans l'A.M.P..

Variable aléatoire échantillonnale

Expérience aléatoire consistant à constuire un échantillon

Comme l'objectif de ce cours est d'aider à appréhender les outils usuels de Statistique Inférentielle, nous allons nous concentrer sur l'expérimentation qui nous a amené à considérer l'aléatoire. En effet, pour espérer avoir les meilleures estimations du paramètres d'intérêt (INCONNU), il est requis de satisfaire au critère de représentativité maximale obtenue via la construction d'échantillon avec remise dans la population.

Moyenne échantillonnale $\overline{Y^\bullet}$

Estimation, Qualité d'estimation et Intervalle de Confiance

Estimation de moyenne

  • Estimation de moyenne $\mu^\bullet$ :
    1. le jour J : $\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet}\right)$ (présent),
    2. avant le jour J : $\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)$ (futur)
    3. les possibles du jour J : $\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ (conditionnel)
  • Répartition en $[\infty]$-mur de toutes les estimations $\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ (loi de proba de $\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)$)

Qualités d'estimation

si on veut espérér disposer le jour J d'une estimation la plus précise possible, il vaudrait mieux la choisir (au hasard) dans un $[\infty]$-mur le plus concentré possible autour de $\mu^\bullet$. Bonnes nouvelles, on a :
  1. biais d'estimation mesuré par l'écart entre le paramètre d'intérêt $\mu^\bullet$ et la moyenne $\overline{\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)}_\infty$ de toutes les estimations de l'$[\infty]$-mur est nul,
    c-à-d, l'$[\infty]$-mur des $\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ est centré en $\mu^\bullet$
  2. la qualité d'estimation $\displaystyle \sigma_{\widehat{\mu}^\bullet}:=\overleftrightarrow{\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)}_\infty$ mesurant la dispersion des $\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ est d'autant plus proche de 0 que la taille d'échantillon $n$ est grande
Toutefois, la qualité d'estimation est elle-même (comme le paramètre d'intérêt) un paramètre INCONNU. Fort heureusement, l'A.M.P. établit très simplement (ici mais c'est en général le travail des matheux) une expression de la qualité en fonction de paramètres que l'on sait estimer $$\color{red}{\sigma_{\widehat\mu^\bullet}}:=\frac{\color{red}{\sigma_\bullet}}{\sqrt{n}} \Longleftrightarrow \color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)}:=\frac{\color{blue}{\widehat{\sigma_\bullet}\left(\boldsymbol y^\bullet\right)}}{\sqrt{n}} $$ L'estimation de la qualité a une place aussi importante que l'estimation du paramètre d'intérêt. Pour cette raison, un nom doit lui être donné et $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$ est connu sous le nom d'erreur standard de l'estimation.
En résumé, le jour J, à partir de l'échantillon $\boldsymbol y^\bullet$, on calcule à la fois l'estimation $\widehat{\mu^\bullet}(\boldsymbol y^\bullet)$ et son erreur standard $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$.

Répartition universelle de toutes les estimations de moyenne

lorsque $n$ grand, la forme de l'$[\infty]$-mur de toutes les estimations ne change approximativement pas même si on change la répartition de la variable d'intérêt $Y^\bullet$
  1. Loi de proba de $\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)$ : lorsque $n$ grand ($n\geq 30$), $$\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right):=\overline{Y^\bullet}\mathop{\leadsto}_{approx.} \mathcal{N}(\mu^\bullet,\sigma_{\widehat\mu^\bullet})$$
  2. Lorsque la taille $n$ est vraiment grande, la qualité d'estimation est d'autant meilleure conduisant à une valuer de $\sigma_{\widehat\mu^\bullet}$ petite et donc un $[\infty]$-mur très "grand et mince". Une façon de faire pour ne se préter attention qu'à la forme du $[\infty]$-mur est de le standardisé (le déplacer en 0 puis en changeant l'échelle des abscisses). Intéressons nous alors au $[\infty]$-mur d'écarts standardisés entre estimations et paramètre d'intérêt $$\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{red}{\mu^\bullet}}{\color{red}{\sigma_{\widehat\mu^\bullet}}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$
  3. Ce résultat ne nous est pas très utile en l'état car il dépend de trop de paramètres inconnus. Grâce à l'A.M.P. on peut conserver le résultat ci-dessus en remplaçant la qualité d'estimation INCONNUE par sa future estimation, à savoir, la future erreur standard. En effet, lorsque $n$ est assez grand, $$\delta_{\widehat\mu^\bullet,\mu^\bullet}(\boldsymbol Y^\bullet):=\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{red}{\mu^\bullet}}{\color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol Y^\bullet\right)}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ Par l'A.E.P., on peut donc dire que le $[\infty]$-mur des écarts standardisés $\left(\delta_{\widehat\mu^\bullet,\mu^\bullet}\left(\boldsymbol y_{[\cdot]}\right):= \frac{\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet}_{[\cdot]}\right)-\mu^\bullet}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol{y^\bullet}_{[\cdot]}\right)}\right)_\infty$ est CONNU et ressemble approximativement à celui d'une loi normale centrée réduite.

Estimation par intervalle de confiance

Introduction

  • Quelle confiance accordez-vous à deux estimations obtenues à partir de 2 echantillons de tailles respectives $n=5$ et $n=1000$ ?
  • Plus généralement, quelle confiance doit-on accorder à une estimation $\widehat{\mu^\bullet}\left(\boldsymbol y^\bullet\right)$ le jour J selon son erreur standard $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$ plus ou moins grande.
  • Interprétation des résultats d'un sondage avant le premier tour des élections présidentielles 2002 : votre attitude aurait-elle été influencée si à la place d'une estimation $\widehat{p^J}\left(\boldsymbol y\right)$ (autour de $17\%$) pour le candidat Jospin, on vous avait fourni une "fourchette" $[14.67\%,19.33\%]$. Il paraît que cette information ne nous est pas fourni car les Français ne sauraient pas interpréter ce type de résultats. Qu'en pensez-vous ?

Construction via l'A.M.P.

  • Voici l'ensemble des $[\infty]$-briques associées à toutes les écarts standardisés $\left(\delta_{\widehat\mu^\bullet,\mu^\bullet}\left(\boldsymbol y_{[\cdot]}\right)\right)_\infty$ représentant les écarts entre les estimations et le paramètre d'intérêt INCONNU.
    image
  • Notre objectif est d'écarter une proportion raisonnable d'échantillons $\alpha=5\%$ qui sont les moins fiables.
    Ne gardons alors que les $1-\alpha=95\%$ échantillons dont on a le plus confiance, c-à-d les échantillons dont les écarts standardisés sont entre les 2 barres qui sont placés environ en -2 et 2 :
    image
  • En ne sélectionnant que ces $1-\alpha$ échantillons, on peut alors dire que : $$ 1-\alpha\simeq\mathbb P\left(-{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\leq \delta_{\widehat{\mu^\bullet},\mu^\bullet}(\boldsymbol Y^\bullet) \leq{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\right)\text{ avec }{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\left\{\begin{array}{l}=q_{1-\frac\alpha2}(\mathcal{N}(0,1))\\ \simeq {\color{purple}1.96} \text{ si }{\color{purple}\alpha=5\%}\end{array}\right. $$ $$ 1-\alpha\simeq\mathbb P\left(-{\color{blue}\delta^+_{lim,\frac{\alpha}2}} \leq \frac{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}-\color{red}{\mu^\bullet}}{\color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y\right)}} \leq{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\right) $$ $$ 1-\alpha\simeq \mathbb P \left( \underbrace{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}\!-\!\color{blue}{\delta^+_{lim,\frac{\alpha}2}} \!\times\! \color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y^\bullet\right)}}_{\color{purple}{\widetilde{\mu^\bullet}_{\inf}\left(Y^\bullet\right)}} \!\leq\!{\color{red}{\mu^\bullet}}\!\leq\! \underbrace{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}\!+\!\color{blue}{\delta^+_{lim,\frac{\alpha}2}}\times \color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y^\bullet\right)}}_{\color{purple}{\widetilde{\mu^\bullet}_{\sup}\left(Y^\bullet\right)}} \right) $$
  • En résumé, on peut dire que dans le cas où $n$ assez grand (ici, $n\geq 30$, appelé cadre asymptotique (qui rime avec cadre sympathique), on a :
    l'intervalle à 95\% de confiance $IC_{\mu^\bullet,95\%}\left(\boldsymbol y^\bullet\right)=[\widetilde{\mu^\bullet}_{\inf}\left(y^\bullet\right),\widetilde{\mu^\bullet}_{\sup}\left(y^\bullet\right)]$ du jour J est l'intervalle centrée en l'estimation $\widehat{\mu^\bullet}\left(y^\bullet\right)$ moins ou plus 2 fois l'erreur standard $\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(y^\bullet\right)$
  • En R, on calcule très simplement un intervalle de confiance grâce à un package asymptest (qui permet de simplifier le cours) $$ IC_{\mu^\bullet,95\%}\left(\boldsymbol y^\bullet\right)\mathop{=}^{R} \mathtt{mean(yy) + c(-1,1)* qnorm(0.975) * seMean(yy)} $$ avec $\mathtt{yy}$ désignant l'échantillon de jour J stoké en R.

Interprétation via l'A.E.P.

  • Appliquer la formule d'obtention de l'Intervalle de Confiance ci-dessus le jour J est équivalent à choisir au hasard une $[\infty]$-brique parmi toutes les $[\infty]$-briques associées à tous les écarts standardisés réparties selon une loi normale centrée réduite
    • quand on tombe sur les $95\%$ (approximativement) les plus proches de 0, notre formule nous donne un bon intervalle de confiance dans le sens où il contient le paramètre d'intérêt INCONNU $\mu^\bullet$
    • sinon, quand on tombe sur les autres $5\%$, on obtient un mauvais intervalle de confiance ne contenant pas le paramètre d'intérêt INCONNU $\mu^\bullet$
  • En résumé, le jour J, l'intervalle à $95\%$ confiance $IC_{\mu^\bullet,95\%}\left(\boldsymbol y^\bullet\right)=[\widetilde{\mu^\bullet}_{\inf}\left(y^\bullet\right),\widetilde{\mu^\bullet}_{\sup}\left(y^\bullet\right)]$ est l'un parmi tous ceux $\left(IC_{\mu^\bullet,95\%}\left(\boldsymbol y^\bullet_{[\cdot]}\right)\right)_\infty$ (que l'on aurait pu avoir) dont (approximativement) $95\%$ sont des bons intervalles de confiance qui contiennent le paramètre d'intérêt INCONNU $\mu^\bullet$.
Pour se tester, donner les valeurs des proportions ou probabilités suivantes (à ne pas confondre) :
  1. $\overline{\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet_{[\cdot]}\right)\right)_{\infty}}$
  2. $\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet\right)\right)$
  3. $\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet_{[k]}\right)\right)$
  4. $\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol Y^\bullet\right)\right)$

Tests d'hypothèses comme Outils d'aide à la décision

Introduction

En complément de l'outil d'estimation d'un paramètre d'intérêt par intervalle de confiance, on va s'intéresser à un deuxième outil de base autour de l'aide à la décision, à savoir le test d'hypothèses. Avec une pointe d'humour, on peut dire que ces deux outils sont les "fourchette" et "couteau" de la Statistique Inférentielle.
Appli Internet : Afin d'avoir une compréhension plus active, il est fortement conseillé de parcourrir les étapes du cours suivantes en jouant avec l'appli internet (qui s'ouvre dans un nouvel onglet de votre navigateur). Les consignes d'utilisation seront fournies au fur et à mesure. Voilà une présentation très sommaire des éléments graphiques
  • la scène est divisée en 2 parties séparées verticalement
    1. celle du haut propose les éléments graphiques correspondant au paramètre d'intérêt
    2. celle du bas propose les éléments graphiques correspondant au paramètre d'écart (standardisé) (introduit plus tard)
  • les éléments graphiques sont au choix : des barres verticales, des courbes, double-flèches et des surfaces

Affirmation d'intérêt

Dans le cadre de ce cours, une affirmation d'intérêt s'exprime par la comparaison du paramètre d'intérêt INCONNU , noté à partir de maintenant $\theta^\bullet$ (pouvant être en autres choses, une proportion $p^\bullet$, une moyenne $\mu^\bullet$ et une variance $\sigma^2_\bullet$)
  1. $\boldsymbol{H_1}: \theta^\bullet<\theta_0$ (unilatéral gauche)
  2. $\boldsymbol{H_1}: \theta^\bullet>\theta_0$ (unilatéral droit)
  3. $\boldsymbol{H_1}: \theta^\bullet\neq\theta_0$ (bilatéral)
Appli Internet : Une première mise en route
  • sélectionner le paramètre de moyenne et laisser les paramètres par défaut puis cliquer sur le bouton "Go" correspondant à la problématique du produit B (affirmation d'intérêt : produit B rentable ssi $\mu^B>0.15$)
  • reconnaître les différents éléments et essayer de comprendre le code des couleurs utilisées
  • faire déplacer la barre rouge et essayer de décrire ce que vous voyez et comprenez

Paramètre d'écart

Lorsqu'on s'intéresse aux affirmations d'intérêt précédentes exprimant des compaisons entre le paramètre d'intérêt $\theta^\bullet$ et une valeur de référence $\theta_0$, il est naturel se s'intéresser à toute forme d'écart entre $\theta^\bullet$ et $\theta_0$.
Introduisons alors le paramètre d'écart (standardisé) $\delta_{\theta^\bullet,\theta_0}$ en langage littéral puis mathématique : $$\mathbf{\text{paramètre d'écart}}:=\mathbf{\frac{\text{paramètre d'intérêt - valeur de référence}}{\text{qualité d'estimation}}}$$ $$\delta_{\theta^\bullet,\theta_0}:=\frac {\theta^\bullet-\theta_0}{\sigma_{\widehat\theta^\bullet}}$$ A priori, le rôle du dénominateur (ici le paramètre de qualité d'estimation) joue un rôle plus technique qu'informatif à la différence du numérateur qui mesure l'écart absolu entre $\theta^\bullet$ et $\theta_0$.
Pour le cas particulier d'une proportion, il est même préférable de modifier le dénominateur. $$\delta_{p^\bullet,p_0}:=\frac {p^\bullet-p_0}{\sqrt{\frac{p_0(1-p_0)}n}}$$ Indépendamment de l'expression du paramètre d'écart (standardisé), il est nous est offert la possibilité de réexprimer l'affirmation d'intérêt. Compte tenu de nos choix précédents, on peut réécrire les affirmations d'intérêt comme suit :
  1. $\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}<0$ (unilatéral gauche)
  2. $\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}>0$ (unilatéral droit)
  3. $\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}\neq 0$ (bilatéral)
De la même façon que le paramètre d'intérêt, le paramètre d'écart (standardisé) est INCONNU et estimé le plus naturellement possible en remplaçant dans son expression les paramètres INCONNUS par leurs estimations. Exprimons le paramètre d'écart estimé en langage littéral puis mathématique : $$\mathbf{\text{paramètre d'écart estimé}}:=\mathbf{\frac{\text{estimation - valeur de référence}}{\text{erreur standard}}}$$ $$\widehat\delta_{\theta^\bullet,\theta_0}\left(\boldsymbol y^\bullet\right):=\frac {\widehat\theta^\bullet\left(\boldsymbol y^\bullet\right)-\theta_0}{\widehat{\sigma_{\widehat\theta^\bullet}}\left(\boldsymbol y^\bullet\right)}$$ et dans le cas particulier d'un paramètre de proportion $$\widehat\delta_{p^\bullet,p_0}\left(\boldsymbol y^\bullet\right):=\frac {\widehat p^\bullet\left(\boldsymbol y^\bullet\right)-p_0}{\sqrt{\frac{p_0(1-p_0)}n}}$$ Appli Internet : à partir du menu de boutons en bas de page (Rappel : $\theta=\mu$ pour le produit B)
  • activer l'élément graphique (barre, courbe, flêches) correspondant au paramètre d'écart (standardisé)
  • activer l'élément graphique (barre, courbe, flêches) correspondant à l'ensemble des estimations possibles du paramètre d'écart (standardisé)

Forme de la Règle de décision

Pour aller plus vite et donc ne pas s'éterniser sur des explications pas très informatives, on affirme tout de suite que l'introduction du paramètre d'écart (standardisé) est nécessaire si l'on veut réussir à construire l'outil d'aide à la décision pour tous les types de paramètres que l'on considèrera. La seule information réellement à comprendre est que l'affirmation d'intérêt s'exprime de manière équivalente à la fois avec le paramètre d'intérêt et le paramètre d'écart (standardisé)
Le jour J, il nous faudra décider au vu du jeu de données (l'échantillon $\mathbf{y}^\bullet$) si nous pensons que l'affirmation d'intérêt nous semble plutôt vraie. Insistons en effet sur le fait que puisque le paramètre d'intérêt est INCONNU, il ne sera pas possible d'être certain de la décision prise au vu du jeu de données. La forme de la Règle de Décision s'exprime assez naturellement par :
Accepter l'affirmation d'intérêt si
  1. $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) < \delta^-_{lim}$
  2. $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) > \delta^+_{lim}$
  3. $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) < \delta^-_{lim}$ ou $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) > \delta^+_{lim}$
On aura alors pour OBJECTIF de déterminer les seuils (limites) $\delta^-_{lim}$ et $\delta^+_{lim}$ dans chacun de ces trois cas correspondant respectivement aux tests unilatéral gauche, unilatéral droit et bilatéral.
Appli Internet : à partir du menu de boutons en bas de page (Rappel : $\theta$ doit être remplacé par $\mu$ pour le produit B)
  • activer l'élément graphique (barre, courbe, flêches) correspondant au seuil limite $\delta^+_{lim}$ ($+$ signifie "droite")
  • activer l'élément graphique (barre, courbe, flêches) correspondant à l'ensemble de toutes les estimations possibles du paramètre d'écart (standardisé)
  • à quoi correspond graphiquement l'OBJECTIF décrit ci-dessus ?
  • est-ce possible à cette étape de finaliser la Règle de Décision ?

Erreurs de décision et Risques associés

Ayant pris conscience qu'il n'y a aucune chance de ne pas se tromper en appliquant un tel outil d'aide à la décision, analysons alors tous les scenaris possibles. Pour fixer les idées commençons par traiter l'exemple du test unilatéral droit ($\mathbf{H_1}:\theta^\bullet>\theta_0$). Les autres cas se généralisent dans le même esprit. Apportons alors des réponses aux questions suivantes (en utilisant notamment l'outil graphique fourni à la fin de ce document dans la section "Supports de cours")
  • Erreur de type I: supposons que l'affirmation d'intérêt est fausse (on se place dans une des MAUVAISES situations non $\boldsymbol{H_1}: \theta^\bullet\leq \theta_0$), est-il possible le jour J de tomber sur un échantillon $\mathbf y^\bullet$ nous conduisant à accepter l'affirmation d'intérêt (à savoir, $\widehat{\delta_{\theta^\bullet,\theta_0}}(\mathbf y^\bullet)>\delta^+_{lim}$).
  • Erreur de type II: supposons alternativement que l'affirmation d'intérêt est vraie (on se place dans une des BONNES situations $\boldsymbol{H_1}: \theta^\bullet > \theta_0$), est-il possible le jour J de tomber sur un échantillon $\mathbf y^\bullet$ nous conduisant à NE PAS accepter l'affirmation d'intérêt (à savoir, $\widehat{\delta_{\theta^\bullet,\theta_0}}(\mathbf y^\bullet)\ngtr\delta^+_{lim}$).
  • Pour chacun de ces deux types d'erreur, sauriez-vous évaluer les chances de se tromper dans sa décision ? Si tel est le cas, les probabilités correspondantes seraient appelées risque d'erreur de décision de type I ou II.
Si $\theta$ désigne une valeur possible du paramètre d'intérêt $\theta^\bullet$, on définit
  • fonction puissance : $\gamma(\theta):=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) > \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) > \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$
  • le risque de type I : $\alpha(\theta):=\gamma(\theta)=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) > \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) > \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$ avec $\theta\leq\theta_0$ (c-à-d MAUVAISES situations non $\boldsymbol{H_1}$)
  • le risque de type II : $\beta(\theta):=1-\gamma(\theta)=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) \ngtr \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) \ngtr \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$ avec $\theta>\theta_0$ (c-à-d BONNES situations $\boldsymbol{H_1}$)
Enchaînons alors avec une autre série de petites questions
  • quelle est la plus grande valeur prise par la somme des deux risques de type I et II (autrement dit, $\max_\theta(\alpha(\theta))+\max_\theta(\beta(\theta))$) ?
    (Appli Internet : déplacer la barre correspondant au paramètre d'intérêt et faire afficher tour à tour les plus grands risques de type I et II)
  • peut-on alors construire une Règle de Décision qui permet de controler les DEUX risques de type I et II ?
  • les risques sont-ils plus graves pour les BONNES ou MAUVAISES situations (risques à exprimer littéralement) ?
  • si l'on ne se concentre que sur les risques les plus graves, quelle est la PIRE des MAUVAISES situations ?
  • en se plaçant dans cette PIRE des situations (appelée dorénavant $\boldsymbol H_0: \theta^\bullet=\theta_0$), le risque de type I (le plus GRAVE) est-il maximal ?

Contrôle du risque maximal de mal décider l'affirmation d'intérêt

Ne pouvant contrôler que le risque (le plus GRAVE) de type I, on finalise la construction de la Règle de Décision en se plaçant dans la PIRE des situations $\boldsymbol H_0: \theta^\bullet=\theta_0$ où le risque de type I est maximal.
Dans cette situation $\boldsymbol H_0: \theta^\bullet=\theta_0$, on sait que $$ \widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{\theta^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{\theta_0}}{\color{blue}{\widehat{\sigma_{\widehat\theta^\bullet}}\left(\boldsymbol Y^\bullet\right)}} $$ Pour un paramètre de moyenne ($\theta^\bullet:=\mu^\bullet$), on a alors $$\widehat{\delta_{\mu^\bullet,\mu_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{\mu_0}}{\color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol Y^\bullet\right)}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ Pour un paramètre de proportion ($\theta^\bullet:=p^\bullet$), on a en particulier $$\widehat{\delta_{p^\bullet,p_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{p^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{p_0}}{\color{blue}{\sqrt{\frac{p_0(1-p_0)}{n}}}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ En exercice, vous êtes invité (comme d'habitude) à interpréter via l'A.E.P. en décodant ces résultats obtenus via l'A.M.P..
Avant de finaliser la construction notons $\alpha=\max_\theta(\alpha(\theta))$ le risque maximal de type I
Appli Internet : finalisation de la Règle de Décision
  • faire un peu de nettoyage en n'affichant que les éléments graphiques utiles pour construire la Règle de Décision
  • déplacer enfin le seuil limite $\delta_{lim}^+$ de sorte à avoir un risque $\alpha$ (maximal de type I) raisonnable (autour de 5%)
  • à quelle position (en abscisse) se trouve ce seuil limite (fournir l'instruction R)
  • écrire la Règle de Décision nous assurant un risque maximal de type I (accepter affirmation d'intérêt à tort) fixé à 5%
  • faire afficher les estimations du paramètre d'intérêt et paramètre d'écart (standardisé) et appliquer cette Règle de Décision avec des estimations de moyenne et écart-type fixées à $\widehat{\mu^B}(\boldsymbol y^B)=0.17$ et $\widehat{\sigma_B}(\boldsymbol y^B)=0.35$ (i.e. avec une erreur standard $\widehat{\sigma_{\widehat\mu^B}}(\boldsymbol y^B)=0.35/\sqrt{1000}=0.011$)
  • peut-on penser que le produit B est rentable si l'on est prêt à accepter 5% de risque maximal de type I ?
On comprend que fixer le risque $\alpha$ maximal de type I à 5%, revient à définir une unique Règle de Décision (unique valeur du seuil limite $\delta_{lim}^+\simeq 1.645$). Si l'on change la valeur de $\alpha$, la valeur du seuil limite $\delta_{lim}^+$ est modifiée et dépend donc de $\alpha$.
Dorénavant, le(s) seuil(s) limite sera (seront) noté(s) selon la nature du test
  1. unilatéral gauche : $\delta_{lim,\alpha}^-$
  2. unilatéral droit : $\delta_{lim,\alpha}^+$
  3. bilatéral : $\delta_{lim,\frac\alpha2}^-$ et $\delta_{lim,\frac\alpha2}^+$
pour souligner qu'à un niveau $\alpha$ fixé correspond une unique Règle de Décision.

P-valeur ou Risque pour accepter l'affirmation d'intérêt avec les données

Malgré les apparences, nous n'avons pas tout à fait terminer le travail car il reste à reformuler la Règle de Décision de manière totalement équivalente mais surtout bien plus élégante et donc facile à appliquer.
Ayant compris que lorsqu'on prend une décision avec les données, on accepte un risque $\alpha$ maximal de type I fixé à un certain niveau (généralement 5%), on peut justement se demander quel est le risque (maximal de type I) à choisir (de manière économique) pour accepter l'affirmation d'intérêt avec les données ?
Appli Internet :
  • déplacer la barre verte $\delta_{lim,\alpha}^+$ et changer ainsi le $\alpha$ (risque maximal de type I) afin d'accepter l'affirmation d'intérêt avec le risque maximal de type I fixé à sa plus petite valeur
  • cliquer sur le bouton "p-valeur", afficher le risque $\alpha$ ainsi que le seuil limite et essayer de reformuler la Règle de Décision
En conclusion, la Règle de Décision se reformule de manière plus élégante :
accepter l'affirmation d'intérêt si $p-valeur < \alpha$
avec p-valeur=le (plus petit) risque ($\alpha$ maximal de type I) à encourir pour accepter l'affirmation d'intérêt avec les données

Applications internet

Approche Expérimentale des Probabilités

A.E.P.: l'objectif est d'appréhender
  1. la notion de distribution (ou loi de probabilité) de (transformée $t(Y)$ de) variable aléatoire $Y$ qui consiste en la répartition d'un grand nombre (en théorie, une infinité) de résultats (i.e. observation simulée) possibles
  2. la notion de distribution de variable aléatoire échantillonnale (i.e. statistique) $t(\mathbf{Y})$ obtenue grâce à une expression dépendant d'un (futur) échantillon qui sera expérimentalement répété un grand nombre (voire une infinité) de fois
  3. l'illustration du Théorème de la Limite Centrale (TCL en anglais) qui peut se résumer en l'étude de l'évolution de la distribution de la moyenne échantillonnale (standardisée) lorsque la taille d'échantillon augmente
  4. la notion d'intervalle de confiance
Voici un petit descriptif des principaux éléments de l'outil expérimental pouvant être vu comme un mini-guide d'utilisation :
  1. Choisir une expérience (ici loi de $Y$) et éventuellement une transformation $t(Y)$ ou $t(\mathbf{Y})$ avec choix éventuel de la taille échantillonnale
  2. Choisir d'activer ou pas (bouton vert en haut à droite) le mode expérimental "variable aléatoire clonée" (voir détail du cours) consistant à choisir un point au hasard sous un $[+\infty]-histogramme$ (i.e. densité de probabilité dans le cas de v.a. continue) prédéfini par le choix de l'expérimentation faite à la première étape.
  3. Dans le cas de l'illustration de la notion d'intervalle de confiance, ne pas oublier de fixer le bouton orange script à "ic".
  4. La scène d'en haut représente la répartition d'un certain nombre $m$ d'expériences (via un $[m]$-histogramme) quand la scène d'en bas représente la même répartition de l'accumulation de toutes les expériences générées dynamiquement. A la fin de l'expérimentation (et en supposant que le nombre total $m$ d'expériences réalisées est assez grand), l'histogramme de la scène d'en bas représente "au mieux" la distribution de la variable aléatoire fixée à la première étape.
  5. Pour lancer (ou faire une pause) l'expérimentation, juste appuyer sur le bouton bleu en bas à gauche.
  6. Les boutons verts en bas permettent d'afficher interactivement les différents éléments graphiques

Outil d'aide à la décision

TestHypo: cet outil se concentre sur les différentes étapes permettant l'obtention de la p-valeur qui est LA notion centrale pour l'outil d'aide à la décision. Cet outil a tout d'abord été construit pour assister l'instructeur avec pour objectif de faire une première présentation de la notion de p-valeur (notamment grâce au mode "démo" placé à droite). Le conseil d'utilisation pour un étudiant soucieux de maîtriser les enjeux d'une décision via une p-valeur est d'utiliser cet outil en même temps qu'une (re)lecture du cours permettant ainsi d'illustrer les notions du cours et les différents acteurs mis en jeu dans la construction des outils d'aide à la décision.

Pratiquer le R (en ligne)

Mini R conçu notamment pour tester les exos de cours (sans avoir à installer le R sur son ordinateur qui est cependant fortement conseillé)

Supports

  • Support de TD (en cours d'élaboration):
    1. TD 1 (Présentation Problématique)
    2. TD 2 (Probabilités A.M.P vs A.E.P.)
    3. TD 3 (Estimation par Intervalle de Confiance)
    4. Documents au format pdf: Fiche Td énoncé, corrigé
  • Support de Cours:
    1. Quizz (incomplet mais en cours de développement)
    2. Schema A.E.P. décrivant le décodage entre A.M.P. et A.E.P. . Notons que l'un des objectifs principaux du cours est de savoir représenter chaque concept de ce schéma dans l'Appli internet A.E.P.
    3. Poly Cours pdf
    4. Présentations en amphi
      1. Qualité d'estimation et Estimation par Intervalle de confiance (html) (pdf)
      2. Cours Aide à la décision
    5. En résumé (incomplet puisqu'en cours de développement)
  • Anciens Supports de Cours
    1. Proba : (Cours1)
    2. Estimation : (Cours2) (Cours3)
    3. Outil d'aide à la décision : (Cours4) (Cours5) (Cours6) (Cours7)

    Données au format R

    Les données suivantes sont utilisables par copier-coller dans le R ou le mini-R :
    1. diététicien (n=10): AV <- c(64,67,68,76,72,69,62,65,64,73);AP <- c(65,61,64,69,65,66,60,59,61,68)
    2. diététicien (n=50) : yD <- c(-1, 6, 4, 7, 7, 3, 2, 6, 3, 5, 5, 7, 4, 4, 2, 4, 6, 6, 5, 3, 5, 5, 2, 7, 4, 5, 4, 3, 6, 7, 4, 6, 4, 5, 2, 6, 4, 6, 5, 5, 6, 4, 3, 2, 3, 6, 5, 7, 2, 4)
    3. Alfred (n=20): yA <- c(0.144679564279082, 0.308391019822987, 0.165071844320451, 0.0810088511346089,-0.150489835962709, -0.0216344580330839, -0.255587942544298,0.0987153563164697, 0.592751352277294, -0.229624997435348, -0.216767323099697,-0.0970720818772463, 0.170505292061653, -0.0573236584450232,0.653375135601917, 0.178024688692504, 0.292787345192972, -0.165149721585414,-0.300802214354508, 0.32129751773001)
    4. Alfred : yA <- c(0.144679564279082, 0.308391019822987, 0.165071844320451, 0.0810088511346089,-0.150489835962709, -0.0216344580330839, -0.255587942544298,0.0987153563164697, 0.592751352277294, -0.229624997435348, -0.216767323099697,-0.0970720818772463, 0.170505292061653, -0.0573236584450232,0.653375135601917, 0.178024688692504, 0.292787345192972, -0.165149721585414,-0.300802214354508, 0.32129751773001, 0.0805886239932639, 0.143171545682753,-0.00298066490980145, -0.255637645785468, 0.0928007482527018,-0.153861013155069, -0.091326084306205, 0.296172089667303, 0.00686887343119331,-0.596877687513186, -0.0584200940407693, 0.0720811015026169,0.0175687232410191, 0.153389781110694, -0.44979678290783, 0.213281328016978,-0.0386525306111942, -0.081768580854734, -0.165385713923966,-0.454948636494848, 0.262084533688519, -0.215753300244686, 0.173626814513985,-0.20016068068908, -0.255138748345693, 0.125329351017599, -0.326049545254994,0.207517749735126, 0.0704389198591811, -0.303221493327114)
    5. dictée : yD <- c(9, 10, 0, 1, 0, 5, 6, 10, 8, 1, 13, 9, 8, 3, 0, 0, 1, 0, 0, 0, 6, 9, 6, 8, 3, 5, 11, 5, 0, 0)
    6. produit A: yA <- c(0,0,0,0,0,0,1,0,0,0,1,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,0,1,0,0,1,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,1,0,0,0,0,1,0,0,0,0,1,1,0,1,0,0,1,0,0,0,0,1,0,1,0,1,0,0,0,1,1,0,1,0,1,0,0,0,0,0,0,1,1,0,0,1,0,0,0,0,1,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,1,1,0,0,0,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,1,0,1,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,1,1,0,0,0,0,1,0,1,0,0,0,0,0,1,1,0,0,1,1,1,0,0,1,0,1,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,1,1,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,0,1,1,0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,1,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,1,1,0,1,0,1,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,1,0,1,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,1,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,1,0,0,1,0,1,0,0,1,1,0,1,0,0,0,0,1,0,0,0,0,1,1,0,0,0,1,0,0,0,1,1,0,0,0,1,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,1,1,0,1,0,0,0,1,1,0,1,1,0,0,1,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,1,0,0,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,1,0,0,0,1,1,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,1,1,0,0,0,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,1,0,0,1,0,1,0,0,0,0)
    7. produit B: yB <- c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,2,2,2,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,1,0,0,0,0,0,0,2,0,0,0,0,2,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,2,0,0,2,0,0,2,0,0,0,2,0,2,2,2,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,2,3,0,0,0,0,0,3,0,0,0,0,0,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,3,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,2,0,0,0,0,0,0,0,0,0,0,3,0,1,0,2,0,0,0,0,2,0,1,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,1,0,0,0,0,3,0,0,1,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,2,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,2,0,0,0,0,0,0,2,0,0,0,0,0,2,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,0,0,0,0,0,2,2,0,0,0,0,0,0,0,0,0,0,1,1,0,0,1,0,0,0,0,0,0,0,0,0,2,0,0,0,0,2,0,0,0,0,0,0,0,1,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,1,0,1,0,2,0,0,0,0,0,0,0,0,0,0,2,0,0,0,2,0,3,0,0,0,0,0,1,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,2,0,0,0,0,0,2,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
    8. prime produit A: yQ <- c(9,4,3,7,6,8,2,7,3,9,9,4,8,9,4,8,10,4,9,5,2,7,2,3,2,4,9,6,10,8,5,5,5,5,10,7,4,4,4,4,6,8,2,8,9,5,7,8,6,4,8,6,6,5,3,7,4,5,2,4,6,8,3,9,5,5,9,5,10,5,4,4,4,2,6,8,2,5,10,8,6,9,8,5,7,10,6,8,7,7,7,3,7,8,6,9,6,6,8,7,8,7,8,10,6,8,5,9,4,10,7,9,4,7,4,7,10,4,2,5,7,3,5,8,7,9,6,3,6,2,10,9,10,10,10,4,6,7,9,10,3,10,3,2,9,5,6,9,8,9,7,10,6,5,4,9,5,6,4,2,6,7,5,6,10,8,6,5,9,7,2,2,2,8,9,6,3,8,7,6,3,8,10,2,2,8,9,10,9,8,2,7,7,10,3,3,2,9,7,6)
    9. competence: yC <- c(0.3452062,0.3618771,0.2832608,-0.04273267,0.07897429,-0.5758346,-0.7199432,0.181882,0.04438047,-0.01951828,-0.3482005,0.2606782,-0.211132,-0.288865,-0.1782186,0.08062292,0.5697587,0.2163659,-0.05521338,-0.4348432,-0.08501561,0.05719431,-0.1577344,0.08525453,0.3121257,0.1269254,-0.178035,-0.1786163,-0.4814323,-0.07185419)
    10. pilote 1 (n=20): y1 <- c(47.89674,50.04087,54.5324,54.36718,48.80645,51.44077,49.72669,44.81843,50.3791,48.32037,53.5515,50.38611,50.37899,49.44585,50.47262,50.66881,50.44251,50.10745,47.43873,51.17308)
    11. pilote 1 : y1 <- c(47.89674,50.04087,54.5324,54.36718,48.80645,51.44077,49.72669,44.81843,50.3791,48.32037,53.5515,50.38611,50.37899,49.44585,50.47262,50.66881,50.44251,50.10745,47.43873,51.17308,51.1604,50.06874,48.85899,52.08231,49.59702,52.87073,50.63278,50.04054,53.13216,50.13489,53.72466,50.48863,48.83423,51.93978,49.19886,52.67034,49.2136,48.35678,49.43116,48.95199)
    12. pilote 2 : y2 <- c(51.89371,51.35814,52.16305,51.83228,52.97653,51.43513,50.8937,51.50756,51.54468,52.22917,51.21122,52.96252,51.61797,52.40225,50.21097,51.73468,52.1436,52.57952,51.60721,52.15696,51.51422,53.23509,53.55053,52.62854,51.3968,52.51582,51.7682,53.42508,52.59148,51.55015,53.02435,52.20928,52.13902,52.04843,53.60312,50.48255,51.36794,52.73886,50.4655,51.92149,50.82357,53.11825,52.30076,49.99984,52.47019,51.9189,52.68014,51.25526,53.55974,52.44708)
    13. Bernard (n=20): yB=c(0.02483016,0.09379133,0.145188,-0.04969999,-0.1532143,0.1208757,-0.112933,-0.3452917,-0.007106278,0.1220161,-0.1919765,-0.3684244,0.1882093,-0.1190619,-0.2020528,0.2495189,-0.3013964,0.1123033,0.2164801,0.2393351)
    14. Bernard: yB=c(0.02483016,0.09379133,0.145188,-0.04969999,-0.1532143,0.1208757,-0.112933,-0.3452917,-0.007106278,0.1220161,-0.1919765,-0.3684244,0.1882093,-0.1190619,-0.2020528,0.2495189,-0.3013964,0.1123033,0.2164801,0.2393351,0.1428402,-0.323352,0.04930722,-0.02417904,0.1530558,0.1237836,-0.006933568,-0.06470596,0.1438609,0.02115967,-0.1333253,0.3044679,0.04528947,0.06454683,0.03938363,0.4622106,-0.1950227,-0.009857142,0.08429325,-0.04374064,-0.278324,0.3768047,-0.1410857,-0.01711132,0.04389444,0.07555481,0.2506217,0.3180829,0.005132367,0.0152481,0.2962752,-0.1621414,0.06079287,0.09097692,0.1198565,0.310566,-0.1467855,0.06196827,-0.1821278,-0.1878903)
    15. conduite: yH=c(24,28,29,29,34,36,40,41,60);yF=c(21,31,34,37,38,39,42,43,44,50,51)
    16. adjverbe: sc=c(1.04,0.93,0.75,0.33,1.62,0.76,0.97,1.21,0.8,1.18);litt=c(1.32,2.3,1.98,0.59,1.02,0.88,0.92,1.39,1.95,1.25)
    17. machine: yM1=c(1844,1828,1837,1833,1831,1818,1836,1837,1840,1820,1845,1815,1831,1839,1824,1839,1836,1840,1822,1824,1820,1839,1849,1846,1817,1822,1832,1846,1832,1834,1847,1828,1809,1833,1830,1824,1834,1842,1837,1818,1812,1825,1839,1840,1817,1827,1827,1842,1846,1839,1822,1816,1834,1810,1826,1836,1834,1839,1832,1827,1847,1842,1844,1831,1840,1823,1828,1822,1804,1821,1823,1846,1836,1823,1831,1810,1838,1844,1830,1830,1829,1807,1797,1814,1807,1844,1834,1827,1841,1830,1830,1834,1840,1832,1844,1815,1825,1821,1840,1821);yM2=c(2025,2045,2017,2024,2016,2025,2023,2020,2008,2025,2017,2014,2024,2028,2009,2023,2024,2034,2023,2024,2029,2032,2013,2017,2019,2022,2023,2005,2031,2012,2014,2032,2018,2022,2035,2024,2034,2012,2017,2015,2020,2015,2018,2020,2033,2025,2026,2026,2023,2014)
    18. menu: yAV=c(8,7,6,7,9,7,6,4,7,5,8,7,6,6,6,6,7,5,7,6,7,7,8,5,4,7,6,5,7,6,8,6,7,7,7,8,5,8,5,5);yAP1=c(9,9,9,6,7,7,9,6,8,6,10,11,6,9,8,8,6,10,7,10,6,8,7,8,9,6,9,9,6,7);yAP2=c(8,10,8,8,9,8,9,5,10,6,10,7,7,6,6,7,11,7,12,6,7,7,10,6,7,7,7,5,8,8,10,6,9,8,8,9,5,10,7,8)
    19. notes: yContC=c(16,16,12,16,11,10,15,19,12,14,17,16,12,10,17,16,12,14,11,16,18,20,13,14,9,10,18,7,6,10,17,18,11,17,14,16,12,12,13,13,12,16,11,15,19,14,16,13,17,18);yExamC=c(14,17,15,13,13,13,12,16,13,15,12,14,13,15,17,15,17,13,13,12,15,14,12,13,9,10,16,11,16,13,13,14,13,15,11,16,14,10,8,15,10,12,12,12,15,10,15,9,13,11);yExamD=c(13,13,11,10,13,11,12,11,9,13,10,11,12,14,11,11,10,17,10,7,17,11,9,10,14,11,9,11,10,10,12,11,12,12,10,9,12,12,10,11,8,5,14,9,12,11,11,9,11,11)
    20. chiffre d'affaire (n=20): yP1=c(98.83,96.56,86.08,84.08,93.68,106.74,93.42,104.04,99.24,87.47,117.65,115.26,109.33,92.71,105.48,93.09,106.59,82.92,96.31,87.99);yP2=c(63.89,72.36,88.48,74.28,71.63,82.45,67.42,76.01,74.33,77.81,71.67,72.38,80.33,77.67,67.29,73.98,65.97,76.65,74.02,88.96)
    21. chiffre d'affaire: yP1=c(98.83,96.56,86.08,84.08,93.68,106.74,93.42,104.04,99.24,87.47,117.65,115.26,109.33,92.71,105.48,93.09,106.59,82.92,96.31,87.99,99.77,111.22,106.49,100.8,109.97,96.91,83.39,101.57,100.1,110.07,94.03,114.85,105.3,106.5,88.68,100.94,98.4,101.98,112.11,79.68);yP2=c(63.89,72.36,88.48,74.28,71.63,82.45,67.42,76.01,74.33,77.81,71.67,72.38,80.33,77.67,67.29,73.98,65.97,76.65,74.02,88.96,71.19,81.9,75.03,80.35,86.16,73.15,73.94,63.95,79.94,59.04,67.5,77.15,74.01,77.45,78.13,74.46,96.59,80,78.19,72.97)
    22. chiffre d'affaire 2004-2005 (n=20): y04=c(84.03,95.47,88.89,93.09,87.24,90,86.85,86.61,73.24,73.88,97.2,96.47,85.61,64.47,67.98,78.2,86.76,81.73,74.35,83.55);y05=c(98.83,96.56,86.08,84.08,93.68,106.74,93.42,104.04,99.24,87.47,117.65,115.26,109.33,92.71,105.48,93.09,106.59,82.92,96.31,87.99)
    23. chiffre d'affaire 2004-2005: y04=c(84.03,95.47,88.89,93.09,87.24,90,86.85,86.61,73.24,73.88,97.2,96.47,85.61,64.47,67.98,78.2,86.76,81.73,74.35,83.55,85.15,76.67,87.75,84.52,104.08,72.72,101.8,87.52,86.61,89.96,76.96,95.11,70.88,89.79,87.29,83.36,73.73,79.94,91.97,100.07);y05=c(98.83,96.56,86.08,84.08,93.68,106.74,93.42,104.04,99.24,87.47,117.65,115.26,109.33,92.71,105.48,93.09,106.59,82.92,96.31,87.99,99.77,111.22,106.49,100.8,109.97,96.91,83.39,101.57,100.1,110.07,94.03,114.85,105.3,106.5,88.68,100.94,98.4,101.98,112.11,79.68)