Éléments De Statistique Estimation Non-paramétrique 1/2

3y ago
30 Views
4 Downloads
487.88 KB
39 Pages
Last View : 12d ago
Last Download : 3m ago
Upload by : Dani Mulvey
Transcription

Éléments de statistiqueEstimation non-paramétrique 1/2Nathalie AkakpoSeptembre 2018Master 2 Probabilités et Finance1/39

Estimation non-paramétrique 1/2Utilisations des fonctions de répartition et de quantile1Fonction de répartition univariée et fonction de quantile2Estimation de la fonction de répartition3Estimation des quantiles4BootstrapRappels sur les intervalles de confianceLimites du modèle gaussien et des approximations gaussiennesIntroduction au bootstrap2/39

Fonction de répartition univariée et fonction dequantile3/39

Fonction de répartition univariée et fonction de quantileCadre : X variable aléatoire à valeurs dans R définie sur l’espace de probabilité(Ω, A, P.)PropriétéLa loi de X est entièrement caractérisée par sa fonction de répartitionFX : t R 7 FX (t) P(X t).Quelques cas particuliers :1PX admet une densité fX par rapport à λ, mesure de Lebesgue sur R2X est à valeurs dans N3X min{Y , c} où Y admet une densité fY par rapport à λ et c Rconstante Illustrations4/39

Fonction de répartition univariée et fonction de quantileDéfinitionOn appelle queue de répartitionF̄X : t R 7 1 FX (t) P(X t).Propriété (moments)Soit p 0. Si X 0 p.s., alorsZ ppt p 1 F̄X (t)dt [0, ].E[X ] 0Plus généralement,E[ X p ] Z pt p 1 P( X t)dt [0, ].0 PreuveRemarque : Lois de type ParetoF̄X (t) t α L(t), α 0où L à variations régulières (i.e. pour tout s 0, L(st)/L(t) 1)t 5/39

Fonction de répartition univariée et fonction de quantilePropriété (caractérisation des fonctions de répartitions univariées)F est la fonction de répartition d’une variable aléatoire à valeurs réelles si etseulement siF est croissante ;F est càdlàg (continue à droite avec limite à gauche en tout point) ;limt F (t) 0 et limt F (t) 1.Propriété-définitionToute fonction de répartition univariée F admet une pseudo-inverse (ouinverse généralisée, ou fonction de quantile)F 1 : p ]0, 1[ 7 inf{t R F (t) p}. Illustrations6/39

Fonction de répartition univariée et fonction de quantilePropriétés de F et F 1Soit F une fonction de répartition univariée, t0 R et p0 ]0, 1[,1Λ(p0 ) : {t R F (t) p0 } est l’intervalle [F 1 (p0 ), [2F 1 est croissante ;3F F 1 (p0 ) p0 , avec égalité si et seulement si p0 F (R)4F (t0 ) p0 si et seulement si t0 F 1 (p0 )5Si U U]0, 1[, alors F 1 (U) a pour fonction de répartition F .6Si X a pour fonction de répartition F , et F continue, alors F (X ) U]0, 1[.Remarque : 5 s’appelle ”transformation par quantile”, utile en simulation dev.a. et dans de nombreuses preuves de proba-stat (voir applications à suivre,voir aussi Théorème de Sklar et copule pour la fonction de répartitionmultivariée) . Illustrations7/39

Estimation de la fonction de répartition8/39

Estimation de la fonction de répartitionCadre et notations : On observe X1 , . . . , Xn i.i.d., à valeurs réelles, de fonctionde répartition F . On note Xn (X1 , . . . , Xn ) et xn (x1 , . . . , xn ) Rn (uneréalisation possible de Xn ).DéfinitionOn appelle fonction de répartition empirique la fonction aléatoireF̂Xn : t R 7 n1X1IX t .n i 1 iRemarque : Dans la suite, F̂n désignera, selon le contexte, la fonction aléatoireF̂Xn ou son estimation F̂xn .DéfinitionOn appelle statistiques d’ordre (ou réarrangement croissant) de l’échantillonXn les variables aléatoires X1:n , . . . , Xn:n telles que, pour tout ω Ω,{X1:n (ω), . . . , Xn:n (ω)} {X1 (ω), . . . , Xn (ω)}X1:n (ω) . . . Xn:n (ω). Représentation graphique de F̂n9/39

Estimation de la fonction de répartitionPropriétés ponctuelles de F̂nPour tout réel t,1nF̂n (t) B(n, F (t));2E[F̂n (t)] F (t);3F̂n (t) F (t);n Ln F̂n (t) F (t) N (0, F (t)(1 F (t))) .4p.s.n Preuve10/39

Estimation de la fonction de répartitionPropriétés fonctionnelles de F̂n1p.s. F̂n F supt R F̂n (t) F (t) 0 (Glivenko-Cantelli)n 2 Ln F̂n F W0 , où W0 est le supremum d’un pont Brownienn (loi de Kolmogorov-Smirnov)3(Inégalité de Dworetzki-Kiefer-Wolfowitz-Massart) Pour tout n N? , pourtout x 0, P( n F̂n F x) 2 exp( 2x 2 ).4(Distance de Kolmogorov-Smirnov) Pour tout n N? , F̂n F a lamême loi que Ĝn G où G fonction de répartition de la loi U]0, 1[ etĜn fonction de répartition empirique d’un échantillon de la loi U]0, 1[. Applications en statistique : bandes de confiance pour F , testsd’adéquation11/39

Estimation de la fonction de répartitionD’autres distances usuelles entre lois de probabilité basées sur les fonctions derépartition ou de quantile :Cramér-von Mises (voir [Thas, 2010]) adéquationAnderson-Darling (voir [Thas, 2010]) adéquationdistance de Wasserstein d’ordre p (ou distance de Mallows)(voir [Shao, 2005], exercices 5.1 à 5.4 ;[Levina and Bickel, 2001, Bickel and Freedman, 1981]) adéquation, apprentissage (GAN, distributional reinforcement learning,.)12/39

Estimation des quantiles13/39

Estimation des quantilesDéifinition-NotationSoit α ]0, 1[, on appelle quantile d’ordre α de la fonction de répartition Fqα : F 1 (α) inf{t R F (t) α}.En particulier :α 1/2 : : médianeα {1/4, 2/4, 3/4} : quartilesα {i/10, i 1, . . . , 9} : décilesα {i/100, i 1, . . . , 99} : centiles Application : paramètres de position et de dispersion robustes14/39

Estimation des quantilesModèle statistique : On observe Xn (X1 , . . . , Xn ) échantillon de fonction derépartition F continue sur R inconnue.DéfinitionSoit α ]0, 1[, on appelle quantile empirique d’ordre α de l’échantillonXn (X1 , . . . , Xn )q̂α,n : F̂n 1 (α) inf{t R F̂n (t) α}.Propositionq̂α,n : Xdnαe:n15/39

Estimation des quantilesThéorème de convergence des quantiles (admis)On suppose que F est continue, strictement croissante sur son support, etadmet une densité f par rapport à la mesure de Lebesgue, f 0 sur sonsupport, alorsPq̂α,n qα ;n Ln(q̂α,n qα ) N 0,n α(1 α)f 2 (qα ) . Application : initialisation de la méthode de NewtonRemarque : Se généralise à la convergence suite de plusieurs quantilesempiriquesRemarque : Ici, α ]0, 1[ fixé ; α αn 1 : quantile extrême (voir coursn ”Mesures de risque”)16/39

Bootstrap17/39

Rappels sur les intervalles de confianceCadre : Xn (X1 , . . . , Xn ) échantillon de loi appartenant à{Pθ , θ Θ}, Θ R.Notation : A(Xn ) fonction mesurable de XnDéfinitionsSoit α ]0, 1[. On appelle intervalle de confiance de niveau (de confiance)1 α tout intervalle aléatoire de la forme [Iˆα (Xn ), Ŝα (Xn )] tel que, pour toutθ Θ, Pθ θ [Iˆα (Xn ), Ŝα (Xn )] 1 α.(1)L’intervalle est de niveau exact α s’il y a égalité dans (3), et conservateursinon.On appelle intervalle de confiance asymptotique de niveau (de confiance)1 α tout intervalle aléatoire de la forme [Iˆα (Xn ), Ŝα (Xn )] tel que, pour toutθ Θ, Pθ θ [Iˆα (Xn ), Ŝα (Xn )] 1 α.(2)n 18/39

Rappels sur les intervalles de confianceFigure 1 – Intervalles de confiance pour la moyenne pour R 50 échantillonsgaussiens N (0, 25) de taille n 1000-1-2Moyenne empirique12µ 0, σ 501020304050Numéro de la simulation19/39

Rappels sur les intervalles de confianceUn critère de performanceDéfinitionOn appelle couverture de l’intervalle de confiance [Iˆ(Xn ), Ŝ(Xn )] la fonction θ Θ 7 Pθ θ [Iˆ(Xn ), Ŝ(Xn )] .(3)Un outil de constructionDéfinitionsOn appelle statistique pivotale (pour θ) toute v.a. Tθ (Xn ) telle que, pour toutθ Θ, la loi de Tθ (Xn ) sous Pθ ne dépend pas de θ.On appelle statistique asymptotiquement pivotale (pour θ) toute v.a.Tθ (Xn ) telle que, pour tout θ Θ, Tθ (Xn ) admet une loi limite sous Pθ qui nedépend pas de θ.Remarque : L’expression d’une statistique pivotale DOIT dépendre de θ. Exemple : Intervalle de confiance pour la moyenne d’un échantillongaussien20/39

Limites du modèle gaussien et des approximations gaussiennesModèle : Xn (X1 , . . . , Xn ) i.i.d., X1 de fonction de répartition F inconnueDonnées : xn (x1 , . . . , xn ) une réalisation de Xn (X1 , . . . , Xn )Objectif : Intervalle de confiance (ou estimation, ou test) pour un paramètrede la loi Fθ θ(F )basé sur un estimateurθ̂n T (Xn ).21/39

Exemple 1 : la moyenneOn suppose VarF (X1 ) .Paramètre : θ θ(F ) EF [X1 ]Estimateur : θ̂n 1nPni 1XiBiais : 0Variance : VarF (θ̂n ) n1 VarF (X1 )Cas paramétrique gaussien : n(θ̂n θ) T (n 1) (Cochran, 1934)σ̂nd’où IC bilatère de niveau exactement 1 α : σ̂nσ̂nIC1 α θ̂n tn 1;1 α/2 ; θ̂n tn 1;1 α/2 nnEt sinon ?22/39

Exemple 1 : la moyenne (suite)Cas non gaussien :IC1 α σ̂nσ̂n ; θ̂n tn 1;1 α/2 θ̂n tn 1;1 α/2nnapproximativement de niveau 1 α pour nJustification : n(θ̂n θ) L N (0, 1)n σ̂nsuffisamment grand(TCL, 1809, et Slutsky, 1925)d’où IC bilatère de niveau asymptotique 1 α : σ̂nσ̂nθ̂n z1 α/2 ; θ̂n z1 α/2 nnet tn 1,1 α/2 z1 α/2 pour nsuffisamment grand23/39

Exemple 2 : la variance On suppose EF X14 .Paramètre : θ θ(F ) VarF [X1 ] σ 2Estimateur : θ̂n 1n 1Pni 1 (Xi X̄n )2 σ̂n2Biais : 0Variance :VarF (θ̂n ) 1n h i n 3 2EF X14 θn 1Cas paramétrique gaussien :(n 1)θ̂n χ2 (n 1) (Cochran, 1934)θd’où IC bilatère de niveau exactement 1 α : (n 1)(n 1)IC1 α θ̂n ;θ̂nkn 1,1 α/2kn 1,α/2Et sinon ?24/39

Exemple 2 : la variance (suite)Paramètre : θ VarF [X1 ] σ 2Estimateur : θ̂n 1n 1Pni 1 (Xi X̄n )2 σ̂n2Cas paramétrique gaussien : approximation asymptotique # "(n 1)11pp θ̂n ;θ̂n θ̂n ;θ̂nkn 1,1 α/2kn 1,α/21 z1 α/2 / n/21 z1 α/2 / n/2 IC1 αnθ̂n L Ȳn 1 où Yi i.i.d. χ2 (1)θ! θ̂nL 1 n(Ȳn 1) N (0, 2)n θ(n 1)Cas non gaussien : approximation asymptotique! θ̂nLn 1 N (0, 2 β)n θoù β coefficient d’asymétrie inconnuConclusion : Même asymptotiquement, dès que β 0, IC1 α n’atteint jamaisle bon niveau.Solution possible : estimer β (moment centré d’ordre 4)25/39

Exemple 3 : les quantilesp ]0, 1[ fixé (p 1/2 : médiane ; p 1/4 : 1er quartile ; p 3/4 : 3e quartile)Paramètre : θ(F ) inf{t R t.q. F (t) p} : F 1 (p)Estimateur : θ̂n F̂n 1 (p) X(dnpe) (stat. d’ordre)Fonction de répartition de θ̂n : Gn (t) 1 P (B(n, F (t)) dnpe 1)Biais : ?Variance : ?Loi asymptotique : Sous conditions et si F de densité f telle que f (θ) 6 0,alors p(1 p)Ln(θ̂n θ) N 0,n f 2 (θ)Solution ? Estimer f (θ) par fˆ(θ̂)Mauvaise idée ! ( fˆ converge lentement )26/39

Bootstrap (Efron, 1979)Littéralement : Tirant de botteExpression anglaise : To pull oneself up by one’s bootstraps(se débrouiller avec ce qu’on a)27/39

Problème : la loi de θ̂n T (Xn ) dépend de paramètres inconnusSolution : estimer la loi de θ̂n !Solution idéale :Pour b 1, . . . , B :on observe xbn (x1b , . . . , xnb ) réalisation de Xn (X1 , . . . , Xn )on calcule les réalisations θ̂nb T (xbn ) (θ̂n1 , . . . , θ̂nB ) échantillon de θ̂n estimation de la loi de θ̂n : f.r. empirique Ĝn,B de (θ̂n1 , . . . , θ̂nB ), i.e.Ĝn,B : t R 7 B1 X1Iθ̂b t .nBb 128/39

Problème : Un seul jeu de données xn (x1 , . . . , xn ) !Une seule réalisation de θ̂n : T (xn ) !Solution bootstrap :À partir de xn , créer B pseudo-jeux de données de taille n :xn ?,1 (x1 ?,1 , . . . , xn ?,1 ) θ̂n ?,1 T (xn ?,1 )xn ?,2 (x1 ?,1 , . . . , xn ?,2 ) θ̂n ?,2 T (xn ?,2 ).xn ?,b (xb ?,b , . . . , xn ?,b ) θ̂n ?,b T (xn ?,b ).xn ?,B (x1 ?,B , . . . , xn ?,B ) θ̂n ?,B T (xn ?,B ) C’est une technique de rééchantillonnage (resampling).29/39

Construction d’un jeu de données bootstrap x?n (x1? , . . . , xn? )Données : xn (x1 , . . . , xn )Réarrangement croissant : x(.) (x(1) , . . . , x(n) )Loi empirique associée :F̂n : t R 7 nn1X1X1Ixi t 1Ix t .n i 1n i 1 (i)Construction de x?n : tirer les xi? , i 1, . . . , n, indépendamment avec remisedans {x1 , . . . , xn } selon la loi F̂n30/39

Construction d’un jeu de données bootstrap x?n (x1? , . . . , xn? )Cas où les (xi ) sont 2 à 2 distinctesLoi empirique associée :F̂n (x(j) ) ]{i 1, . . . , n xi x(j) }j nnExemple : n 4, x4 (8, 3, 1, 7), x(.) (1, 3, 7, 8)1.0Figure 2 – Loi empirique associée à x4 (8, 3, 1, 7)0.8 Fn(t)0.6 0.4 0.00.2 0246810tLoi empirique U {1, 3, 7, 8}, d’où 44 tirages possibles équiprobables pour x?4 :(1, 3, 7, 8), (1, 3, 8, 7), (1, 1, 7, 8), . . . , (8, 8, 8, 8)31/39

Construction d’un jeu de données bootstrap x?n (x1? , . . . , xn? )Cas où les (xi ) ne sont pas 2 à 2 distinctesLoi empirique associée : F̂n (x(j) ) Exemple : n 4, x4 (8, 3, 3, 1)]{i 1,.,n xi x(j) }6 njn1.0Figure 3 – Loi empirique associée à x4 (8, 3, 3, 1)0.8 0.4Fn(t)0.6 0.00.2 2024681012tIssueProba1F̂n (3) F̂n (1) 1/43F̂n (8) F̂n (3) 1/281 F̂n (3) 1/432/39

Algorithme bootstrapEntrées : xn (x1 , . . . , xn ) (données) θ̂n (xn ) (réalisation de θ̂n ) B (nombre de jeux de données bootstrap)12Déterminer la loi empirique F̂n associée à xn (pas d’ex-aequo F̂n loiuniforme sur {x1 , . . . , xn })Pour b 1, . . . , B :créer x?,bn , jeu de données bootstrap de taille n (n tirages indépendants avecremise dans {x1 , . . . , xn } selon la loi F̂n )calculer θ̂n?,b T (x?,bn )3Estimer :le biais bθ (θ̂n ) Eθ [θ̂n ] θ parB1 X ?,bθ̂ θ̂n (xn )B b 1 nou la variance de θ̂n par la variance empirique de (θ̂n?,1 , . . . , θ̂n?,B )ou la loi de θ̂n par la f.r. empirique de (θ̂n?,1 , . . . , θ̂n?,B )ou la loi de θ̂n θ par la f.r. empirique de (θ̂n?,1 θ̂n (xn ), . . . , θ̂n?,B θ̂n (xn )).33/39

Remarque 1 : Bootstrap paramétriqueModèle paramétrique (fiable) : X1 , . . . , Xn i.i.d. de loi {Pλ , λ Λ} oùΛ RdExemple : X1 , . . . , Xn i.i.d. de loi Γ(p, 1/σ), p 0, σ 0On peut :Estimer p et σ, d’où p̂ et σ̂Tirer x?n selon Γ(p̂, 1/σ̂) au lieu de F̂n34/39

IC bilatères et bootstrapBootstrapgaussienRappel : Estimation de la moyenne (cas gaussien)θ̂n θL N (0, 1)σ̂n / n n où σ̂n / n estime l’écart-type de θ̂nIdée :θ̂n θ L N (0, 1) pour n grandbsd BOOTb BOOT écart-type empirique de θ̂n?,1 , . . . , θ̂n?,B .où sdIntervalle de confiance de niveau (souhaité) 1 α :hib BOOT ; θbn z1 α/2 sdb BOOT .I g (n, α, x) θ̂n z1 α/2 sd35/39

BootstrappercentileRappel : Estimation de la moyenne (cas gaussien)F̂n N (θ̂, σ̂n2 )θ̂n N (θ, σ 2 /n)θ̂n?,b réalisation de N (θ̂, σ̂n2 /n) σ̂nσ̂nIC1 α θ̂n z1 α/2 ; θ̂n z1 α/2 nnoùσ̂nθ̂n z1 α/2 quantile d’ordre 1 α/2 de N (θ̂, σ̂n2 /n)nσ̂n quantile d’ordre α/2 de N (θ̂, σ̂n2 /n)θ̂n z1 α/2 nIntervalle de confiance de niveau (souhaité) 1 α :hi? 1? 1I p (n, α, x) Ĝn,B(α/2), Ĝn,B(1 α/2) .?où Ĝn,Bf. r. empirique de l’échantillon bootstrap (θ̂n?,1 , . . . , θ̂n?,B ).36/39

Bootstrap : récapitulatifMonde réelF f.r. de XJeu de données xn i.i.d. FParamètre θEstimateur θ̂nLoi de θ̂nQuantile d’ordre p de θ̂nBiais de θ̂nVariance de θ̂nLoi de θ̂n θMonde bootstrapF̂n f.r. empirique de xn?,BB pseudo-jeux de données x?,1i.i.d. F̂nn , . . . , xnRéalisation θ̂n (xn )Pseudo-B-échantillon (θ̂n?,1 , . . . , θ̂n?,B )Loi empirique de (θ̂n?,1 , . . . , θ̂n?,B )Stat. d’ordre dBpe de (θ̂n?,1 , . . . , θ̂n?,B )PB?,b1 θ̂n (xn )b 1 θ̂nBVariance empirique de (θ̂n?,1 , . . . , θ̂n?,B )F.r. empirique de (θ̂n?,1 θ̂n (xn ), . . . , θ̂n?,B θ̂n (xn ))37/39

Bootstrap :performances et applicationsRésultats théoriques asymptotiques (voir Bibliographie)Étude par simulations (couverture et longueur moyenne des IC bootstrap)Autres applications du bootstrap :testsbootstrap des résidus en régression non-gaussiennebootstrap et approximation de l’erreur de prédiction en régressionbagging (bootstrap aggregation) : moyenne d’estimateurs calculés sur deséchantillons bootstrap en régressionforêts aléatoires.38/39

BibliographieBickel, P. J. and Freedman, D. A. (1981).Some asymptotic theory for the bootstrap.Ann. Statist., 9(6) :1196–1217.Levina, E. and Bickel, P. (2001).The earth mover’s distance is the mallows distance : some insights fromstatistics.In Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEEInternational Conference on, volume 2, pages 251–256. IEEE.Shao, J. (2005).Mathematical statistics : exercises and solutions.Springer, New York.Thas, O. (2010).Comparing distributions.Springer Series in Statistics. Springer, New York.39/39

Rappels sur les intervalles de con ance Limites du mod ele gaussien et des approximations gaussiennes Introduction au bootstrap. 3/39 Fonction de r epartition univari ee et fonction de quantile. 4/39 Fonction de r epartition univari ee et fonction de quantile Cadre : X variable al eatoire a valeurs dans R d e nie sur l’espace de probabilit e (;A;P:) Propri et e La loi de X est enti erement .

Related Documents:

presentation de llinstitut haitien de statistique ’institut haitien de statistique et d’informatique (ihsi) ihsi 50 ans statistique guide la décision

1 1 1 Introduction à la statistique descriptive Les méthodes de la statistique descriptive (statistique déductive) permettent de mener des études à partir de données exhaustives, c'est-à-dire concernant tous les individus de

1 office fédéral de la statistique, indicateurs annuels du compte satellite du tourisme tsa 2017 (première estimation) 2 office fédéral de la statistique, balance touristique 2018 sources: office fédéral de la statistique, union des transports p

L’une de ses missions est d’établir un rapport annuel sur l’activité de la statistique publique. Ce rapport est remis au Parlement et rendu public. Le présent rapport porte sur 2013, cinquième année d’existence de l’Autorité. Décret n 2009-250 du 3 mars 2009 relatif à l’Autorité de la statistique publique

A- Introduction 9Objectifs de la statistique descriptive (ou exploratoire): résumer, synthétiser l'information contenue dans la série statistique, mettre en évidence ses propriétés.

A spreadsheet template for Three Point Estimation is available together with a Worked Example illustrating how the template is used in practice. Estimation Technique 2 - Base and Contingency Estimation Base and Contingency is an alternative estimation technique to Three Point Estimation. It is less

Introduction The EKF has been applied extensively to the field of non-linear estimation. General applicationareasmaybe divided into state-estimation and machine learning. We further di-vide machine learning into parameter estimation and dual estimation. The framework for these areas are briefly re-viewed next. State-estimation

Fermin Analyse statistique Ch. 1: Introduction 4 / 47. Motivation Données Test Variables Quantitatives Variables Qualitatives Autres Données(data,échantillon) . Représentation graphique : Diagramme en tuyaux d'orgue, . 2 StatistiqueInférentielle: testd'hypothèses,estimation,