Analyse Des Séries Temporelles 1. Définitions

3y ago
17 Views
2 Downloads
888.08 KB
26 Pages
Last View : 9m ago
Last Download : 3m ago
Upload by : Hayden Brunner
Transcription

Analyse des séries temporellesDidier DelignièresSeptembre 20071. DéfinitionsLes statistiques classiques opèrent le plus souvent par comparaison de moyennes(notamment par Analyse de variance) ou par l’étude des relations entre variables (parl’analyse des corrélations). Le concept d’échantillon est central dans cette approche. Unéchantillon est un ensemble de données collectées sur des « sujets » différents, mais supposésissus d’une même population parente. Ceci signifie qu’au regard de la variable mesurée, lessujets ne diffèrent pas au-delà « d’erreurs » aléatoires (liées par exemple à l’histoire dessujets, à divers facteurs non maîtrisés dans la standardisation expérimentales, à de l’erreur demesure, ect.).En d’autres termes, chaque valeur xi de l’échantillon considéré peut être expriméainsi :xi µ εi(1)µ représentant le « valeur vraie » de la variable mesurée, et εi une variable aléatoirecentrée distribuée normalement. Dans la mesure où la moyenne de εi est nulle, on conçoit quela moyenne théorique de l’échantillon est µ (c’est à dire que la moyenne empirique tend à serapprocher asymptotiquement de µ lorsque l’effectif de l’échantillon augmente). On le voit,les statistiques classiques reposent sur des hypothèses fortes, et la vérification de la normalitéde la distribution des échantillons n’est pas superflue. A noter que dans un échantillon, l’ordredans lequel se présentent les données n’a aucun effet sur les résumés statistiques (moyenne ouécart-type notamment).Les statistiques classiques visent donc à approcher une valeur vraie, supposée stable etpartagée par un ensemble de « sujets », en multipliant les mesures supposées indépendantes.Les statistiques en séries temporelles vont plutôt tenter d’analyser l’évolution dans le tempsd’une variable donnée. Il s’agira donc de mesurer de manière répétée un phénomène. Si lesmesures sont réalisées de manière régulière, on parlera de séries temporelles. Chaque valeurest alors distante de la précédente d’un intervalle de temps constant.Fréquemment cependant les mesures sont réalisées non à l’échéance d’un intervalletemporel fixé à l’avance, mais à l’occurrence d’un événement donné. C’est le cas par exempledans les expérience de tapping, où l’on collecte des séries d’intervalles inter-tappes : lesvaleurs ainsi collectées demeurent ordonnées, mais les valeurs successive ne correspondentplus à des dates absolues définies par une fréquence d’acquisition.Séries temporelles et séries événementielles sont le plus souvent traitéesindifféremment dans la littérature. Ce qui ne va pas sans poser problème, par exemple dansl’application des analyses spectrales (que signifie la fréquence dans une sérieévénementielle ?). Certains travaux ont montré cependant que la construction de sériesévénementielles apportait des informations plus riches sur le système considéré quel’utilisation de séries temporelles (voir Delignières, Torre & Lemoine, 2005 ; Torre,Delignières & Lemoine, 2007).

Il existe deux catégories de modèles pour rendre compte d'une série temporelle. Lespremiers considèrent que les données sont une fonction du tempsyt f(t)(2)On suppose alors un déterminisme temporel strict. On retrouve ce type de modèle dansles équations différentielles ordinaires, par exemple :yt y0 vt(3)Une seconde catégorie de modèles cherche à déterminer chaque valeur de la série enfonction des valeurs qui la précède :yt f(yt-1, yt-2, )(4)Ce type de modèle exploite une fonction itérative. C'est notamment le cas des modèlesARIMA qui seront détaillés dans ce cours. A noter que ces deux types de modèles sontinvertibles. L’équation différentielle (3) peut être exprimée sous forme itérative :yt yt-1 vdt(5)A noter que dans les deux cas ces modèles peuvent inclure des termes stochastiques,soit :yt f(t) εtouyt f(yt-1) εt(6)εt représentant un bruit gaussien de moyenne nulle.L’objectif premier des statistiques en séries temporelles est d’analyser la nature desdépendances temporelles dans les séries, c’est-à-dire la manière dont une valeur est liée auxvaleurs précédemment observées. Un des postulats de base de ces approches est doncl’existence de telles dépendances, qu’il conviendra de caractériser. Une série temporellecomposée de valeurs successives non corrélées (c’est-à-dire un bruit blanc) est considérécomme un cas limite.On peut noter cependant que souvent, on a recours à l'analyse de variance pour traiterles séries de mesures répétées. Or une des assomptions majeures de l'ANOVA est que lesrésidus des différentes mesures ne sont pas auto-corrélés. Ce n'est évidemment pas le cas si laperformance à l'essai t est liée à la performance réalisée à l'essai t-1.2. Rappels statistiquesLes statistiques en séries temporelles empruntent aux statistiques classiques uncertains nombre de procédures dont on peut rappeler les principes essentiels.2.1.Covariance et corrélationSi X1 et X2 sont fortement liées par un lien positif, on pourrait penser définir lacovariance en développant l'idée suivante : Quand X1 prend une valeur positive, alors X2prend vraisemblablement aussi une valeur positive, et vice-versa. Cette idée ne convientpas, car la Covariance doit rester inchangée quand les distributions de probabilité desvariables sont translatées par des quantités arbitraires. Au lieu de mesurer X1 et X2 à partirde 0, nous allons donc les mesurer à partir de références qui se translatent en même tempsque les distributions, par exemple leurs moyennes µ 1 et µ 2, soit :Quand (X1 - µ 1) prend une valeur positive, alors (X2 - µ 2 ) prend vraisemblablementaussi une valeur positive, et vice-versa. Ainsi, si X1 et X2 sont fortement (positivement)

liées, les quantités (X1 - µ 1) et (X2 - µ 2 ) seront le plus souvent simultanément positives, ousimultanément négatives.Le produit (X1 - µ 1)x(X2 - µ 2 ) sera donc alors le plus souvent positif, soit parceque les deux quantités sont positives, soit parce que les deux quantités sont négatives. LaCovariance de X1 et X2. est définie comme l'espérance du produit (X1 - µ 1)x(X2 - µ 2)Cov(X1, X2) E[(X1 - µ 1).(X2 - µ 2)](7)Une faiblesse de la Covariance est qu'elle n'est pas invariante dans un changementd'unités utilisées pour exprimer les valeurs des deux variables X1 et X2. Par exemple, lavaleur de la Covariance de "Taille" et "Poids" d'une population change si les tailles sontexprimées en pouces au lieu de centimètres, ou les poids sont exprimés en "pounds" au lieude kilogrammes, alors que la force du lien entre ces deux grandeurs ne dépend évidemmentpas des unités utilisées pour les exprimer. C’est pourquoi on utilise plus fréquemment, et àfin de comparaison entre situations, le coefficient de corrélation.Supposons que l'unité utilisée pour mesurer X1 soit divisée par 2 (et donc que lesvaleurs de X1 soient multipliées par 2). Alors la covariance Cov(X1, X2) est égalementmultipliée par 2. Mais l'écart-type (racine carrée de la variance) de X1 estégalement multiplié par 2, et donc le rapport :Cov(X1, X2) /(Var(X1))1/2(8)reste inchangé. Le même argument s'applique à X2, et plus généralement, à toutchangement d'unités pour la mesure de X1 et de X2. Donc, en toute généralité, le nombre :(9)ne dépend pas des unités dans lesquelles X1 et X2 sont exprimées.(corrélation maximale positive) à -1 (corrélation maximale négative).ρ varie de 1On utilise couramment une formule plus pratique, dérivée de la précédente:r N xy x y( N x ² ( x )²)( N y ² ( y )²)(10)2.2. Corrélation partielleLa corrélation partielle permet parfois d'éviter de se laisser abuser par certainescorrélations artefactuelles. Par exemple, si l'on calcule les corrélations entre (1) l'intelligence,(2) le poids, et (3) l'âge. On trouve une corrélation r12 .60 entre intelligence et poids. Cettecorrélation doit être rapportée aux deux autres, soit r13 .69, et r23 .88. La corrélation partielleexprime la liaison entre deux variables, en contrôlant l'influence d'une troisième variable:dans ce cas on calcule la liaison entre intelligence et poids, à âge constant.La procédure de corrélation partielle consiste à calculer l'équation de régression de (1)vers (3). Puis on calcule la corrélation entre les résidus de cette régression et (2).

On dispose d'un moyen plus rapide, à condition de pouvoir calculer les corrélationsentre les trois variables:r12 (r13 r23 )r12 3 (11)(1 r13 ²)(1 r23 ²)Dans ce cas la corrélation partielle est de -.02.2.3. RégressionSoit la représentation graphique, en deux dimensions, de la relation entre deuxvariables x et y. Chaque point M est associé à un couple (x,y). On cherche à déterminer unedroite qui représenterait au mieux la relation, qui s'ajusterait au nuage de points. La droiteretenue est celle pour laquelle la somme des carrés des distances verticales de chaque point Mà la droite est minimale.On démontre que cette droite passe par un point de coordonnées (mx,my), et que sonéquation est de la formey ax baveca (12) ( x m )( y m ) ( x m )²xy(13)xetb my - amx(14)On peut développer ces équations pour obtenir des formules de calcul plus pratiques:a b N ( xy ) x y(15)N x ² ( x )² x ² y x xyN x ² ( x )²(16)a et b sont les paramètres de la droite des moindres carrés. La formule y ax bpermet de calculer pour chaque x une valeur théorique de y. L'échantillon des yth-y constitueles résidus de la régression. La droite des moindres carrés est donc la droite qui minimise lasomme des carrés des résidus.Par une transformation logarithmique de X, de Y ou des deux simultanément, on peutreconstituer les ajustements logarithmiques, exponentiel et puissance.Ajustement logarithmiquelog(X) et Yy Alogx BA et B sont ici donnés directement.Ajustement exponentiellog(y) ax b doncX et log(Y)y B*eAxy eax by eb*eaxy B*eaxA a et B ebAjustement puissancelog(X) et log(Y)y BxA

y ea(log(x)) blog(y) a(log(x)) b doncy ea(log(x))*eby eb*xaA a et B ebD'autres fonctions plus complexes peuvent être obtenues par la même méthode. Lechoix du meilleur ajustement se fait ensuite par comparaison des coefficients de corrélation dechaque équation.2.4. Régression multipleLa régression permet de résumer la relation entre deux variables, et donc de prédire unevariables Y en fonction d'une variable X. Mais la prédiction d'une variable donnée peut êtreplus fine si l'on prend en compte plus de variables prédictives. La régression multiple permetde calculer une équation additive de forme:Vp A1V1 A2V2 A3(17)prédisant une variable Vp à partir de deux (ou plus) variables mesurées. L'équation derégression multiple est caractérisée par un coefficient de régression multiple, exprimant laprécision de la prédiction. A noter que les valeurs des coefficients A1 et A2 dépendentévidemment des unités de mesure utilisées pour mesurer V1 et V2. On utilise plususuellement l’équation de régression normalisée :ZVp β1ZV1 β2ZV2(18)Dans cette équation ZVp, ZV1 et ZV2 sont les valeurs centrées réduites.Le calcul des équations de régression multiple est rapidement réalisé par les logicielsde statistique. Il peut être utile cependant de maîtriser les algorithmes de calcul, pourconstruire ses propres routines. Soit une régression multiple comprenant trois prédicteurs :ZVp β1ZV1 β2ZV2 β3ZV3On suppose connues les coefficients de corrélation entre les quatre variables. Il s’agitde résoudre par substitution le système d’équations suivant :r(1,p) β1 r(1,2)β2 r(1,3)β3r(2,p) r(2,1)β1 β2 r(2,3)*β3r(3,p) r(3,1)β1 r(3,2)β2 β3On obtient les solutions suivantes :β1 r(1,p)-r(1,2)* β2-r(1,3)* β3β2 (-r(2,p) (r(2,1)*r(1,p)) β3*(r(2,3)-(r(2,1)*r(1,3))))/ ((r(2,1)*r(1,2))-1)β3 ((-r(3,1)*r(1,p))-(((-r(3,1)*r(1,2)) r(3,2))*(-r(2,p) (r(2,1)*r(1,p)))/((r(2,1)*r(1,2))1)) 2)) r(3,2)))/((r(2,1)*r(1,2))-1)) ((r(3,1)*r(1,3)) 1))Les coefficients pour variables brutes sont calculées ainsi :A1 β1(σVp/σV1)A2 β2(σVp/σV2)

A3 β3(σVp/σV3)Et l’ordonnée à l’origine :A4 mVp – A1mV1 – A2mV2 – A3mV3Pour quatre prédicteurs, on obtient mes solutions suivantes :ZVp β1ZV1 β2ZV2 β3ZV3 β4ZV4β1 : r(1,p)-r(1,2)* β2-r(1,3)* β3-r(1,4)* β4β2 ((r(2,p)-r(2,1)*r(1,p)) (r(2,1)*r(1,3)-r(2,3))* β3 (r(2,1)*r(1,4)-r(2,4))* β4)/(1r(2,1)*r(1,2))β3 ((r(3,p)-r(3,1)*r(1,p)) 2,1)*r(1,2)) -r(2,1)*r(1,2))) (r(3,1)*r(1,4)r(3,4)))* 2,1)*r(1,3)-r(2,3))/(1-r(2,1)*r(1,2)))β4 ((r(4,p)-r(4,1)*r(1,p)) (2,1)*r(1,2))) -r(2,1)*r(1,2))) (r(4,1)*r(1,3)r(4,3)))*((r(3,p)-r(3,1)*r(1,p)) ,1)*r(1,2)-r(4,2))/(1-r(2,1)*r(1,2))) (2,1)*r(1,4)-r(2,4))/(1-r(2,1)*r(1,2))) (1,2))))))Ces équations ne sont fournies ici que pour ceux qui voudraient les utiliser pour intégrationdans des routines de programmation.3. Fonction d’auto-corrélation et fonction n consiste à corréler la série avec elle-même, en introduisant undécalage entre les deux échantillons. L’autocorrélation de décalage 0 est égale à 1, puisque lasérie est corrélée avec elle-même. Puis la corrélation diminue au fur et à mesure que ledécalage s’accroît. On appelle fonction d'auto-corrélation C(τ) la fonction faisantcorrespondre au décalage τ l'auto-corrélation correspondante. Si le signal présente unepériodicité, on retrouve un maximum d’auto-corrélation pour chaque période significative dusignal. Vereijken (1991) utilise ainsi l’auto-corrélation pour déterminer la fréquenced’oscillation du simulateur de ski. Une série temporelle de bruit blanc présente la particularitéde ne présenter que des auto-corrélations nulles, quel que soit le décalage (C(τ) 0).On peut également calculer une fonction d’auto-corrélation partielle. Dans ce cas oncalcule pour chaque décalage la corrélation entre la série et la série décalée, en contrôlantl’influence de tous les décalages intermédiaires.Les logiciels de statistiques fournissent généralement les fonctions d’auto-corrélationet d’auto-corrélation partielle ; Il peut être utile cependant de connaître les algorithme decalcul.Soit r(k) l’auto-corrélation de décalage kSoit rp(k) l’auto-corrélation partielle de décalage k (donc contrôlant tous les décalagesintermédiaires)

rp(1) r(1)rp(2) (r(2) - (r(1)²) / (1 - r(1)²)phi(1, 1) rp(1)phi(2, 2) rp(2)Pour les décalages k supérieurs à 2, et pour des valeurs de j variant de 1 à k-2:phi(k - 1, j) phi(k - 2, j) - (phi(k - 1, k - 1) * phi(k - 2, k - 1 - j))Pour les valeurs de k supérieures à 3rp(k) (r(k) – Σj 1 k-1(phi(k - 1, j) * r(k - j))) / (1 – Σj 1 k-1(phi(k - 1, j) * r(j)))4. Corrélations à court termeLe modèles ARIMA, développés par Box et Jenkins (1976) permettent de modéliserles dépendances à court terme dans les séries. On entend par dépendance à court terme le faitque la valeur actuelle ne soit déterminée que par un ensemble limité de valeurs précédentes.4.1. Processus d’intégrationUne différenciation d'ordre 1 suppose que la différence entre deux valeurs successivesde y est constante.yt – yt-1 µ ε t(19)µ est la constante du modèle, et représente la différence moyenne en y. Un tel modèlepeut être représenté comme un accroissement linéaire en fonction du temps. Si µ est égal à 0,la série est stationnaire.Les modèles d'ordre 2 travaillent non plus sur les différences brutes, mais sur lesdifférences de différence. La seconde différence de y au moment t est égale à (yt -yt-1 ) - (yt-1 yt-2), c'est-à-dire à yt – 2yt-1 yt-2. Un tel modèle obéira à l’équation de prédiction suivante :yt – 2yt-1 yt-2 µ ε t(20)yt µ 2yt-1 - yt-2 ε t(21)ou encore:4.2. Processus auto-régressifsLes modèles auto-régressifs supposent que yt est une fonction linéaire des valeursprécédentes.y t µ φ1y(t-1) φ2y(t-2) φ3y(t-3). εt(22)Littérairement, chaque observation est constituée d'une composante aléatoire (chocaléatoire, ε) et d'une combinaison linéaire des observations précédentes. φ1, φ2 et φ3 dans cetteéquation sont les coefficients d'auto-régressionA noter que cette équation porte soit sur les données brutes, soit sur les donnéesdifférenciées. L’association d’un processus auto-régressif et d’une différenciation donne:yt – yt-1 µ φ(yt-1 – yt-2) εtCe qui peut également être écrit:(23)

yt µ yt-1 φ(yt-1 – yt-2) εt(24)Notez qu'un processus auto-régressif ne sera stable que si les paramètres sont comprisdans un certain intervalle ; par exemple, s'il n'y a qu'un paramètre auto-régressif, il doit setrouver dans l'intervalle -1 φ1 1. Dans les autres cas, les effets passés s'accumuleraient etles valeurs successives des yt se déplaceraient infiniment vers l'avant, ce qui signifie que lasérie ne serait pas stationnaire.4.3. Processus de moyenne mobileLes modèles à moyenne mobile suggèrent que la série présente des fluctuations autourd'une valeur moyenne. On considère alors que la meilleure estimation est représentée par lamoyenne pondérée d'un certain nombre de valeurs antérieures (ce qui est le principe desprocédures de moyennes mobiles utilisées pour le lissage des données). Ceci revient en fait àconsidérer que l’estimation est égale à la moyenne vraie, auquel on ajoute une sommepondérée des erreurs ayant entaché les valeurs précédentes :y t µ -θ1ε(t-1) -θ2ε(t-2) -θ3ε(t-3). ε t.(25)Littérairement, chaque observation est composée d'une composante d'erreur aléatoire(choc aléatoire, ε) et d'une combinaison linéaire des erreurs aléatoires passées. θ1, θ2 et θ3 sontles coefficients de moyenne mobile du modèle.Comme précédemment cette équation porte soit sur les données brutes, soit sur lesdonnées différenciées si une différenciation a été nécessaire. Pour l’association d’unedifférenciation et d’un terme de moyenne mobile on aura :yt – yt-1 µ - θεt-1 ε t(26)Ce qui peut également être écrit:yt µ yt-1 - θεt-1 ε t(27)Un modèle de moyenne mobile correspond à des séries exhibant des fluctuationsaléatoires autour d'une moyenne variant lentement. Plutôt que de prendre commeprécédemment la valeur précédente comme prédicteur, on utilise une moyenne de quelquesobservations précédentes, de manière à éliminer le bruit, et estimer plus précisément lamoyenne locale.4.4. Les modèles ARIMAL'objectif essentiel des modèles ARIMA est de permettre une prédiction de l'évolutionfuture d'un phénomène. Son développement dans le domaine de l'économétrie est basé sur ceprincipe. Un autre intérêt, peut-être plus essentiel en ce qui concerne la recherche scientifique,est de comprendre la signification théorique de ces différents processus. Il est clair cependantque cette interprétation dépend de la nature du phénomène étudié, et des modèles dont lechercheur dispose pour en rendre compte.Un modèle ARIMA est noté (p,d,q), p correspondant au nombre de termes autorégressifs, d au nombre de différenciations, et q au nombre de termes de moyenne mobile. Denombreuses combinaisons sont envisageables. On peut ici décrire trois modèlesparticulièrement courants :- le modèle ARIMA(0,0,0) décrit un processus non différencié à bruit blanc, suggérant desfluctuations aléatoires autour d'une valeur de référence stable. Cette valeur de référence peut

être considérée comme une caractéristique stable du système étudié (trait de personnalité,mémoire, capacité stabilisée, etc.)- le modèle ARIMA (0,1,1), sans constante significative, obéit à l’équation suivante :yt yt-1 - θεt-1 ε t(29)Ce modèle suggère que la valeur de référence évo

issus d’une même population parente. Ceci signifie qu’au regard de la variable mesurée, les sujets ne diffèrent pas au-delà « d’erreurs » aléatoires (liées par exemple à l’histoire des sujets, à divers facteurs non maîtrisés dans la standardisation expérimentales, à de l’erreur de mesure, ect.).

Related Documents:

Traitement des données Chapitre 4 : Analyse factorielle des correspondances, rev 11/03 Chapitre 4 : Analyse factorielle des correspondances binaires Objet - L'analyse Factorielle des Correspondances ou AFC constitue une technique d'analyse statistique d'un ou de

3.9. ANALYSE DES OUTILS PÉDAGOGIQUES MIS EN PLACE 3.9.a) Analyse sur la cohérence des échelles de mesure 3.9.b) Analyse intrinsèque des quatre outils 3.9.c) Analyse des liens potentiels entre notre définition de l'autonomie et les outils 3.9.d) Relation entre les résultats du groupe et les présences. AN

3. Collecte de données, analyse et rapport sur les postes de pesage 33 3.1. Introduction 33 3.2. Collecte, analyse et communication des données 34 3.3. Collecte, analyse et communication des données 36 3.4. Méthode de vérification et d'analyse des données 40 3.5. Présentation des rapports 41 3.6.

Analyse des comportements et pistes normatives de gestion des conflits Préface de Pascal Perrineau Postface de Christoph Stückelberger African Law 11 Les élections en Afrique Analyse des comportements et pistes normatives de gestion des conflits Chacun s'interroge sur l'instabilité et les violences postélectorales. Censées faciliter

ANDLER M., BLOCH J.D et MAILLARD B. Exercices corrigés de Mathématiques [Edition Marketing] 1.A Analyse : Topologie 1.B Analyse : Fonctions numériques 2 Analyse : Suites et Séries numériques 3 Analyse : Analyse Fonctionnelle 5 Algèbre générale, polynômes 6 èr

Il s'agit uniquement d'un logiiel d'aide à la décision et il nécessite de la part du directeur de thèse une analyse fine du rapport généré. L'analyse du manuscrit est sous la responsabilité du directeur de thèse qui atteste, via le rapport d'analyse et le formulaire à fournir dans le dossier de soutenance, avoir analysé le

The Vampire Dia-ries is one of the top shows trending on Netflix, with 7 seasons and one more to come. This show was devel-oped by Kevin Williamson and Julie Plec. They got their inspiration from ‘The Vampire Diaries’ book se-ries written by L.J. Smith. The Vampire Dia-ries is about 17 y

The computational anatomy of psychosis hypothesis that the mean is zero. The sample mean provides evi-dence against the null hypothesis in the form of a prediction error: namely, the sample mean minus the expectation under the null hypothesis. The sample mean provides evidence against the null but how much evidence? This can only be quantified in relation to the precision of the prediction .