Cours 2 : Rappels De Statistique Descriptive

1y ago
18 Views
3 Downloads
504.15 KB
48 Pages
Last View : 22d ago
Last Download : 3m ago
Upload by : Jenson Heredia
Transcription

Cours 2 : Rappels de StatistiquedescriptiveA- IntroductionB- Statistique descriptive unidimensionnelleC- Statistique descriptive bidimensionnelle

A- Introduction

A- Introduction9 Rappel : Série statistique ensemble de mesures d’une ouplusieurs variables faites sur une population ou un échantillond’individus.

A- Introduction9 Objectifs de la statistique descriptive (ou exploratoire): résumer, synthétiser l’information contenue dans la sériestatistique, mettre en évidence ses propriétés. suggérer des hypothèses relatives à la population dont estissu l’échantillon.9 Outils utilisés : Tableaux (table des fréquences, de contingence, ) Graphiques (box-plots, histogrammes,.) indicateurs (moyenne, corrélation,.).

A- Introduction9 Le type d’outils utilisé dépend De la nature de la série (uni ou multi dimensionnelle) De la nature des variables (quantitatives discrètes, continuesou qualitatives).

A- IntroductionExemple : observation de laséquence d’un brin GGATable des 0,260,270,270,2Visualisation :Diagramme en Barres en fréquencesTGBSérie unidimensionnelle de taille100 de la variable qualitative « basedu brin d’ADN ».A00,050,10,15Indicateur: Modes C et G0,20,250,3

A- Introductionfreq. Cum.70,14150,3230,46330,66400,8501box-plot de la sérieage200.005300.010400.015500.020600.025H is to g r a m m e e n fr é q u e n c e s d e la s é r ie c la s s é e0.00036.44460 30.63702 30.36399 56.1357262.31707 48.87932 25.22967 45.0767441.22021 18.45797 46.82866 57.8341226.93824 51.17832 42.42865 25.0099139.49332 61.49174 41.12957 48.7350924.84856 62.86307 31.46099 18.3014058.65384 22.66574 28.69191 43.2365629.99305 37.23314 25.34647 56.1852859.60421 56.78237 34.86674 55.4947752.80441 58.90374 64.61624 57.6230541.92750 39.26187 43.79833 33.1242044.39254 58.30465 30.01482 56.6902045.00456 39.18792classescentresamplitudes effectifsfrequences eff. xemple : Série des âges de 50 salariésdans une entrepriseSérie unidimensionelle de la variablequantitative continue « age 2.95Q356.17Max.64.62

A- Introductionnuage de points des variables dist et speed15105speed dist1 4 22 4 103 7 44 7 225 8 166 9 107 10 188 10 269 10 3410 11 1711 11 28 vitesse2025Ex: observation de la vitesse et de ladistance de freinage de 50 voitures.020406080distance de freinage100120

B- Statistique descriptive unidimensionnelle1-Généralités2- Etude d’une variable quantitative3- Etude d’une variable qualitative

B-1 Généralités9On considère une variable statistique X, observée sur n individus. On dispose alorsd’une série statistique unidimensionnelle x ( x1 ,., xn ) que l’on peut mettre sousforme d’un tableau de données :xi valeur de X pour l'individu i de la série.9On veut mettre en évidence les principales caractéristiques de la série.

B-1 Généralités9 effectif d’une valeur de X : nb.d’individus ayant cette valeur.ménageni9 fréquence d’une valeur de X : prop.ni fid’individus ayant cette valeur :n9 effectif cumulé de la i valeur de X :nb. d’individus ayant l’une des ipremières valeurs de X :iN i n j n1 n2 . n j .nij 19 fréquence cumulée d’une valeur deX : prop. des individus ayant l’unedes i premières valeurs de X :iFi f j f1 f 2 . f j . fij 1Table des fréquences :valeurs de X12356effectif1134112345678910effectif cum. 635515fréq. Cum0.10.20.50.91

B-2 Etude d’une variable quantitative¾ Les différentes étapes de l’étude9 Construction de la table des fréquences (par valeurs ou classesde valeurs).9 Visualisation de la distribution des fréquences (ou deseffectifs) de la série.9 résumé des caractéristiques de la série par des indicateurs etdes graphiques.

B-2.1 Etude d’une variable quantitative:Table des fréquencesVariable quantitative discrète9 classement des valeurs de x parordre croissantVariable quantitative continue9 Création d’une série classéeregroupement des valeurs de x en mclasses (intervalles) disjointes devaleurs: I [ d , d [k9 Dénombrement des m valeursdistinctes de la sérieν 1 . ν k ν mkk 19 Définitions : borne inférieure (resp.supérieure)de la classe I k : d k (resp. d k 1 ) amplitude de I k :ak d k 1 d k centre de I k : ck 12 (d k d k 1 )9 NB : classement d’une série perted’information; la constitution desclasses est une étape délicate.

B-2.1 Etude d’une variable quantitative:Table des fréquences

B-2.1 Etude d’une variable quantitative:Table des 5515menage 1superficie 8effectif11341effectif cum. 593310159 Nombre de classes par la règle de Sturges :k 5, amplitude des classes égales à E/k 33-8/5 5.9 Classes : [8,13[,[13,18[, [18,23[,[23,28[,[28,33].9 Table des fréquences :9 Classement : 1,2,3,3,3,5,5,5,5,69 Modalités : 1,2,3,5,69 Table des fréquences :valeurs de X1235628,5fréq. 578910freq.0,50,20,10,10,1freq.cum.0,50,70,80,91

B-2.1 Etude d’une variable quantitative:Table des fréquencesRègle de constitution des classes·InfoLe nombre de classes ne devrait être ni inférieur à 5, ni supérieur à20 (il varie généralement entre 6 et 12). Ce choix est fonction dunombre d'observations et de leur dispersion. En pratique, on peututiliser la formule de Sturges : le nombre k indiqué de classes pour unesérie de n observations est donné approximativement par :k 1 3,322log10 nCependant, le choix définitif du nombre de classes sera dicté par unsouci de clarté.·Il s'agit ensuite de choisir l'amplitude des classes. On les choisitgénéralement égales, d'amplitude approximativement égale à a E/koù E xmax xmin est l’étendue de la série.

B-2.2 Etude d’une variable quantitative:VisualisationVariable quantitative discrète Diagramme en bâtons : valeursVariable quantitative continue histogramme : rectangles juxtaposésde X en abscisse, bâton de longueurde base égale à ak et de hauteurégale à la fréquence (ou à l'effectif)de ces valeurs en ordonnée.proportionnelle à la fréquence (oueffectif). Généralement, on prendcomme hauteur f k / ak ( l’aire del’histogramme est égale à 1).

B-2.2 Etude d’une variable quantitative:visualisation

B-2.2 Etude d’une variable quantitative:VisualisationRemarques :9 La distribution des fréquences d'une série statistique de lavariable X, considérée comme un échantillon prélevé sur unepopulation est une approximation de la distribution deprobabilité de cette variable sur la population. C’est pourquoi ilest préférable de tracer le diagramme en bâtons oul’histogramme en fréquences plutôt que celui en effectifs9 La visualisation d’une série en fréquence permet lacomparaison de plusieurs échantillons de tailles différentes.

B-2.2 Etude d’une variable quantitative:Visualisation9 Variable quantitative continue : les polygones des fréquences cumulées Objectif : Outils utiles pour répondre à des questions du type : quelleest la proportion (ou le nombre) de ménages ayant un logement demoins de 20 m% ? entre 40 et 60 m² ? Quelle est la valeur de lamédiane (des quantiles) de la distribution ?8131823283300,50,70,80,9110,50,30,20,10Polygones des frequences quences croissantesfrequences decroissantes35

B-2.2 Etude d’une variable quantitative:Visualisation Méthode :– Faire un tableau :– Le polygone en fréquences croissantes (resp. décroissantes) estobtenu en traçant les points de coordonnées (d k , pk ) (resp. (d k , qk))et en interpolant linéairement entre ces points.

B-2.3 Etude d’une variable quantitative:Indicateurs9 Objectif : caractériser la distribution de la série à l’aide de nombres etéventuellement de graphiques résumant de façon suffisammentcomplète l'ensemble ses valeurs. Ces indicateurs faciliteront lacomparaison d'échantillons.9 3 types d’indicateurs : Indicateurs de tendance centrale Indicateurs de dispersion Indicateurs de forme

B-2.3 Etude d’une variable quantitative:Indicateursserie de moyenne 00.40.40.20.20.00.0-20240serie de variance 1680.80.4-2024-4-20240.000.100.20.200.4serie asymétrique0.0Indicateurs de forme : donnent uneidée de la symétrie et del'aplatissement d'une distribution.Leur usage est moins fréquent.40.0-4serie symétrique 2serie de variance 0.50.4Indicateurs de dispersion :quantifient les fluctuations desvaleurs autour de la valeur centrale.Permettent d'apprécier l'étalementdes valeurs de la série (les unes parrapport aux autres ou à la valeurcentrale).-40.2 Indicateurs de tendance centrale :fournissent l'ordre de grandeur desvaleurs de la série et la position oùse rassemblent ces valeurs.0.0 serie de moyenne 4-4-202405101520

B-2.3 Etude d’une variable quantitative:Indicateurs de tendance centrale¾ La moyenne arithmétique9 Définitionx x . xi . xn1 nx xi 1 2n i 1n Sur une série discrète :1 kx ni vin i 11 k Sur série continue classée : x ni cin i 1(perte d’information)

B-2.3 Etude d’une variable quantitative:Indicateurs de tendance centrale9 Propriétésn (x x ) 0i 1iLa moyenne de la série ( ax1 b,., axn b) estax bLorsque la distribution des fréquences est symétrique parrapport à la droite x a, la moyenne vaut a.9 LimitesIndicateur très affecté par les valeurs extrêmes (attention aux pointsaberrants).

B-2.3 Etude d’une variable quantitative:Indicateurs de tendance centrale¾ La médiane9 Définition : c’est la valeur observée ou possible de la série ordonnée enordre croissant ou décroissant, qui partage cette série en deux sous-séries,chacune comprenant le même nombre d'observations. si n impair si n pairMe x( n 1) / 2Me x( n / 2) x( n / 2) 12NB : Si la variable est discrète et n pair, il se peut qu'il n'y ait pas de valeur médianecar Me doit correspondre à une valeur possible de la série.Ex : dans la série du nombre d’enfants : 1,2,3,3,3,5,5,5,5,6, Me 4.dans la série de la superficie : 8,8.5,10,11,12.5,13,15,20,25,33, Me 12,75.

B-2.3 Etude d’une variable quantitative:Indicateurs de tendance centrale9 Limites : La médiane est plus robuste que la moyenne (pas influencéepar les valeurs extrêmes) mais elle est influencée par le nombred’observations.Remarque : La médiane correspond à la valeur telle que la fréquencecumulée est égale à ½.

B-2.3 Etude d’une variable quantitative:Indicateurs de tendance centrale9 CP d’une série continue classée:Approximation de Me à partirde la table des fréquences parinterpolation linéaire. Repérage de la classe médiane première classe contenant aumoins 50% des effectifs cumulésI j [d j , d j 1[Interpolation linéaireMe d j n2 N j 1nj ajEx : Série superficie :Par la définition : Me 12. 75Par interpolation : Me 13Polygones des frequences requences croissantesfrequences decroissantesMe

B-2.3 Etude d’une variable quantitative:Indicateurs de tendance centrale¾ Le mode9 Définition : c’est la valeur qui a été observée le plus grand nombrede fois.NB : Dans le cas d'une variable continue en classes, ce critère est peuobjectif. On parlera plutôt de classe modale : classe ayant la fréquencela plus élevée. Le mode n’est pas unique.Ex : série nombre d’enfants : mode 5; série superficie : intervalle modal [8,13[.

B-2.3 Etude d’une variable quantitative:Indicateurs de tendance centraleInfo

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersion¾ La variance et l'écart-type de la série9 Définition : La variance est la somme pondérée des carrés desécarts des valeurs de la série à la moyenne. Variance de la série1 ns s ( x) ( xi x )²n i 12x21 n( xi x )²s s ( x) Variance d’échantillonnagen 1 i 1*2x*2L’écart type est la racine carrée de la variancesx sx2s*x s*2x

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersionLorsque la série est un échantillon issu d’une population et que l’ons’intéresse aux caractéristiques de cette population via l’échantillon(inférence), on utilise plutôt sn*² qui est un meilleur estimateur de lavariance théorique de la population. Dès lors que la taille n de la sérieest assez grande, ces deux quantités sont pratiquement égales.Info

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersion9 Propriétés( sn² ou sn*² ) La variance (ou écart-type) est toujours positive ou nulle La variance est une forme quadratique Théorème de Koenigsx2 sax2 b a ² sx2s ² x 0 sx 0sax b a sxn 1 *2sx x ² x ²nUne série peu dispersée (ayant des valeurs regroupées autour de lavaleur moyenne) aura un écart-type plutôt faible.Remarque : Pour une distribution symétrique, pratiquement toutes lesobservations sont situées entre x-3s et x 3s.

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersionLorsqu’on fait de l’inférence, un faible écart-type del’échantillon permettra d'indiquer avec une plus grandeprécision entre quelles valeurs peuvent varier lescaractéristiques de la distribution de la variable étudiée sur lapopulation.info

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersion9 Calcul pratique de la variance (ou de l’écart-type): Par la définition Par la formule de Koenig A partir de la table des fréquences1 ks ni (vi x )²n i 12x– Pour une série discrete– Pour une serie en classes1 ks ni (ci x )²n i 12x

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersion¾ Une mesure de la dispersion relative : le coefficient devariationCV sX.100xLe CV permet d'apprécier la représentativité de la moyenne par rapportà l'ensemble des observations. Il donne une bonne idée du degréd'homogénéité d'une série. Il faut qu'il soit le plus faible possible ( 15%en pratique).

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersion¾ Les quantiles9 Définition : ils correspondent à des valeurs de la variable statistique quipartagent la série ordonnée en l parties égales. Si l 4, les quantiles sontappelés quartiles. Il y a 3 quartiles, appelés Q1,Q2 Me et Q3 :

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersion¾ La boite à moustaches (box-andWiskers plot) Résume la série à partir de ses valeursextrêmes, ses quartiles et sa médiane. Permet une comparaison visuelleimmédiate de plusieurs séries. Construction :- Sur un axe horizontal, on place les valeursextrêmes et les quartiles.- on trace un rectangle de longueurl'interquartile et la largeur proportionnelleà la racine carrée de la taille de la série.- on partage le rectangle par un segmentvertical au niveau de la médiane.

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersionSérie des superficies :8,8.5,10,11,12.5,13,15,20,25,33Min. Q1MeMeanQ3Max.8.00 10.25 12.75 15.60 18.75 33.00

B-2.3 Etude d’une variable quantitative:Indicateurs de dispersion9 Autres indicateurs :– L’étendueInfoE xmax xmin– L’écart arithmétique moyene 1xi x n

B-2.4 Etude d’une variable quantitative:Indicateurs de forme¾ Symétrie9 Définition : Une série a une distribution symétrique si ses valeurssont également dispersées de part et d'autre de la valeur centrale,c'est-à-dire si le graphe de la distribution - histogramme oudiagramme en bâton en fréquences - admet une axe de symétrie.Dans une distribution parfaitement symétrique,Me x Mode

B-2.4 Etude d’une variable quantitative:Indicateurs de forme9 Coefficient d’asymétrie dePearsonx Meδ sxOn a9 Coefficient de Yuleq Q3 Q1 2 MeQ3 Q1 1 δ 1δ 0 δ 0 δ 0 symétrie parfaitesérie étalée à gaucheSérie étalée à droiteq 0 q 0 q 0 symétrie parfaitesérie étalée à gauchesérie étalée à droite

B-2.4 Etude d’une variable quantitative:Indicateurs de formeEx : Série des superficies : 8,8.5,10,11,12.5,13,15,20,25,33Min. Q1MeMeanQ3Max.8.00 10.25 12.75 15.60 18.75 33.00S 8.082216d 1.057878Q 0.4117647Série étalée à droite

B-2.4 Etude d’une variable quantitative:Indicateurs de forme¾ ApplatissementUne distribution est plus ou moins aplatie selon que les fréquences desvaleurs voisines des valeurs centrales diffèrent peu ou beaucoup les unepar rapport aux autres.9 coefficient d’aplatissement de Fisher :a m4sx41 nm4 ( xi x ) 4n i 1a 3 pour une distribution qui suit une loi normale centrée réduite.Si a 3, la concentration des valeurs de la série autour de la moyenneest forte : la distribution n’est pas aplatieSi a 3, la concentration des valeurs autour de la moyenne est faible : ladistribution est aplatie

B-3 Etude d’une variable qualitative¾ Table des fréquences : Lorsque la variable est ordinale, elle est construite de manière analogueà celle d’une variable quantitative discrète Lorsque la variable est nominale, n’y figurent pas les effectifs etfréquences cumulées.

B-3 Etude d’une variable qualitative9 Construction Dénombrement des modalités différentes de la série Table de la distribution des fréquences :m1 ,., mi ,.mk

B-3 Etude d’une variable qualitative¾ Visualisation : diagramme en barres (analogue au diagramme enbâtons) ou représentation en secteurs (camembert), représentant larépartition en effectif ou en fréquences des individus dans lesdifférentes modalités de la série.¾ Indicateurs : Il n’existe pas, à part le mode de caractéristiquescommunément adaptées pour décrire une variable qualitative.

B-3 Etude d’une variable qualitativeDiagramme en Barres en fréquencesExemple : observation de laséquence d’un brin 270,270,2A00,050,10,150,20,250,3Diagramme en secteur des fréquencesT20%A26%ACGG27%TC27%

A- Introduction 9Objectifs de la statistique descriptive (ou exploratoire): résumer, synthétiser l'information contenue dans la série statistique, mettre en évidence ses propriétés.

Related Documents:

Sujets Spéciaux (STT2000) cours d'option cours d'ouverture nouveau cours nouveau cours nouveau nouveau cours nouveau cours nouveau cours nouveau cours nouveau cours nouveau cours nouveau cours SAS / R!9. exemple d'horaire 2 1 Toutes les concentrations 9h 10h 11h 12h 13h 14h 15h 16h 17h 18h 19h 20h 21h Automne lundi mardi mercredi jeudi vendredi M1112 Calcul 1 M1112 Calcul 1 TP M1112 .

avis sur tout aspect de ces cours. Vos avis ou réactions peuvent inclure des observations sur : Le contenu et l'organisation des cours Les manuels de lecture et ressources des cours. Les exercices des cours. Les évaluations des cours. La durée des cours. Le soutien aux cours (tuteurs désignés, soutien technique,

Rappels de Statistiques 1 Rappels sur les tests param etriques On suppose que l’on etudie un ph enom ene gouvern e par une loi P θ d ependant d’un param etre θ qui appartient a un ensemble Θ, r eunion disjointe de Θ 0 et Θ 1. On dispose des observations x 1,.,x n du ph enom ene etudi e de loi P θ inconnue. Effectuer un test de H 0: θ Θ 0 contre H 1: θ Θ 1 .

presentation de llinstitut haitien de statistique ’institut haitien de statistique et d’informatique (ihsi) ihsi 50 ans statistique guide la décision

1 1 1 Introduction à la statistique descriptive Les méthodes de la statistique descriptive (statistique déductive) permettent de mener des études à partir de données exhaustives, c'est-à-dire concernant tous les individus de

Pour créer un autre prof de SVT, le plus simple est de retourner dans « cours/gestion des cours », de cliquer SVT et d’ajouter une sous-catégorie « Prof_SVT1 » Pour créer une autre matière (catégorie), le plus simple est de retourner dans « cours/gestion des cours », et de cliquer sur ajouter une autre catégorie de cours Présentation des pictogrammes liés aux catégories ou aux .

Le cours est normalement divisé en 12 semaines de cours plus les 2 examens. Le portail de cours étant modifié en cours de session, l'étudiant doit s'y référer aussi souvent que possible. L'étudiant doit répartir son temps entre le suivi du cours magistral, la résolution d'exercices en laborato

Hacker/Sommers, A Writer’s Reference, 7th ed. (Boston: Bedford, 2011) Slide 2 of 11 Sample MLA Research Paper Summary and long quotation are each introduced with a signal phrase naming the author. Long quotation is set off from the text; quotation marks are omitted. Page number is given in parentheses after the final period. Marginal annotations indicate MLA-style formatting and effective .