Algorithme Des K Plus Proches Voisins - Education.fr

2y ago

32 Views

3 Downloads

230.99 KB

6 Pages

Last View : 25d ago

Last Download : 3m ago

Upload by : Elise Ammons

Report this link

Download PDF

Transcription

Numé e t S e c fo t u SPÉCIALITÉAlgorithme des k plusproches voisins Histoire de l’informatique Représentation des données Traitement des données Interactions entre l’homme et la machine sur le Web Architectures matérielles et systèmes d’exploitation Langages et programmation Algorithmique1. IntroductionL’algorithme des k plus proches voisins appartient à la famille des algorithmes d’apprentissage automatique (machine learning).L’idée d’apprentissage automatique ne date pas d’hier, puisque le terme de machine learning a été utilisé pour la première fois parl’informaticien américain Arthur Samuel en 1959. Les algorithmes d’apprentissage automatique ont connu un fort regain d’intérêtau début des années 2000 notamment grâce à la quantité de données disponibles sur internet.L’algorithme des k plus proches voisins est un algorithme d’apprentissage supervisé, il est nécessaire d’avoir des données labellisées. À partir d’un ensemble E de données labellisées, il sera possible de classer (déterminer le label) d’une nouvelle donnée (donnéen’appartenant pas à E). À noter qu’il est aussi possible d’utiliser l’algorithme des k plus proches voisins à des ﬁns de régression (oncherche à déterminer une valeur à la place d’une classe), mais cet aspect des choses ne sera pas abordé ici. L’algorithme des k plusproches voisins est une bonne introduction aux principes des algorithmes d’apprentissage automatique, il est en effet relativementsimple à appréhender (l’explication donnée aux élèves peut être très visuelle).Cette première approche des algorithmes d’apprentissage peut aussi amener les élèves à réfléchir sur l’utilisation de leurs donnéespersonnelles (même si ce sujet a déjà abordé auparavant) : de nombreuses sociétés (exemple les GAFAM) utilisent les donnéesconcernant leurs utilisateurs aﬁn de ”nourrir” des algorithmes de machine learning qui permettront à ces sociétés d’en savoir toujours plus sur nous et ainsi de mieux cerné nos ”besoins” en termes de consommation.2. Principe de l'algorithmeL’algorithme de k plus proches voisins ne nécessite pas de phase d’apprentissage à proprement parler, il faut juste stocker le jeu dedonnées d’apprentissage. {(yi , x⃗i )} avec i compris entre 1 et n, où yi correspond à la classe (x1i , x2i , ., xpi )) représente les variables prédictrices de ladonnée i. Soit une donnée u qui n’appartient pas à E et qui ne possède pas de label (u est uniquement caractérisée par un vecteurx⃗u de dimension p). Soit d une fonction qui renvoie la distance entre la donnée u et une donnée quelconque appartenant à E . SoitSoit un ensemble E contenant n données labellisées : E(le label) de la donnée i et où le vecteur x⃗i de dimension p (x⃗iun entier k inférieur ou égal à n. Voici le principe de l’algorithme de k plus proches voisins : On calcule les distances entre la donnée u et chaque donnée appartenant à E à l’aide de la fonction d On retient les k données du jeu de données E les plus proches de u On attribue à u la classe qui est la plus fréquente parmi les k données les plus proches.eduscol.education.fr/Ministère de l’Éducation nationale et de la jeunesse - septembre 20191

1RENumé e t S e c fo t u Il est possible d’utiliser différents types de distance : euclidienne, Manhattan, . (pour en savoir plus voir [1]), mais cet aspect deschoses ne devra pas être étudié avec les élèves.3. Étude d'un exemple3.1. Les donnéesNous avons choisi ici de nous baser sur le jeu de données ”iris de Fisher” (il existe de nombreuses autres possibilités). Ce jeu dedonnées est composé de 50 entrées, pour chaque entrée nous avons : la longueur des sépales (en cm) la largeur des sépales (en cm) la longueur des pétales (en cm) la largeur des pétales (en cm) l’espèce d’iris : Iris setosa, Iris virginica ou Iris versicolor (label)Il est possible de télécharger ces données au format csv, par exemple sur le site GitHub Gist[2]Une fois ces données téléchargées, Il est nécessaire de les modiﬁer à l’aide d’un tableur : dans un souci de simpliﬁcation, nous avons choisi de travailler uniquement sur la taille des pétales, nous allons donc supprimer les colonnes ”sepal length” et ”sepal width” il est nécessaire d’encoder les espèces avec des chiffres : 0 pour Iris setosa, 1 pour Iris virginica et 2 pour Iris versicolor (ceprocessus d’encodage des données textuelles est relativement classique en apprentissage automatique).3.2. Bibliothèques Python utiliséesNous allons utiliser 3 bibliothèques Python : Pandas [3] qui va nous permettre d’importer les données issues du ﬁchier csv Matplotlib [4] qui va nous permettre de visualiser les données (tracer des graphiques) Scikit-learn [5] qui propose une implémentation de l’algorithme des k plus proches voisins.Ces bibliothèques sont facilement installables notamment en utilisant la distribution Anaconda (ou Miniconda).3.3. Première visualisation des donnéesUne fois le ﬁchier csv modiﬁé, il est possible d’écrire un programme permettant de visualiser les données sous forme de graphique(abscisse : ”petal length”, ordonnée : ”petal width”) :1234567891011import pandasimport matplotlib.pyplot as pltiris pandas.read csv("iris.csv")x iris.loc[:,"petal length"]y iris.loc[:,"petal width"]lab iris.loc[:,"species"]plt.scatter(x[lab 0], y[lab 0], color 'g', label 'setosa')plt.scatter(x[lab 1], y[lab 1], color 'r', label 'virginica')plt.scatter(x[lab 2], y[lab 2], color 'b', label 'versicolor')plt.legend()plt.show()N.B. Pour utiliser le script ci-dessus dans un Jupyter notebook, il peut être nécessaire d’ajouter la ligne ”%matplotlib inline” au débutdu script.eduscol.education.fr/Ministère de l’Éducation nationale et de la jeunesse - septembre 20192

1RENumé e t S e c fo t u FIGURE 1 – Représentation graphique des données3.4. Utilisation de l’algorithme des k plus proches voisinsLe graphique ci-dessus (ﬁgure 1) montre que les 3 classes (Iris setosa, Iris virginica et Iris versicolor) sont relativement bien séparées. On peut alors ajouter une donnée non labellisée n’appartenant pas à l’ensemble d’origine (voir ﬁgure 2) :FIGURE 2 – Ajout d’une donnée non labelliséeDans l’exemple ci-dessus (ﬁgure 2) les élèves n’auront aucune difﬁculté à déterminer l’espèce de l’iris qui a été ajouté au jeu dedonnées.Dans certains cas (exemple : largeur pétale 0,75 cm ; longueur pétale 2,5 cm) il est un peu plus difﬁcile de se prononcer ”aupremier coup d’oeil” (voir ﬁgure 3) :FIGURE 3 – Cas plus difﬁcile.À partir de l’exemple ci-dessus (voir ﬁgure 3), il est possible de demander aux élèves de proposer une méthode permettant de traiterce genre de cas litigieux. L’enseignant peut, grâce à une série de ”questions-réponses”, amener doucement les élèves à la solutionproposée par l’algorithme des k plus proches voisins : on calcule la distance entre notre point (largeur du pétale 0,75 cm ; longueur du pétale 2,5 cm) et chaque point issu dujeu de données ”iris” (à chaque fois c’est un calcul de distance entre 2 points tout ce qu’il y a de plus classique) ; on sélectionne uniquement les k distances les plus petites (les k plus proches voisins) ;eduscol.education.fr/Ministère de l’Éducation nationale et de la jeunesse - septembre 20193

1RENumé e t S e c fo t u parmi les k plus proches voisins, on détermine quelle est l’espèce majoritaire. On associe à notre ”iris mystère” cette ”espècemajoritaire parmi les k plus proches voisins”.Dans l’exemple évoqué ci-dessus (largeur pétale 0,75 cm ; longueur pétale 2,5 cm), pour k 3, nous obtenons graphiquement :FIGURE 4 – 3 plus proches voisins dans le cas : largeur pétale 0,75 cm ; longueur pétale 2,5 cmUn iris ayant une largeur de pétale égale à 0,75 cm et une longueur de pétale égale à 2,5 cm a une ”forte” probabilité (cette notionde probabilité d’obtenir un résultat correct grâce à cet algorithme, bien que très intéressante, pourra difﬁcilement être abordée avecdes élèves de première) d’appartenir à l’espèce setosa.eduscol.education.fr/Ministère de l’Éducation nationale et de la jeunesse - septembre 20194

1RENumé e t S e c fo t u 3.5. Utilisation de scikit-learnLa bibliothèque Python scikit-learn propose un grand nombre d’algorithmes lié à l’apprentissage automatique (c’est sans aucundoute la bibliothèque la plus utilisée en apprentissage automatique). Parmi tous ces algorithmes, scikit-learn propose l’algorithmedes k plus proches voisins. Voici un programme Python permettant de résoudre le problème évoqué ci-dessus (largeur pétale 0,75cm ; longueur pétale 2,5 cm) :123import pandasimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighborsClassifier45678910#traitement CSViris pandas.read csv("iris.csv")x iris.loc[:,"petal length"]y iris.loc[:,"petal width"]lab iris.loc[:,"species"]#fin traitement CSV111213141516#valeurslongueur 2.5largeur 0.75k 3#fin valeurs1718192021222324#graphiqueplt.scatter(x[lab 0], y[labplt.scatter(x[lab 1], y[labplt.scatter(x[lab 2], y[labplt.scatter(longueur, largeur,plt.legend()#fin graphique 0], color 'g', label 'setosa') 1], color 'r', label 'virginica') 2], color 'b', label 'versicolor')color 'k')25262728293031#algo knnd list(zip(x,y))model KNeighborsClassifier(n neighbors k)model.fit(d,lab)prediction model.predict([[longueur,largeur]])#fin algo knn32333435363738394041424344#Affichage résultatstxt "Résultat : "if prediction[0] 0:txt txt "setosa"if prediction[0] 1:txt txt "virginica"if prediction[0] 2:txt txt "versicolor"plt.text(3,0.5, f"largeur : {largeur} cm longueur : {longueur} cm", fontsize 12)plt.text(3,0.3, f"k : {k}", fontsize 12)plt.text(3,0.1, txt, fontsize 12)#fin affichage tère de l’Éducation nationale et de la jeunesse - septembre 20195

1RENumé e t S e c fo t u Nous obtenons le résultat suivant (voir ﬁgure 5) :FIGURE 5 – 3 plus proches voisins à l’aide de scikit-learn dans le cas : largeur pétale 0,75 cm ; longueur pétale 2,5 cmIl est ensuite possible de demander aux élèves de modiﬁer le programme ci-dessus aﬁn d’étudier les changements induits par lamodiﬁcation du paramètre k (notamment pour k 5) en gardant toujours les mêmes valeurs de largeur et de longueur (largeur pétale 0,75 cm ; longueur pétale 2,5 cm).Pour terminer, il est aussi possible de demander aux élèves de travailler avec d’autres valeurs de longueur et largeur.4. Possibilité de projetIl est possible, dans le cadre d’un projet, de faire travailler les élèves sur un autre jeu de données, par exemple, ”Prédire les survivantsdu Titanic”. Le jeu de données peut être récupéré sur le site kaggle [6]. Le label est ”survivant” ou ”décédé”. Il sera nécessaire deretravailler les données comme nous l’avons fait pour le jeu de données ”Iris” (supprimer des colonnes, encodage.). Dans ce projetil sera possible de faire travailler les élèves sur des vecteurs d’entrée de dimension supérieure à 2 (le genre, l’âge, la classe occupéepar le passager sur le bateau, .).Références[1] Stuart Russel et Peter Norvig. Intelligence artiﬁcielle, page 781. 2010.[2] GitHub Gist. The iris dataset. 7.[3] Pandas. Python data analysis library. https://pandas.pydata.org/.[4] Matplotlib. Python 2d plotting library. https://matplotlib.org/.[5] Scikit-learn. Machine learning in python. https://scikit-learn.org/stable/.[6] kaggle. The titanic dataset. ation.fr/Ministère de l’Éducation nationale et de la jeunesse - septembre 20196

L’algorithme des k plus proches voisins appartient à la famille des algorithmes d’apprentissage automatique (machine learning). L’idée d’apprentissage automatique ne date pas d’hier, puisque le terme de machine learning a été utilisé pour la première fois par l’informaticien américain Arthur Samuel en File Size: 230KB

Related Documents:

Algorithme des k plus proches voisins pondérés et ...

Algorithme des k plus proches voisins pondérés et application en diagnostic Eve Mathieu-Dupas To cite this version: Eve Mathieu-Dupas. Algorithme des k plus proches voisins pondérés et application en diagnostic. 42èmes Journées de Statistiq

37 Views

2y ago

Algorithme des k plus proches voisins - thibautdeguillaume.fr

Prennons k 3: Les 3 plus proches voisins sont signal es ci-dessus avec des eches : nous avons deux "iris setosa" (point vert) et un "iris virginica" (point rouge). D’apr es l’algorithme des "k plus proches voisins", notre "iris myst ere" appartient a l’esp ece "setosa". La biblio

54 Views

2y ago

Algorithme des k-plus proches voisins - planeteisn.fr

L’algorithme des k plus proches voisins s'écrit en abrégé k-NN ou KNN , de l'anglais k-nearest neighbors, appartient à la famille des algorithmes d’apprentissage automatique (machine learning). Le t

67 Views

2y ago

DES K PLUS PROCHES VOISINS - jlcoss.free.fr

DES K PLUS PROCHES VOISINS . Partie 1 Les k plus proches voisins ou K-Nearest Neighbors en anglais (doù lappellation) Cest un algorithme dapprentissage automatique (Machine Learning) utilisé pour la reconnaissance (visuelle ou voc

32 Views

2y ago

ALGORITHME DES k PLUS PROCHES VOISINS (KNN)

L’algorithme des k plus proches voisins s’écrit souvent KNN de l’anglais . K Nearest Neighboors. K étant un nombre entier positif généralement petit. L. e principe de ce modèle consiste en effet à choisir les données . k. les

44 Views

2y ago

Dé nitions et notations - Joseph Salmon

L'algorithme des k-plus proches voisins ( k-nn : pour k- nearest neighbors en anglais) est un algorithme intuitif, aisément paramétrable pour traiter un problème de classi cation avec un nombre quelconque d'étiquettes. Le principe de l'algorithme est particul

10 Views

2y ago

Quelles connaissances linguistiques permettent d’améliorer ...

De plus, cette méthode reste robuste sur des cas de données incomplètes, ce qui est assez fréquent pour des articles de blogs. Cette approche sera détaillée dans la section suivante. 3 L’algorithme des k plus proches voisins Le principe de l’algorithme des

11 Views

2y ago

2 INTELLIGENT AGENTS - People

ArtiﬁcialIntelligence: A Modern Approachby Stuart Russell and Peter Norvig, c 1995 Prentice-Hall,Inc. Section 2.3. Structure of Intelligent Agents 35 the ideal mapping for much more general situations: agents that can solve a limitless variety of tasks in a limitless variety of environments. Before we discuss how to do this, we need to look at one more requirement that an intelligent agent .

60 Views

3y ago

Recent Views

Career Options for In-House Counsel

Association of Corporate Counsel 1025 Connecticut Avenue, NW, Suite 200 Washington, DC 20036 USA tel 1 202.293.4103, fax 1 202.293.4701 www.acc.com By in-house counsel, for in-house counsel. Association of Corporate Counsel 1025 Connecticut Avenue, NW, Suite 200 Washington, DC 20036 USA tel 1 202.293.4

2y ago

181 Views

Corporate Counsel College

CORPORATE COUNSEL TRAINING ACADEMY For in-house counsel newer to the role. For more information, please view the Corporate Counsel Training Academy brochure on www.iadclaw.org. 5:00 - 6:30 p.m. COCKTAIL RECEPTION THURSDAY, APRIL 7, 2022 7:15 - 8:00 a.m. BREAKFAST 8:00 - 8:15 a.m. OPENING REMARKS John T. Lay, Jr., Corporate Counsel College Dean .

1y ago

115 Views

Session 102 How to Become Insurance Panel Counsel & Tips on Ethical .

The retained counsel maintains a relationship between the insured client(s) and the carrier with the common goal of resolving the litigation or claim(s) asserted against the insured. In such a relationship, the carrier pays the defense cost and the legal fees of the panel counsel. However, the panel counsel/staff counsel

1y ago

124 Views

OFFICE OF THE GENERAL COUNSEL MEMORANDUM GC 15- 04 March 18, 2015

OFFICE OF THE GENERAL COUNSEL MEMORANDUM GC 15- 04 March 18, 2015 TO: All Regional Directors, Officers-in-Charge, and Resident Officers FROM: Richard F. Griffin, Jr., General Counsel SUBJECT: Report of the General Counsel Concerning Employer Rules Attached is a report from the General Counsel concerning recent employer rule cases. Attachment

1y ago

108 Views

Corporate Counsel: In the Crosshairs of a Criminal Ivestigation

Corporate counsel are expected, and in some cases required, to act independently of the very executives to whom they report. The fiduciary duties of corporate counsel now dic-tate that, at the first signs of suspicious activity, corporate counsel are expected to consult with outside counsel, initi-

1y ago

102 Views

Summaries of Published Successful Ineffective Assistance of Counsel .

innocence; counsel thought petitioner believed what he was saying but counsel disbelieved it, and counsel's approach was not designed to avoid suborning perjury but rather to avoid a death sentence. SCOTUS not apply did . Strickland. here "[b]ecause a client's autonomy, not counsel's competence, is in issue." 138 S. Ct. at 1510- 11.

1y ago

85 Views

SM Recruiting & Retaining In-House Counsel

May 30, 2013 · By in-house counsel, for in-house counsel. Association of Corporate Counsel 1025 Connecticut Avenue, NW, Suite 200 Washington, DC 20036 USA tel 1 202.2

2y ago

125 Views

Assistant General Counsel for Litigation, Employment and .

The Assistant General Counsel for Litigation, Employment, and Oversight (AGC/LEO) is the principal assistant and advisor to the General Counsel and Deputy General Counsel on legal aspects of the Department’s activities in the fields of employment, labo

2y ago

109 Views

Case: 15-6397 Document: 24 Filed: 02/04/2016 Page: 1 .

AMICUS CURIAE IN SUPPORT OF THE APPELLANT . ANNE K. SMALL General Counsel . SANKET J. BULSARA Deputy General Counsel . MICHAEL A. CONLEY Solicitor . WILLIAM K. SHIREY Assistant General Counsel . STEPHEN G. YODER Senior Litigation Counsel . Securities and Exchange

2y ago

105 Views

USCA Case #13-5252 Document #1455974 Filed: 09/11/2013 .

1615 H St., NW Washington, DC 20062 202.463.5337 Counsel for Appellant the Chamber of Commerce of the United States of America Of Counsel: Quentin Riegel National Association of Manufacturers 733 10th St., NW Suite 700 Washington, DC 20001 202.637.3000 Counsel for Appellant the National Association of Manufacturers Of Counsel: Maria Ghazal

2y ago

322 Views

OUTSIDE COUNSEL GUIDELINES - Government of New Jersey

counsel shall designate a Relationship Attorney to be the Designated Attorney's principal contact. Outside counsel may expect the Designated Attorney to provide clear, specific instructions; communicate the State's objectives; closely monitor the management plan and budget; follow the progress of the matter; keep outside counsel informed of .

1y ago

104 Views

Waiver of Counsel in Juvenile Court

Waiver of Counsel . 3 Waiver of Counsel in Juvenile Court . The Sixth Amendment states "[i]n all criminal prosecutions, the accused shall enjoy the right . . . to have the Assistance of Counsel for his defence." (U.S. Constit, amend. VI). This right is part of the Constitutional jurisdiction of the Court (Johnson v. Zerbst, 1938). Without it, the

1y ago

113 Views

Should Compliance Report to the General Counsel?

than 800 responses, 88% are opposed to the corporate counsel serving as the compliance officer, and 80% oppose having com-pliance report to the corporate counsel's office. Detailed Findings o Survey respondents were strongly opposed to the idea of corporate counsel also serving as the compliance officer.

1y ago

112 Views

The General Counsel Report 2021 Rising To Today's Challenges and .

general counsel evolved from the office of "no," to one of significant strategic influence. Once largely viewed as a cost center, or barrier to corporate progress, the general counsel of today are business drivers in their own right. This evolution for the general counsel came in the nick of time for the turmoil of 2020.

1y ago

105 Views

Leveraging Legal Leadership: The General Counsel as a Corporate Culture .

counsel and legal department, but the failure to draw that link may prove shortsighted on the part of the board. Given the importance of the general counsel in matters of ethics, compliance, corporate governance, and risk and reputation management, the general counsel should be a key ally and partner in establishing a

1y ago

150 Views

Algorithme Des K Plus Proches Voisins - Education.fr

It looks like you're using an ad-blocker