Clasificacion De Patrones

1y ago
38 Views
2 Downloads
703.53 KB
36 Pages
Last View : 1m ago
Last Download : 2m ago
Upload by : Cannon Runnels
Transcription

CLASIFICACION DEPATRONESM. Cabrera, J. VidalDept. TSCETSETBUPCFebrero-Mayo 20071

TEMA 1: INTRODUCCIÓNObjetivo:Aplicar algoritmos de clasificación adiversos problemas de clasificación queaparecen en diferentes campos odisciplinas de trabajo.Misma Teoría Matemática: MúltiplesAplicaciones2

TEMA 1: INTRODUCCIÓNPROBLEMA BÁSICO:Base de Datos:– Vectores de Datos o de Características– Pertenecientes a Diferentes Tipos o ClasesObjetivo:– Diseñar un Algoritmo para Clasificar un Nuevo VectorCondicionantes:– Se conoce a priori la estadística de los Vectores?– Se conoce a priori la clase a la que pertenece cada uno de losvectores de la base de datos?3

EtapasCLASIFICACIÓN:PreProcesadoExtracción deCaracterísticasVectordimensión dMáquinaDecisión:ClasificaciónClase4

TemasDIFERENTES GRADOS DE RESOLUCIÓN DELPROBLEMA1.2.3.4.5.6.INTRODUCCIÓNMODELOS BASADOS en f.d.p.Selección de Características PCA-ICATECNICAS NO basadas en f.d.p.APRENDIZAJE SUPERVISADOAPRENDIZAJE NO SUPERVISADOAPRENDIZAJE INDEPENDIENTE DELALGORITMO5

TEMA 1: INTRODUCCIÓN ones: Detección de Símbolos.Reconocimiento de VozClasificación de Imágenes.Identificación biométrica.Análisis de datos médicos: Detección deEnfermedadesOCR (Reconocimiento Óptico de Caracteres)Identificación de ADNSPAM: Reconocimiento de correo electrónico basura.Etc.6

TEMA 1: INTRODUCCIÓN BASES DE DATOS DISPONIBLES EN LAB:– Comunicaciones: Detección de Símbolos.– Reconocimiento de Fonemas.– Análisis de datos médicos: Detección deEnfermedades– OCR (Reconocimiento Óptico de Caracteres)– Identificación de ADN– SPAM: Reconocimiento de correo electrónico basura.– Titanic– Base de datos: Voces (Señales de audio).– Base de datos: Brain: Imágenes de cortes cerebrales– Nuevas?7

Ejemplo 1: Símbolo 1 ó Símbolo 2Preprocesado:DownConversión eoClasificación:Detección MAP8

Ejemplo 2: Salmón o LubinaEjemplo:Clasificarsalmones olubinas a partirde datosópticos:-Luminosidad-Longitud-Ancho9

Ejemplo 3:Diagnóstico de enfermedades cardiacasEjemplo:BASE DE DATOS SHEART: utilizada para predicción del riesgo decontraer enfermedad cardiacaVECTOR DE CARACTERÍSTICAS: (análisis de sangre, tabaquismo,antecedentes familiares, obesidad, consumo de alcohol, edad) Identificar las características más significativas para determinarla enfermedad. Predecir a partir de cada vector la probabilidad de sufrir unataque de miocardio10

Ejemplo 3:Base de Datos SheartSample of males in a heart-disease high-risk region of the WesternCape, South Africa.sbpsystolic blood pressuretobaccocumulative tobacco (kg)ldllow densiity lipoprotein cholesteroladiposityfamhistfamily history of heart disease (Present, Absent)typeatype-A behaviorobesityalcoholcurrent alcohol consumptionageage at onsetchdresponse, coronary heart diseasesbp tob160 12ldlAdip. fa5.73 23.11 1A49Ob. alc age25.3 97.2 52 11

Ejemplo 3:Base de Datos Sheart12

Ejemplo 4:Base de PHONEMESampligFrequency 8KHzLOG(ESPECTRUM)aa ao dcl iy sh695 1022 7571163 872Figure: FeatureVector Dimension 6413

Ejemplo 4:Base de PHONEME, Scatter Plot14

Ejemplo 5:Identificación Biométrica:15

Etapas en el algoritmo declasificación:1. Pre - Procesado2. Extracción de un vector de características(Feature Extractor)3. ClasificaciónPreProcesadoExtracción deCaracterísticasVectordimensión dMáquinaDecisión:ClasificaciónClase16

Etapas en el Diseño delSistema de ReconocimientoColeccionarDatosBase de Datosde TrainBase de Datosde Test1. Dividir Base de Datos en “ nuevasBases de datos: Train, TestSelección TestTrainClasificadorClasificador2. Selección de CaracterísticasSistemaClasificador3. Selección Algoritmo de Clasificación(Algoritmo)4. Entreno del Algoritmo5. Test del Algoritmo17

Selección de Características:Ejemplo:1.51V1 (0.1,0.5,1)T0.5V2 -(0.1,0.5,1)TVarianza ruido 0.1Se puedenclasificar datos conmenos de 3características?0-0.5-1-1.5420-2210-1-218

Selección de 1 ó 2 -1.5-1.5-1-0.500.511.5-2-2-1.5-1-0.500.511.522.519

Selección de características:Longitud del pescado: Gran error de ClasificaciónHISTOGRAMA:20

Selección de características:Luminosidad del pescado: Disminuye el error de Clasificación21

Selección de características:Luminosidad y ancho del pescado:Disminuye el error de Clasificación22

Selección de características:SheartCholesterolandAGE23

Selección de características:Phonemas5Classes:aa aodcl iysh24

COMPONENT ANALYSISICA Independent Component Analysis Application: Blind Source Separation(cocktail party problem).25

Colección de Datos:Base de Datos La ó las Base de Datos disponibles para eldiseño del clasificador se dividirán en:– Base de Datos (Vectores Muestra) deEntrenamiento– Base de Datos de Test26

Selección de Características En ocasiones, el diseño de esta etapa puederesultar de mayor repercusión en el error declasificación que el propio clasificador. Un número moderado de característicasinfluye en– Regiones de decisión más simples– Clasificador más fácil de entrenar– Así mismo se requiere que las características seanrobustas a ruido, otros tipos de error, etc.27

Selección de Características Capacidad de Discriminación: Lascaracterísticas deben constituir agrupaciones devalores medidos que se mantienen muysemejantes entre objetos de la misma categoría ydiferentes entre objetos de distintas categorías.– Baja variabilidad Inter-clases– Alta variabilidad Intra-clases Interesan características invariantes atransformaciones irrelevantes del vector deentrada, como por ejemplo.– Escalado– Rotación– Traslación28

Clasificador: El clasificador asigna un objeto o categoría apartir del vector de características medido. El grado de dificultad del diseño del algoritmo declasificación propiamente dicho depende delgrado de variabilidad, que interesa:– Baja variabilidad Inter-clases– Alta variabilidad Intra-clases El ruido que afecta a esta variabilidad se clasificaa groso modo en:– Ruido intrínseco a las clases, difícilmente modelables.– Ruido ajeno: Medida.29

Clasificador: Entrenamiento del Clasificador. Se debenajustar una serie de parámetros a la aplicacióndeterminadaa partir de un entrenamiento mediantevectores de características de los cuales se conocea priori la clase o categoría a la que pertenecen. La evaluación del clasificador debe hacerse enfunción del criterio de diseño elegido: Mínimo errorde clasificación o Minimizar una función de coste oriesgo. Eficiencia Computacional del Clasificador Aprendizaje Supervisado vs Aprendizaje NOSupervisado. (No se siempre se dispone a prioride datos clasificados por clases o categorías).30

Teoría asociada En general los clasificadores se basan en las propiedades estadísticas de losvectores muestra. Ya sea explícitamente o implícitamente las f.d.p. de los datosdesempeñan un papel fundamental en los diferentes algoritmos de clasificación. Cuando los datos no son numéricos y en función de la aplicación las f.d.p. noconstituyen la herramienta más adecuada. Así por ejemplo en reconocimiento demodelos sintácticos, que siguen determinadas normas lógicas, se requiere conocerreglas gramaticales que describan cada una de las decisiones a determinar. Idealmente como conocimientos previos en el desarrollo de un clasificador serequiere (compromiso):–– Conocimiento Previo del ProblemaGran cantidad de datos de entrenamiento.El desarrollo a lo largo de esta asignatura se va a hacer trabajando con vectoresreales, ya que en la mayoría de bases de datos, las muestras son reales. Tienesentido trabajar con muestras complejas especialmente en las aplicaciones decomunicaciones, donde las señales I&Q se representan mediante númeroscomplejos. En general, al aplicar los diferentes algoritmos con muestras complejasse han de generalizar las diferentes estrategias de clasificación31

Conclusiones En los ejemplos anteriores han aparecidoimplícitamente diferentes conceptos:– Teoría de la Decisión– Función de coste de la decisión (error declasificación)– Zonas de decisión que dividen el espacio decaracterísticas32

Temas1.INTRODUCCIÓN (2h)2.MODELOS BASADOS en f.d.p. MAP, Caso Ideal en el que se conoce de forma ideal la f.d.p. de las categorías subyacentes. (4h) ML, Se conocen la forma de las diferentes f.d.p. salvo el valor particular de determinados parámetros (4h)Duda, Temas 2,33. SELECCIÓN DE CARACTERÍSTICAS BASADA EN EL ANÁLISIS DE COMPONENTES.PCA, ICA (Independent Component Analysis) (4h)4.TÉCNICAS NO basadas en f.d.p. APRENDIZAJE SUPERVISADONo se tiene ningún conocimiento a priori sobre las f.d.p. K-NEAREST (2h) Funciones discriminantes Lineales (2h) Redes Neuronales (4h) Métodos de Árbol (Reglas lógicas) (2h)Duda, Temas 4,5,6,7,85.APRENDIZAJE NO SUPERVISADO (2h)No se tiene información previa, K Means, ClusteringDuda Tema 10 Ref6.APRENDIZAJE INDEPENDIENTE DEL ALGORITMO/VALIDACIÓN DE CLASIFICADORES Elección Forward-Backward de las características, Cross-Validation, Selección del mejor algoritmo de clasificación (2h)Duda, Temas 9 Ref33

EVALUACIÓN1.2.3.4.Asistencia a clases y desarrollo de las prácticas(Test de algoritmos, evaluación de resultados,programación en Matlab, nivel sencillo) – 30%Entrega y Realización de Ejercicios Propuestos enclase – 15%Presentación de trabajo: Prueba de los diferentesalgoritmos de clasificación con una base de datos.– 15%Examen final: Ejercicios propuestos en las clasesteóricas. – 40%(15-JUNIO-2007, Viernes 8h)34

Referencias, Facilidades [Duda,2001] R. O. Duda, P. E. Hart, D. G.Stork. “Pattern Classification”, Ed. WileyInterscience, 2002.[Stork,2004] Computer Manual in MATLABto Accompany Pattern Classification, 2ndEdition. David G. Stork, Elad Yom-Tov. Ed.Wiley Interscience, 2004[T. Hastie, R. Tibshirani, J. H. Friedman2001] The Elements of Statistical LearningSpringer Verlag, 2001[Hyvarinen, 2001] Independent ComponentAnalysis, Aapo Hyvarinen, Juha Karhunen,Erkki Oja. Ed. Wiley Interscience, 2001.[Heijden, 2004] Classification, ParameterEstimation and State Estimation - AnEngineering Approach Using MATLAB.Author: van der Heijden (John Wiley)[Kuncheva, 2004] Combining PatternClassifiers: Methods and Algorithms,Ludmila I. Kuncheva ,July 2004, Ed Wiley[Bishop,2006] “Pattern Recognition andMachine Learning”, Christopher M. Bishop,Springer (2006).35

Referencias, Facilidades cias de las clases, Enunciados de Prácticas)Software en Matlab PRTools, a Matlab Toolbox for Pattern Recognition Pattern Recognition Group– Department of Imaging Science and Technology, Faculty of Applied Sciences,Delft University of Technology, Lorentzweg,The NetherlandsPRTools, a MatlabToolbox for Pattern Recognition Pattern Recognition Group– http://www.prtools.org/The FastICA package for ca/ MATLAB GUI Tool: [Stork,2004] Computer Manual in MATLAB to AccompanyPattern Classification, 2nd Edition Bases de datos: Datasets for "The Elements of Statistical Learning“: Department ofStatistics at Stanford University–http://www-stat.stanford.edu/ tibs/ElemStatLearn/36

CLASIFICACION DE PATRONES M. Cabrera, J. Vidal Dept. TSC ETSETB UPC Febrero-Mayo 2007. 2 TEMA 1: INTRODUCCIÓN Objetivo: Aplicar algoritmos de clasificación a diversos problemas de clasificación que . (Transparencias de las clases, Enunciados de Prácticas) Software en Matlab

Related Documents:

Patrones Repetitivos y Crecientes Dra. Yolanda Vélez Nivel: 4-6 1 Patrones Repetitivos y Crecientes Módulo #4 4t0, 5t0, 6t0 grado Preparado por Dra.

causa el brillo del sol en el agua, el brillo en la superficie que a menudo se ve en un día soleado. Es el mismo concepto que explica los patrones de luz brillante que observamos en una piscina. Estos patrones de luz son causados por una superficie ondulada, pero a diferencia del océano, donde no podemos ver el fondo, los patrones de luz

Clasificación de los SUELOS: clasificación Americana Es una clasificación aplicada a la gestión de suelos y a la agricultura. Con escasa base genética Basada en "jerarquías" de menor a mayor concreción. Su unidad clave es el "horizonte de diagnóstico" CLASIFICACION: ORDENES (10) SUBORDENES (40) GRANDES GRUPOS FAMILIAS SERIES

Este manual reúne un listado actualizado de localidades 1, con el objetivo de facilitar la ubicación de estas unidades geográficas según el ditrito al que pertenecen, asi como su clasificación por tipología. Las localidades y su clasificación por tip

Clasificación general de motores eléctricos Antes de comenzar el estudio del motor trifásico de inducción se verá una clasificación general de los tipos principales de motores en la industria. 2. Introducción Un motor trifásico de inducción (MTI) es un conversor electromecánico reversible, capaz de convertir .

CLASIFICACIÓN DE KÖPPEN FUNDAMENTOS TEÓRICOS La clasificación climática más extendida y utilizada es la establecida originalmente por el botánico y climatólogo Wladimir Köppen (1846-1940) a principios del siglo XX, que fue posteriormente revisada por sus discípulos R. Geiger y W. Pohl. Su principal interés radicaba en encontrar que los

CLASIFICACION Y DELIMITACION P. Moreno‐Casasola. Requisitos de un sistema de clasificación 1.Aplicable a todo el país, con su diversidad territorial y climática y su probl áti d t i t hblemática de asentamientos humanos 2. Jerárquico y debe comprender todos los tipos de humedales

Figure 1 n: A example of agile software development methodology: Scrum (Source: [53]) 2013 Global Journals Inc. (US) Global Journal of Computer Science and Technology Volume XIII Issue VII Version I