APLICACIÓN DE TÉCNICAS DE INDUCCIÓN DE ÁRBOLES DE DECISIÓN .

3y ago
29 Views
2 Downloads
2.72 MB
77 Pages
Last View : Today
Last Download : 3m ago
Upload by : Aliana Wahl
Transcription

APLICACIÓN DE TÉCNICAS DE INDUCCIÓN DE ÁRBOLES DEDECISIÓN A PROBLEMAS DE CLASIFICACIÓN MEDIANTE EL USODE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS).FUNDACIÓN UNIVERSITARIA KONRAD LORENZFACULTAD DE INGENIERÍA DE SISTEMASBOGOTÁ2008

APLICACIÓN DE TÉCNICAS DE INDUCCIÓN DE ÁRBOLES DEDECISIÓN A PROBLEMAS DE CLASIFICACIÓN MEDIANTE EL USODE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS).PAULA ANDREA VIZCAINO GARZONFUNDACIÓN UNIVERSITARIA KONRAD LORENZFACULTAD DE INGENIERÍA DE SISTEMASBOGOTÁ20082

CONTENIDOLISTA DE FIGURAS . 4INTRODUCCION . 71.MINERÍA DE DATOS . 81.1.CARACTERÍSTICAS Y OBJETIVOS DE LA MINERÍA DE DATOS . 82.ÁRBOLES DE DECISIÓN . 112.1.CICLO DE UN ÁRBOL DE DECISIÓN . 122.2.CONSTRUCCIÓN DE ÁRBOLES DE DECISIÓN . 132.3.CLASIFICACIÓN DE ÁRBOLES DE DECISIÓN . 142.3.1.ADTree - Alternating Decision Tree [4] . 142.3.2.Decision Stump o árbol de decisión de un nivel . 152.3.3.ID3 . 162.3.4.J48 o C4.5 . 182.3.5.LMT (Logistic Model Tree) . 202.3.6.M5P (Árbol de regresión) . 212.3.7.NBTree (Naive Bayes Tree) . 212.3.8.RandomForest . 222.3.9.RandomTree . 232.3.10.REPTree . 242.3.11.UserClassifier . 243.WEKA – Waikato Environment for Knowledge Analysis. 263.1.3.2.3.3.INSTALACIÓN Y EJECUCIÓN . 27FORMAS DE UTILIZAR WEKA . 28FICHEROS .ARFF . 314.SELECCIÓN Y SOLUCIÓN DEL PROBLEMA . 344.1.SELECCIÓN DE EJEMPLO. 344.2.EMPEZANDO CON WEKA . 37Paso 1 - Lanzar el interfaz Explorer. . 37Paso 2 - Cargar la base de datos. 37Paso 3 - Generación de gráficos . 384.3.ÁRBOLES DE DECISIÓN CON WEKA . 434.4.REVISANDO RESULTADOS . 685.BIBLIOGRAFÍA . 743

LISTA DE FIGURASFigura 1. Mapa Conceptual de Minería de Datos . 9Figura 2. Representación del conocimiento. 11Figura 3. Ejemplo de un árbol ADTree . 15Figura 4. Ejemplo de un árbol ID3 . 17Figura 5. Ejemplo aplicado de árbol de decisión adaptado para C4.5 . 19Figura 6. Ejemplo de un árbol de decisión generado por C4.5 . 19Figura 7. Pseudo código para el algoritmo LMT . 20Figura 8. Esquema del algoritmo Random Forest . 22Figura 9. Proceso para construir un Random Tree . 23Figura 10. Ejemplo de UserClassifier básico . 24Figura 11. Ejemplo de UserClassifier final . 25Figura 12. Imagen de una Weka . 26Figura 13. Ventana inicial de Weka . 29Figura 14. Interfaz Simple CLI . 29Figura 15. Interfaz Explorer. 30Figura 16. Interfaz Experimenter . 30Figura 17. Interfaz KnowledgeFlow . 31Figura 18. Interfaz Explorer con archivo Empleados.arff. 37Figura 19. Opción Visualice para Empleados.arff . 38Figura 20. Resultado de un nodo gráfico {Casado x Sueldo} . 39Figura 21. Visualización de características atributo Sueldo . 39Figura 22. Visualización de características atributo Casado . 40Figura 23. Visualización de características atributo Coche . 40Figura 24. Visualización de características atributo Hijos . 41Figura 25. Visualización de características atributo Alq/Prop. 41Figura 26. Visualización de características atributo Sindicato. 42Figura 27. Visualización de características atributo Bajas/Año . 42Figura 28. Visualización de características atributo Antigüedad . 43Figura 29. Visualización de características atributo Sexo . 43Figura 30. Visualización de pantalla clasificación ADTree . 44Figura 31. Visualización de pantalla al generar el árbol ADTree. 44Figura 32. Ventana Run information del árbol ADTree . 45Figura 33. Ventana Classifier model del árbol ADTree . 45Figura 34. Ventana Stratified cross-validation del árbol ADTree . 46Figura 35. Menú desplegable para visualización de árboles . 46Figura 36. Ventana de visualización de árbol de decisión ADTree. . 474

Figura 37. Visualización de pantalla clasificación DecisionStump. . 47Figura 38. Ventana al generar el árbol DecisionStump . 48Figura 39. Ventana Run information del árbol DecisionStump . 48Figura 40. Ventana Classifier model del árbol DecisionStump. 49Figura 41. Ventana Stratified cross-validation del árbol DecisionStump . 49Figura 42. Visualización de pantalla clasificación Id3. 50Figura 43. Ventana al generar el árbol Id3. . 50Figura 44. Visualización de pantalla clasificación J48. . 51Figura 45. Ventana al generar el árbol J48. 51Figura 46. Ventana Run information del árbol J48 . 52Figura 47. Ventana Classifier model del árbol J48 . 52Figura 48. Ventana Stratified cross-validation del árbol J48 . 52Figura 49. Ventana de visualización de árbol de decisión J48. . 53Figura 50. Visualización de pantalla clasificación LMT. . 53Figura 51. Ventana al generar el árbol LMT. . 54Figura 52. Ventana Run information del árbol LMT . 54Figura 53. Ventana Classifier model del árbol LMT . 55Figura 54. Ventana Stratified cross-validation del árbol LMT . 55Figura 55. Ventana de visualización de árbol de decisión LMT. . 56Figura 56. Visualización de pantalla clasificación M5P. . 56Figura 57. Ventana al generar el árbol M5P. . 57Figura 58. Visualización de pantalla clasificación NBTree. . 57Figura 59. Ventana al generar el árbol NBTree. . 58Figura 60. Ventana Run information del árbol NBTree . 58Figura 61. Ventana Classifier model del árbol NBTree . 59Figura 62. Ventana Stratified cross-validation del árbol NBTree . 59Figura 63. Ventana de visualización de árbol de decisión NBTree. . 60Figura 64. Visualización de pantalla clasificación RandomForest. . 60Figura 65. Ventana al generar el árbol RandomForest. . 61Figura 66. Ventana Run information del árbol RandomForest . 61Figura 67. Ventana Classifier model del árbol RandomForest . 61Figura 68. Ventana Stratified cross-validation del árbol RandomForest . 62Figura 69. Visualización de pantalla clasificación RandomTree. 62Figura 70. Ventana al generar el árbol RandomTree. . 63Figura 71. Ventana Run information del árbol RandomTree . 63Figura 72. Ventana Classifier model del árbol RandomTree . 64Figura 73. Ventana Stratified cross-validation del árbol RandomTree . 64Figura 74. Visualización de pantalla clasificación REPTree. . 655

Figura 75. Ventana al generar el árbol REPTree. . 65Figura 76. Ventana Run information del árbol REPTree . 66Figura 77. Ventana Classifier model del árbol REPTree . 66Figura 78. Ventana Stratified cross-validation del árbol REPTree . 66Figura 79. Visualización de árbol de decisión REPTree. . 67Figura 80. Visualización de pantalla clasificación UserClassifier. . 676

INTRODUCCIONTeniendo en cuenta el gran avance en los sistemas de minería de datosdesde el último siglo, las entidades educativas y empresariales hanbuscado maneras de explotar al máximo la información existente en sussistemas de información, esto basándose en técnicas y softwareespecializados que permiten interpretación fácil y real de los resultados.Es así como para dar apoyo en la toma de decisiones a nivelesadministrativos o gerenciales, se crean metodologías especializadas ytécnicas de extracción adecuada de la información, haciendo que elusuario final pueda ver los resultados en un solo clic o con pocos pasos,por tanto y teniendo en cuenta lo anterior, se crea el presente manual deusuario basado en la tecnología de información y software especializadoWEKA (Waikato Environment for Knowledge Analysis) de la universidadde Waikato en Nueva Zelanda, este utiliza técnicas de minería de datosbasándose en diferentes reglas y tipos de clasificación de informacióntales como árboles de decisión, reglas de clasificación, agrupamiento, etc.Al ser un software especializado brindara apoyo suficiente para interpretarresultados de manera matemática y estadística y por medio devisualización de gráficos o árboles que agregarán valor a los resultadosobtenidos.Finalmente al usuario final se deja el trabajo profundo de investigación deteoremas o teorías si así lo desea para complementar susinterpretaciones, pero se deja por parte del autor conceptos que facilitaranla comprensión de funcionamiento de la herramienta para la generaciónde resultados adecuados y continuar en la mejora constante de la misma.7

1. MINERÍA DE DATOSLa Minería de Datos busca el procesamiento de información de formaclara para el usuario o cliente, de tal forma que pueda clasificar lainformación de acuerdo a parámetros inicialmente establecidos y deacuerdo a las necesidades que se buscan, es decir por medio de laminería de datos se dan acercamientos claros a resultadosestadísticamente factibles a entendimiento y razón de una persona.Según Vallejos [1] varios autores describen la minería de datos como:9 Reúne las ventajas de varias áreas como la Estadística, laInteligencia Artificial, la Computación Gráfica, las Bases deDatos y el Procesamiento Masivo, principalmente usando comomateria prima las bases de datos.9 Un proceso no trivial de identificación válida, novedosa,potencialmente útil y entendible de patrones comprensibles quese encuentran ocultos en los datos (Fayyad y otros, 1996)1.9 La integración de un conjunto de áreas que tienen comopropósito la identificación de un conocimiento obtenido a partirde las bases de datos que aporten un sesgo hacia la toma dedecisión (Molina y otros, 2001) 2.1.1.CARACTERÍSTICAS Y OBJETIVOS DE LA MINERÍA DE DATOSo Explorar los datos que se encuentran en las profundidades de lasbases de datos.o El entorno de la minería de datos suele tener una arquitecturaclientes-servidor.o Las herramientas de la minería de datos ayudan a extraer elmineral de la información enterrado en archivos corporativos o enregistros públicos, archivadoso El minero es, muchas veces un usuario final con poca o ningunahabilidad de programación, facultado por barrenadoras de datos yotras poderosas herramientas indagatorias para efectuar preguntasadhoc y obtener rápidamente respuestas.o Hurgar y sacudir a menudo implica el descubrimiento de resultadosvaliosos e inesperados.o Las herramientas de la minería de datos se combinan fácilmente ypueden analizarse y procesarse rápidamente.o Debido a la gran cantidad de datos, algunas veces resultanecesario usar procesamiento en paralelo para la minería de datos.1Citado en S. Vallejos, “Trabajo de adscripción minería de datos”, Corrientes - Argentina,2006, pp. 11.2Citado en S. Vallejos, “Trabajo de adscripción minería de datos”, Corrientes - Argentina,2006, pp. 11.8

o La minería de datos produce cinco tipos de información:- Asociaciones.- Secuencias.- Clasificaciones.- Agrupamientos.- Pronósticos.Como se puede observar en la Figura 1 la minería de datos clasifica lainformación y la procesa para obtener un resultado, para esto se debepasar por ciertos procedimientos que se describen según [2] como:1.2.3.Limpieza de datos: Pre-procesar la data a fin de reducir elruido y los valores nulos.Selección de característica: Eliminar los atributosirrelevantes o redundantes.Transformación de datos: Estandarizar, normalizar ogeneralizar los datos.Figura 1. Mapa Conceptual de Minería de DatosAsí mismo y según [2] lo que permite este modelo de minería de datos esdar exactitud de la predicción (eficacia); velocidad y escalabilidad entérminos del tiempo para construir el modelo y el tiempo para usar elmodelo; robustez en cuanto a administración del ruido y de valores nulos;9

escalabilidad para buscar eficienciadisco; interpretabilidad para darproporcionados por el modelo; y porcuanto a buscar tamaño de árbol dede clasificación.en bases de datos residentes enentendimiento y descubrimientosúltimo dar bondad de las reglas endecisión y compacidad de la reglas10

2. ÁRBOLES DE DECISIÓNUn árbol de decisión es un conjunto de condiciones o reglas organizadasen una estructura jerárquica, de tal manera que la decisión final se puededeterminar siguiendo las condiciones que se cumplen desde la raíz hastaalguna de sus hojas.Un árbol de decisión tiene unas entradas las cuales pueden ser un objetoo una situación descrita por medio de un conjunto de atributos y a partirde esto devuelve una respuesta la cual en últimas es una decisión que estomada a partir de las entradas.Los valores que pueden tomar las entradas y las salidas pueden servalores discretos o continuos. Se utilizan más los valores discretos porsimplicidad. Cuando se utilizan valores discretos en las funciones de unaaplicación se denomina clasificación y cuando se utilizan los continuos sedenomina regresión.Un árbol de decisión lleva a cabo un test a medida que este se recorrehacia las hojas para alcanzar así una decisión. El árbol de decisión suelecontener nodos internos, nodos de probabilidad, nodos hojas y arcos [3].9 Un nodo interno contiene un test sobre algún valor de una de laspropiedades.9 Un nodo de probabilidad indica que debe ocurrir un eventoaleatorio de acuerdo a la naturaleza del problema, este tipo denodos es redondo, los demás son cuadrados.9 Un nodo hoja representa el valor que devolverá el árbol dedecisión.9 Las ramas brindan los posibles caminos que se tienen de acuerdoa la decisión tomada.Y01XX01010Z1Z01010101Figura 2. Representación del conocimiento.11

2.1.CICLO DE UN ÁRBOL DE DECISIÓNDe acuerdo al ciclo que debe ser aplicado a un árbol de decisión, se tiene:1. Aprendizaje:2. Clasificación:Un ejemplo para la compra de un computador se puede dar primero,especificando las reglas o condiciones que se han recolectado de unabase de datos.age 30 3031 40 40 40 4031 40 30 30 40 3031 4031 40 40income tno12

Seguidamente se construye el árbol de decisión de acuerdo a losparámetros levantados en

de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina y otros, 2001) 2. 1.1. CARACTERÍSTICAS Y OBJETIVOS DE LA MINERÍA DE DATOS o Explorar los datos que se encuentran en las profundidades de las bases de datos. o El entorno de la minería de datos suele tener una arquitectura

Related Documents:

1. T cnicas de confecci n: Introducci n de tallos (esponjas, kenzan, estructuras libres, entre otros). Atados (radial, paralelo, entrecruzado, entre otros). T cnicas alternativas e innovadoras. T cnicas de pegado. T cnicas de alambrado y forrado. T cnicas y medios para la conservaci n de composiciones florales. 2.

Teoremas de Rolle y del valor medio. Regla de L’H opital. Aplicaci on al c alculo de l mites. Aplicaciones de la derivada. Interpretaci on geom etrica. Primitiva de una funci on. C alculo de primitivas. La integral de nida. Teorema del valor medio y Teorema Fundamental del C alculo. Aplicaci on al c alculo

Educaci n emocional La aplicaci n de t cnicas coopera-tivas favorece el aprendizaje, incre-menta la participaci n y el sentido de responsabilidad del alumnado . colecci n de tarjetas con informaci n visual, puzles y kits de semillas. Ciencias de la Naturaleza 2. Murales (medidor-

Genera alternativas de acci n para competir de manera efectiva en el mercado mediante el dise o de estrategias para cada rea funcional. ! Elabora planes de largo, mediano y corto plazos para dirigir a la organizaci n al logro de objetivos mediante la aplicaci n de t cnicas de gesti n y estrategia empresarial.

riesgos para el operario, as como el desarrollo de t cnicas o tecnolog as alternativas para deter - minar el volumen m s eficiente de aplicaci n de los productos fitosanita - rios, consiguiendo aplica - ciones m s ptimas. Dirigida por el profesor Emilio Gil, del Depar - tamento de Ingenier a Agroalimentaria y Biotec -

D as 31 al 35 . Entrega del manual de nitivo y explicaci on del funcionamiento de la plata-forma LifeRay al tutor, a la directora de la Escuela de Enfermer a y al responsable del Gabinete de Comunicaci on. D a 36 . Formaci on a las secretarias de la Escuela de Enfermer a para que sean capaces de actualizar la plataforma web. D a 37 . Busqueda y .

rehabilitaci on por pacientes, con el n de evitar los abandonos de dichos ejercicios, especialmente en ninos. La estructura del c odigo de la aplicaci on sigue el modelo del software desarrol-lado en el Laboratorio de Rob otica de la Universidad de Extremadura (UNEX) (RoboLab) de la Escuela Polit ecnica de C aceres (EPCC), de forma que es compati-

en que hay que rehacer la totalidad de la aplicaci n. E sto es f cilm ente asum ible por un profesional de la infor dente en otros casos. P or ejem plo, en el m es de noviem bre del 2006 la Universid ad de Deusto organiz un workshop invitando a una decena de investigadores en el