Introducci¶on A Las Redes Neuronales - Unican.es

1y ago
21 Views
2 Downloads
772.86 KB
47 Pages
Last View : 11d ago
Last Download : 3m ago
Upload by : Amalia Wilborn
Transcription

Introducción a las Redes NeuronalesJosé Manuel Gutiérrez (Universidad de nican.es/ gutierjmhttp://ccaix3.unican.es/ AIGroupJAVA:http://www.aist.go.jp/NIBH/ b0616/Lab/Links.html

Universidadde CantabriaDEFINICIONES DEINTELIGENCIA ARTIFICIALLas “definiciones” de Inteligencia Artificial(IA) involucran las siguientes ideas: Métodos y algoritmos que permitan com-portarse a las computadoras de modo inteligente. Estudio de las facultades mentales através del uso de modelos computacionales. Desarrollo de autómatas (máquinas con-struidas por el hombre) para simular elproceso deductivo e inductivo humano deadquisición y aplicación de conocimiento.Dogma central de la IA: “los procesos que se llevan a cabo en elcerebro pueden ser analizados, a un nivelde abstación dado, como procesos computacionales de algún tipo”.Introducción a las Redes Neuronales2

CONTROVERSIAUniversidadde CantabriaDurante el desarrollo de la IA siempre ha existidouna controversia sobre los lı́mites de esta Ciencia Hubert L. Dreyfus, What Computers Can’t Do“Great artists have always sensed thetruth, stubbornly denied by both philosophers and technologists, that the basis ofhuman intelligence cannot be isolated andexplicitly understood.” Donald Michie, Chief Scientist of the TuringInstitute“It is a mistake to take up too muchtime asking, “Can computers think?” “Canthey be really creative?” For all practicalpurposes they can. The best course for us isto leave the philosophers in their dark roomand get on with using the creative computerto the full.”Introducción a las Redes Neuronales3

EVOLUCION DE LA IAPrimera Generación (hasta 1955)Universidadde CantabriaEsta generación estableció las bases filosóficas y losprimeros modelos matemáticos de esta disciplina.Alan Turing (1950) publicó Computing Machinery and Intelligence donde sugiere: “machines maysomeday compete with men in all purely intellectualpursuits.”Claude Shannon (1950) publicó “A Chess-PlayingMachine” en Scientific American analizando elproblema del juego automático de ajedrez (10120movimientos posibles).En 1953, publicó “Computers and Automata” connuevos y sugestivos interrogantes. ¿Podrá construirse una máquina que1. localice y repare sus propias averı́as?2. que se programe a sı́ misma?3. que “aprenda”?Warren McCulloch and Walter Pitts (1943)primer modelo matemático de red neuronal en “ALogical Calculus of the Ideas Immanent in NervousActivity”. Este modelo consistı́a en una red de neuronas binarias y sinapsis. Este modelo es esencialmente equivalente a una máquina de Turing.Introducción a las Redes Neuronales4

EVOLUCION DE LA IASegunda GeneraciónUniversidadde Cantabria La Conferencia de DartmouthOrganizada by John McCarthy y Marvin Minsky(1956), fundó las bases modernas de esta disciplina bajo el lemato proceed on the basis of the conjecturethat every aspect of learning or any otherfeature of intelligence can in principle be soprecisely described that a machine can bemade to simulate it. Logic Theorist fue uno de los primeros programas eficientes desarrollado Allen Newell, HerbertSimon y J.C. Shaw. Fue capaz de probar 38 delos primeros 52 teoremas del Capı́tulo 2 del libroPrincipia Mathematica de Whitehead y Russell. Mycin fue el pionero de los sistemas expertos (desarrollado por Edward Shortliffe). Puedediagnosticar infecciones bacterianas a partir desı́ntomas. En 1957 Allen Newell predijo que en un plazode 10 años, un ordenador serı́a el campeón delmundo de ajedrez.Introducción a las Redes Neuronales5

EL TEST DE TURINGUniversidadde CantabriaAlan M. Turing (1912-1954), en el artı́culo “Computing Machinery and Intelligence”, describió un juegode imitación para probar la “inteligencia” de lasmáquinas: “If conversation with a computer is indistinguishable from that with a human, the computeris displaying intelligence.” Test de Turing: Primera Fase– An interrogator tries to determine which oftwo communicators is a man and which is awoman by questioning each. The rules of thegame require the man to try to fool the interrogator and the woman to try to convincehim that she is the woman. Queries are madethrough a neutral medium such as a remoteterminal and each party is isolated in a separate room to eliminate any visual or audibleclues. Test de Turing: Segunda Fase– Now the man is replaced by a computer andthe game resumes. If the computer can deceivethe interrogator as often as the man did, wesay the computer is displaying intelligence.Introducción a las Redes Neuronales6

Universidadde CantabriaCARACTERISTICAS DELOS MODELOS DE IALos modelos y algoritmos “estándard” de la IAtienen las siguientes caracterı́sticas: El conocimiento se representa explı́citamente usando reglas, redes semánticas, modelos probabilı́sticos, etc., Se imita el proceso humano de razonamientológico para resolver los problemas, centrando laatención en las causas que intervienen en el problema y en sus relaciones (encadenamiento de reglas, inferencia probabilı́stica), y Se procesa la información secuencialmente.Con el rápido desarrollo de la IA aparecieron ungran número de problemas complejos donde no nose disponı́a de una representación explı́cita del conocimiento y de un procedimiento de razonamientológico para resolverlo.Posibles causas de este fallo: Procedimientos algoritmicos y estructura computacional empleados eranincorrectos.Posible solución: Uso de estructuras computacionales paralelas inspiradas en redes neuronalesbiológicas.Introducción a las Redes Neuronales7

INSPIRACION BIOLOGICAUniversidadde CantabriaLas neuronas receiven señales (inputs) de otrasneuronas via conexiones sinápticas que pueden serexcitantes o inhibidoras. En función de las señalesrecibidas, una neurona envı́a a su vez una señal aotras neuronas por medio del axón.Una neurona contiene un potencial interno continuollamado potencial de membrana. Cuando ésteexcede un cierto valor umbral, la neurona puedetransmitir todo su potencial por medio del axón.Se estima que el cerebro humano contiene más decien mil millones (1011) de neuronas y que hay másde 1000 sinápsis a la entrada y a la salida de cadaneurona.Introducción a las Redes Neuronales8

Universidadde CantabriaREDES NEURONALESARTIFICIALES(NEURAL NETWORKS)Neural Network Study (1988, AFCEA InternationalPress, p. 60):. a neural network is a system composedof many simple processing elements operatingin parallel whose function is determined bynetwork structure, connection strengths, andthe processing performed at computing elements or nodes.Haykin, S. (1994), Neural Networks: A Comprehensive Foundation, NY: Macmillan, p. 2:A neural network is a massively parallel distributed processor that has a naturalpropensity for storing experiential knowledgeand making it available for use. It resemblesthe brain in two respects:1. Knowledge is acquired by the networkthrough a learning process.2. Interneuron connection strengths knownas synaptic weights are used to store theknowledge.Introducción a las Redes Neuronales9

REDES NEURONALESESTRUCTURAUniversidadde CantabriaNetworkNeuronx1 wi1x2 wi2F(wi,x)yiwinxn Las redes neuronales artificiales estáncopuestas de gran cantidad de procesadores conectados entre sı́ y actuandoen paralelo.Los modelos neuronales biológicos sonmucho más complejos que los modeloscomputacionales actuales. El comportamiento de la red está deter-minado por su topologı́a, los pesos de lasconexiones y la función caracterı́stica delas neuronas.Introducción a las Redes Neuronales10

Universidadde CantabriaREDES NEURONALESCARACTERISTICAS Aprendizaje Adaptativo: Las RNAaprenden a realizar tareas a partir de unconjunto de datos dados en el proceso deaprendizaje. Auto-organización:Pueden crear supropia organización o representación dela información recibida. Operación en tiempo real: Las op-eraciones realizadas pueden ser llevadasa cabo por computadores paralelos, odispositivos de hardware especiales queaprovechan esta capacidad. Tolerancia a fallos parciales: La de-strucción parcial de una red daña parcialmente el funcionamiento de la misma,pero no la destruye completamente. Estoes debido a la redundancia de la información contenida.Introducción a las Redes Neuronales11

Universidadde CantabriaREDES NEURONALESDEFINICIONESDefinition 1 (Neurona o Unidad Procesadora) Unaneurona, o unidad procesadora, sobre un conjunto denodos N , es una tripleta (X, f, Y ), donde X es unsubconjunto de N , Y es un único nodo de N y f : es una función neuronal (también llamada funciónactivación) que calcula un valor de salida para Ybasado en una combinación lineal de los valores delas componentes de X, es decir,Y f(Xxi Xwi xi).Los elementos X, Y y f se denominan conjunto denodos de entrada, conjunto de nodos de salida, yfunción neuronal de la unidad neuronal, respectivamente.Definition 2 (Red Neuronal Artificial) Una redneuronal artificial (RNA) es un par (N, U ), dondeN es un conjunto de nodos y U es un conjunto deunidades procesadoras sobre N que satisface la siguiente condición: Cada nodo Xi N tiene que ser unnodo de entrada o de salida de al menos una unidadprocesadora de U .Introducción a las Redes Neuronales12

REDES NEURONALESEJEMPLOUniversidadde Cantabria ({x1, x2, x3}, f1, {x4}), ({x1, x2, x3}, f2, {x5}), ({x1, x2, x3}, f3, {x6}), ({x4, x5, x6}, f4, {x7}), y ({x4, x5, x6}, f5, {x8}).U1U2U3U4U5Red (a)X1X4X7X2X5X8X3X6Neuronax1x2w1w2y f(Σ wi xi)wnxn(b)SalidaNeuronaPesosEntradasIntroducción a las Redes Neuronales13

EL APRENDIZAJEUniversidadde CantabriaExisten dos fases en toda aplicación de las redes neuronales: la fase de aprendizaje o entrenamiento y lafase de prueba. Fase de Aprendizaje: una caracterı́stica delas redes neuronales es su capacidad de aprender. Aprenden por la actualización o cambio delos pesos sinápticos que caracterizan a las conexiones. Los pesos son adaptados de acuerdo a lainformación extraı́da de los patrones de entrenamiento nuevos que se van presentando. Normalmente, los pesos óptimos se obtienen optimizando (minimizando o maximizando) alguna”función de energı́a”. Por ejemplo, un criterio popular en el entrenamiento supervisado esminimizar el least-square-error (error cuadraticomedio) entre el valor deseado y el valor de salidade la red. Fase de Prueba: Una vez calculados los pesosde la red, las neuronas de la última capa se comparan con la salida deseada para determinar lavalidez del diseño.Introducción a las Redes Neuronales14

Universidadde CantabriaEL APRENDIZAJEMETODOSSupervisado: Los datos están consistituidos porvarios patrones de entrada y de salida. El hechode conocer la salida implica que el entrenamiento sebeneficia la supervisión de un maestro.No Supervisado: Para los modelos de entrenamiento No Supervisado, el conjunto de datos deentrenamiento consiste sólo en los patrones de entrada. Por lo tanto, la red es entrenada sin el beneficio de un maestro. La red aprende a adaptarsebasada en las experiencias recogidas de los patronesde entrenamiento anteriores.SupervisadoNo SupervisadoPerceptrón / multicapa Mapa de caracterı́sticasModelos temporalesRedes competitivasIntroducción a las Redes Neuronales15

APRENDIZAJE DE HEBBUniversidadde CantabriaHebb describe una forma de ajustar el peso de unaconexión acorde a la correlación exitente entre losvalores de las dos unidades de proceso que conecta.En su libro, “The Organization of Behavior (1949)”:When an axon of cell A is near enough toexcite a cell B and repeatedly or persistentlytakes a part in firing it, some growth processor metabolic change takes place in one or bothcells such that A’s efficiency as one of the cellsfiring B is increased.Computacionalmente, esto se traduce en: No Supervisado: el valor del peso wij es la correlación del valor de las unidades xi y xj : wij xixj Supervisado: Se ajusta el valor del peso entrelas dos unidades en proporción a la diferencia entre los valores deseado y calculado en cada unade las unidades de la capa de salida. wij αxi[yj yˆj ]α es la constante de aprendizaje (0 α ¿ 1).Introducción a las Redes Neuronales16

VALIDACION DEL MODELOUniversidadde CantabriaUna vez que ha terminado el proceso de aprendizajey los pesos de la red neuronal han sido calculados,es importante comprobar la calidad del modelo resultante. Algunas medidas estándar del error son:1. La suma de los cuadrados de los errores (SumSquare Errors, SSE), definida comorXp 1k bp b̂p k2 .(1)2. La raı́z cuadrada del error cuadrático medio(Root Mean Square Error, RMSE) definida comovuu Xruutp 1k bp b̂p k2 /r.(2)3. El error máximo,max{k bp b̂p k, p 1, . . . , r},(3)donde b̂p es la salida de la red para el vector de entrada ap. Nótese que en el caso de una única salida, la función norma k . k se reduce a la funciónvalor absoluto . usual.Introducción a las Redes Neuronales17

SOBREAJUSTE (OVERFITTING)Universidadde CantabriaEn estadı́stica es bien conocido que cuando se utiliza un modelo con muchos parámetros para ajustar un conjunto de datos procedente de proceso conpocos grados de libertad, el modelo obtenido puedeno descubrir las tendencias reales del proceso original, aunque pueda presentar un error pequeño.La curva (a) pasa exactamente por los puntos deentrenamiento. La curva (b) muestra el comportamiento sobre un conjunto alternativo. La curva(c) es un polinomio de tercer grado. La diferenciaentre ambos modelos puede verse en (c)(d)0002468100246Introducción a las Redes Neuronales18810

NEURONASUNIDADES DE PROCESOUniversidadde Cantabria Neuronas: X (x1, . . . , xi, . . . , xn), donde xi esel nivel de actividad de la i-ésima neurona. Pesos: los pesos de la neurona i-ésima formanun vector Wi (wi1, . . . , wij , . . . , wi,n), donde wijes el peso de la conexión de xj a xi.La actividad lineal de xi está dada por la función,F (xi, Wi) nXj 1wij xj ,que depende de los pesos Wi.x1 wi1x2wi2winθi-1nΣ wij xjj 1nf( Σ wij xj )j 1xnPara incluir un valor umbral Θi para la neurona xi,se considera una neurona auxiliar de valor x0 1y se conecta a xi con un peso Θi.u(w, xi) nXj 1wij xj wi0Θi or u(w, xi) Wi · XIntroducción a las Redes Neuronales19

FUNCIONES DE ACTIVACIONUniversidadde Cantabria Funciones lineales: f (x) x. Funciones paso:Dan una salida binaria dependiente de si el valor de entrada está por encima opor debajo del valor umbral. sgn(x) 1, si x 0,0, si x 0,, Θ(x) 1, sino,1, sino. Funciones sigmoidales: Funciones monótonasacotadas que dan una salida gradual no lineal.1. La función logı́stica de 0 a 1:1.fc(x) cx1 e2. La función tangente hiperbólica de 1 a 1fc(x) tanh(c x).Introducción a las Redes Neuronales20

ARQUITECTURAS DE REDUniversidadde Cantabria1. Conexiones hacia delante.2. Conexiones laterales.3. Conexiones hacia atrás (o recurrentes).(a)(b)(c)Introducción a las Redes Neuronales21

LA RED DE HOPFIELDUniversidadde CantabriaLa red neuronal de Hopfield es una arquitectura formada por una sóla capa principalmente que se utiliza principalmente comomemoria autoasociativa, para almacenar yrecuperar información.La información se almacena usando unmétodo simple de aprendizaje no supervisado que obtiene la matriz de pesos quehace que dado cada uno de los patrones deentrenamiento (almacenamiento) la red devuelva el mismo patrón (recuperación).Posteriormente, cuando se tenga una configuración arbitraria de las neuronas comoentradas, la red devolverá aquel patrón almacenado que esté más cerca de la configuración de partida en términos de la distanciade HammingIntroducción a las Redes Neuronales22

Universidadde CantabriaLA RED DE HOPFIELDMEMORIZANDO DATOSSe considera una red neuronal de una sóla capa sobreun conjunto de neuronas binarias {x1, . . . , xn} (convalores en { 1, 1}) donde cada neurona xi posee unvector de pesos wi (wi1, . . . , win), con wii 0 indicando que no existe conexió consigo misma.Se considera también la siguiente definición binariade la neurona:xi sgn(nXj 1wij xj ).(4)Ahora, supóngase que se quieren obtener los pesos apropiados para “memorizar” un patrón a (a1, . . . , an). Entonces, los pesos tienen que satisfacer las siguientes condiciones de estabilidad:ai sgn(nXj 1wij aj ), i 1 . . . , n,(5)p or tanto la red devuelve el mismo patrón dadocomo entrada. Como se están usando los valoresneuronales { 1, 1}, entonces a2j 1 y las condiciones anteriores de estabilidad se pueden alcanzarconsiderando los pesos1(6)wij aiaj .nIntroducción a las Redes Neuronales23

Universidadde CantabriaLA RED DE HOPFIELDMEMORIZANDO DATOSEl mismo algoritmo puede extenderse a varios patrones, {(ap1, . . . , apn), p 1, . . . , r}:r1 Xapiapj .(7)wij p 1nEn este caso, cuando se da como entrada un patrónap se obtiener1X Xakiakj apj )xi sgn(n j k 11XX Xapiapj apj akiakj apj ) sgn(j k6 pn j1X Xakiakj apj ). sgn(api n j k6 p(8)El problema de estabilidad se determina por lostérminos de correlación cruzada en el segundotérmino de la suma en (8). Si es más pequeño que n,entonces se puede concluir que el patrón es estable.Un análisis estadı́stico de estos términos cruzadosdemostró que cuando el número de patrones a seralmacenado, p, y el número de neuronas, n, satisfacela relación: p 0.138 n, entonces menos del 1% delos bits es inestableIntroducción a las Redes Neuronales24

Universidadde CantabriaEJEMPLO: RECONOCIMIENTODE CARACTERESPara este ejemplo se utiliza una red deHopfield con 25 neuronas consistente enuna cuadrı́cula 5 5 que recibe una imagen de puntos de una letra. Se consideranúnicamente las tres representaciones habituales de las vocales ‘A’, ‘E’, e ‘I’.Los dı́gitos ‘A’, ‘E’, e ‘I’ se representan como‘-1-11-1-1. . . ’, ‘1111-1. . . ’, y ‘-1111-1. . . ’, respectivamente donde los valores negativosse representan en gris y los positivos en negro.Introducción a las Redes Neuronales25

Universidadde CantabriaEJEMPLO: RECONOCIMIENTODE CARACTERESLa matriz de pesos 25 25 se obtiene fácilmente. Porejemplo,311 X1a1k a2k ( 1 1 1 1 1 1) 1.w12 25 k 12525El valor resultante, ignorando la constante de normalización, se representa por un cuadrado negro depequeño tamaño en la esquina superior izquierda(peso w12). En esta figura, los colores negro y grisestán asociados a los pesos positivos y negativos, respectivamente, donde el tamaño de la caja representa la magnitud del valor.Introducción a las Redes Neuronales26

INFORMACION CORRUPTAUniversidadde CantabriaUna vez construı́da la red de Hopfield, éstareconoce las tres vocales aún cuando se utiliza como entrada cualquier otra cuadrı́cula(digitalización) 5 5 correspondiente a unaversión particular no estándar de la vocal.Introducción a las Redes Neuronales27

ESTADOS ESPUREOSUniversidadde CantabriaSi se intenta utilizar la misma arquitectura de red para reconocer las cinco vocalescomo en este caso el número de patroneses mayor de 0.138 n 0.138 25 3.45,pueden aparecer algunos estados de falsa estabilidad en el modelo.Introducción a las Redes Neuronales28

REDES MULTI-CAPAUniversidadde CantabriaEntre las arquitecturas de red más populares destacan las llamadas redes multi-capa o de retropropagación.Definition 3 (Capa de Entrada de una Red Neuronal) Una unidad se dice que está en la capa deentrada de una red neuronal (X, U ), si es la entradade al menos un unidad funcional de U y no es lasalida de ninguna unidad procesadora de U .Definition 4 (Capa de Salida de una Red Neuronal)Una unidad se dice que está en la capa de salida deuna red funcional (X, U ), si es la salida de al menosuna unidad funcional de U y no es la entrada deninguna unidad procesadora de U .Definition 5 (Capas Intermedias u Ocultas de unaRed Neuronal) Una unidad se dice que está en lacapa intermedia de una red neuronal (X, U ), si es laentrada de al menos una unidad funcional de U y, almismo tiempo, es la salida de al menos una unidadprocesadora de U .Introducción a las Redes Neuronales29

EL PERCEPTRONUniversidadde CantabriaEl perceptrón es un red neuronal de dos capas (unade entrada y una de salida) con conexiones haciadelante.Outputsy1y2y3wjix1x2x3x4InputsXyi f (Yi) f ( wij xj )j¿Cómo se pueden obtener los pesos adecuados para“aprender” un conjunto de 4pa4Introducción a las Redes Neuronales30

EL PERCEPTRON(APRENDIZAJE)Universidadde Cantabria Aprendizaje Hebbiano: Inicialmente se eligen valores aleatorios para los pesos. La ideadel aprendizaje Hebiano era modificar los pesosacorde a la correlación entre las unidades. Seeligen los patrones de uno en uno; por ejemplo(ap, bp). Si bpi 6 bˆpi, entonces se modifica el peso: wij η(bpi bˆpi)apj Descenso de Gradiente: Inicialmente se eligen valores aleatorios para los pesos. La idea deeste método es utilizar un proceso iterativa queminimice la función de error1 X p ˆp 2(bi bi ) .E(w) 2 i,pEn el caso lineal (f (x) x) se tiene wij η EX η (bpi bˆpi)apj.p wijEn general, se tiene wij η EX η (bpi bˆpi)f 0(Bip)apj.p wijEl parámetro η se llama tasa de aprendizaje.Introducción a las Redes Neuronales31

Universidadde CantabriaEL PERCEPTRON(APRENDIZAJE)En el caso de funciones sigmoidales, las fórmulas anteriores no involucran derivadas simbólicas, pues10 f(x) c f (x) (1 f (x))f (x) 1 e c xf (x) tanh(c x) f 0(x) c (1 f (x)2)Se han propuesto distintas mejoras de este métodopara incrementar su eficiencia. Se puede incluir un parámetro de inercia α paraacelerar la convergencia al mı́nimo: E α wij (t 1) wij (t 1) η wij Otros métodos incluyen términos la función deerror que penalizan grandes pesos:E(w) rX(yp ŷp)2 λp 1Xi,jwij2 ,(9)donde λ es un parámetro de regularización, quecontrola el equilibrio entre el modelo ajustado yla penalización. El efecto de esta regularizaciónde los pesos es suavizar la función de error, yaque los pesos grandes están usualmente asociadosa valores de salida altos.Introducción a las Redes Neuronales32

CLASIFICACION LINEALPLANTEAMIENTOUniversidadde CantabriaLos problemas de clasificación consisten en asignarpatrones dados a sus respectivas clases, o categorı́as,basándose en patrones representativos de cada 40.60.81Se puede construir un perceptrón con estos puntospara obtener automáticamente el criterio de clasificación. Por ejemplo, si se considera un perceptróncon dos entradas, xi y yi, y una salida ci con funciónde activación linealci w1xi w2yi q,Introducción a las Redes Neuronales33(10)

CLASIFICACION LINEALAPRENDIZAJEUniversidadde CantabriaDescenso de gradiente con η 0-0.5502025ci 1.28xi 0.815yi 020.4040.606x0.808010.2 0.4 0.6 0.8Introducción a las Redes Neuronales341

CLASIFICACION LINEALAPRENDIZAJEUniversidadde CantabriaSi se considera una función de activación sigmoidalf (x) (1 e x) 1 o de paso Θ(x) en cción a las Redes Neuronales350.81

CLASIFICACION NO LINEALUniversidadde CantabriaSupóngase que se tiene un conjunto de100 puntos aleatorios en el intervalo ( 1, 1)clasificados en dos categorı́as: los que estándentro del cı́rculo (puntos rellenos), y losque están fuera (puntos huecos).10.50-0.5-1-1-0.500.51Como estas dos categorı́as no son linealmente separables, entonces un perceptrónno puede obtener un criterio de clasificaciónapropiado.Introducción a las Redes Neuronales36

EL PERCEPTRON MULTI-CAPAUniversidadde 4InputsEn este caso los patrones de aprendizaje sonun conjunto de inputs {api, i 1, . . . , n} y suscorrespondientes outputs {bpk , k 1, . . . , m}.El método más popular de aprendizaje sedenomina retro-propagación y está basadoen minimizar la función de error medianteun método de descenso de gradiente.Inicialmente se eligen valores aleatoriospara los pesos.Introducción a las Redes Neuronales37

RETRO-PROPAGACIONLA CAPA DE SALIDAUniversidadde CantabriaLos pesos de correspondientes a las neuronas dela capa de salida yi f (Yi) son modificados considerando los valores de las neuronas ocultas hi f (Hi). En este caso, la función de error es1 X p ˆp 2(b bk )E(w) 2 p,k k1X pXX (bk f ( Wkj f ( wji xpi)))2.ji2 p,kEntonces Wkj E E bˆpk B̂kp η p Wkj bˆk B̂kp Wkj Wkj η hpj δkp, where δkp (bpk bˆpk )f 0(Bkp)y1h1y2h2h3Introducción a las Redes Neuronales38

RETRO-PROPAGACIONLA CAPA OCULTAUniversidadde CantabriaLos pesos de correspondientes a las neuronas dela capa oculta hi f (Hi) son modificados considerando los valores de las neuronas de entradaxi f (Xi) y los de las neuronas de salida yi f (Yi). E E bˆpk B̂kp hpj hpj , wji η wji bˆpk B̂kp hpj Hjp wji wkj η api δkp ψjp where ψjp h1h2Xkδkp Wkj f 0(Hjp).h3wjix1x2x3x4Introducción a las Redes Neuronales39

RETRO-PROPAGACIONALGORITMOUniversidadde Cantabria1. Inicializar los pesos con valores arbitrarios.2. Elegir un patrón p y propagarlo hacia delante.Con ello obtenemos hpj y bpk (outputs de las capasoculta y de salida).3. Calcular los errores de salida:δ p (bp bˆp )f 0(B p) (bp bˆp )bˆp (1 bˆp )kkkkkkkk4. Calcular los errores de la capa oculta:ψjp Xk5. Calcular:yδkp Wkj f 0(Hjp) Xkδkp Wkj hpj(1 hpj) Wkj η hpj δkp, wkj η api δkp ψjpy actualizar los pesos.6. Repetir los pasos anteriores para cada patrón.Introducción a las Redes Neuronales40

CLASIFICACION NO LINEALUniversidadde CantabriaPerceptrón multicapa 2 : 5 : 400nIntroducción a las Redes Neuronales41

Universidadde CantabriaMAPAS CAOTICOS:EL MAPA DE HENONEl mapa de Henon es uno de los ejemplos más ilustrativos de sistemas simples con dinámica compleja(caos determinista).xn 1 1.0 1.4 x2n 0.3 xn 1Para aproximar este mapa se utiliza una red neuronal 2:3:1 (la salida es xn y las entradas xn 1 y xn 2).Introducción a las Redes Neuronales42

Universidadde CantabriaEL MAPA DE HENONRED NEURONALEn algunos casos el proceso de optimización no converge al mı́nimo global, sino a uno local. Esto esdebido al gran número de parámetros involucradoen la red y a las caracterı́sticas de los modelos deaprendizaje.Introducción a las Redes Neuronales43

REDES COMPETITIVASUniversidadde CantabriaLas redes competitivas son muy utilizadaspara detectar automáticamente grupos, ocategorı́as, dentro de los datos disponibles.Cada patrón de entrada representa unpunto en el espacio de configuración (el espacio de entradas) donde se quieren obtenerclases. Para ello, la capa de salida contienetantas neuronas como clases, o categorı́as,como se quieran obtener.a1jx1y1a2jx2y2a3jx3ykaijwkixiIntroducción a las Redes Neuronales44

Universidadde CantabriaREDES COMPETITIVASAPRENDIZAJEEste tipo de arquitectura se entrena normalmentecon un algoritmo consistente en seleccionar laganadora (“winner takes all”), por lo que sólo son actualizados los pesos asociados a la neurona de mayorsalida (la ganadora) para un patrón dado.Considérense los datos de entrenamiento consistentes en un conjunto de patrones de entrada(a1j , . . . , anj ), j 1, . . . , m.Se empieza con pequeños valores aleatorios paralos pesos. A continuación, se aplica el patrón(a1j , . . . , anj ), y se selecciona la unidad salidaganadora, sea yk . Los pesos asociados con esta neurona son modificados de acuerdo con wki η(aij wki).(12)El efecto es mover el vector peso (wk1, . . . , wkn) directamente hacia (a1j , . . . , anj ).Nótese que en el caso de clasificación supervisada,usando perceptrones multi-capa, el usuario proporciona ejemplos de las diferentes categorı́as.Introducción a las Redes Neuronales45

REDES COMPETITIVASEJEMPLOUniversidadde 12w21w22yz1w11w12w13w21w22w23xz2y110.80.8y 0.6ω20.60.40.40.20.2(a)00.2 0.4 0.6 0.81x ω100.2z30.4 0.6 0.8x ω1Introducción a las Redes Neuronales46z2(b)00z11

EJERCICIOSUniversidadde Cantabria1. Utilizar un perceptrón con dos unidades de entrada y una de salida para modelizar las funcioneslógicas AND y OR. ¿Se puede modelizar tambiénuna puerta XOR?2. Considerar el fichero de datos “sincos.dat” quecontienetres colomnas de datos (x, sin(x), cos(x)) e intentar aproximarlo con un perceptrón multicapa2:?:1. Probar varios valores de los parámetrosde aprendizaje, η, y momento, α y comparar laconvergencia en los distintos casos. ¿Que valoresrecomiendas para este problema?3. Considerar la función no linealy(x) 20e 8.5 x(Ln(0.9 x 0.2) 1.5).Generar un fichero con 50 pares (x, y(x)) en el intervalo (0, 1) para entrenar un perceptrón multicapa 1:8:1. Generar también un fichero con otros50 puntos distintos para comprobar la validez dela aproximación.Introducción a las Redes Neuronales47

Introducción a las Redes Neuronales Universidad de Cantabria REDES NEURONALES DEFINICIONES Deflnition 1 (Neurona o Unidad Procesadora) Una neurona, o unidad procesadora, sobre un conjunto de nodos N, es una tripleta (X;f;Y), donde X es un subconjunto de N, Y es un ¶unico nodo de Ny f:! es una funci¶on neuronal (tambi¶en llamada funci¶on

Related Documents:

Tema 9: Introduccio n a las redes neuronales D. Balbont ın Noval F. J. Mart ın Mateos J. L. Ruiz Reina Dpto. Ciencias de la Computaci on e Inteligencia Artificial Universidad de Sevilla Inteligencia Artificial IA 2013-2014 Tema 9: Introducci on a las redes neuronales.

Tema 9: Introduccio n a las redes neuronales D. Balbont ın Noval F. J. Mart ın Mateos J. L. Ruiz Reina Dpto. Ciencias de la Computaci on e Inteligencia Artificial Universidad de Sevilla Inteligencia Artificial IA 2012-2013 Tema 9: Introducci on a las redes neuronales.

A las redes neuronales (conneccionismo, proceso paralelo distribuido, computacion neuronal, redes adaptivas, computacion colectiva) las podemos entender desde dos puntos de vista: Computacional: Representar funciones usando redes de elementos con calculo aritm etico sencillo, y m etodos para aprender esa representacion a partir de .

mayor, encontramos redes de comunicaci on e inform aticas (la red internet, la red www, redes telef onicas, etc.), redes sociales (amistades, contactos se-xuales, colaboradores cient ıficos, propagaci on de enfermedades, etc.), redes ecol ogicas (interacciones tr oficas en un ecosistema). Las redes complejas son ubicuas, est an por .

tema 1.- introducciÓn a la computaciÓn neuronal 1.6.- aplicaciones de las redes neuronales artificiales tema 2.- fundamentos de las redes neuronales artificiales 2.2.- la neurona artificial 2.3.- redes neuronales artificiales de una capa y multicapa 2.4.- entrenamiento de las redes neuronales artificiales tema 3.-

Tema 7: Introducci on a las redes neuronales F. J. Mart n Mateos J. L. Ruiz Reina Dpto. Ciencias de la Computaci on e Inteligencia Arti cial . Cuando hablamos de aprendizaje o entrenamiento de redes neuronales estamos hablando de encontrar los pesos de las conexiones entre unidades, de manera que la red se comporte

Las redes han evolucionado de manera exponencial en las últimas décadas. Las redes utilizadas en casas y pequeñas oficinas se denominan LAN. Cada dispositivo de red cumple una misión Introducción a las Redes de Computadores específica. Para comunicarse, los computadores y dispositivos de red utilizan protocolos

Tema 8: Introducci on a las redes neuronales D. Balbont n Noval, F. J. Mart n Mateos, J. L. Ruiz Reina,M. A. Guti errez-Naranjo, L. Valencia Cabrera Dpto. Ciencias de la Computaci on e Inteligencia Arti cial,Universidad de Sevilla. Neuronas arti ciales: inspiraci on biol ogica El aprendizaje en los sistemas biol ogicos est a basado en redes