Redes Neuronales Redes Redes Neuronales - Ccc.inaoep.mx

1y ago
22 Views
2 Downloads
684.65 KB
72 Pages
Last View : 16d ago
Last Download : 3m ago
Upload by : Ophelia Arruda
Transcription

RedesNeuronalesIntroducciónEstructuras deRedesPerceptronesRedes NeuronalesRedesMulticapasRedesRecurrentesEduardo Morales, Hugo Jair EscalanteDiscusiónAplicacionesINAOE(INAOE)Redes Neuronales1 / 72

ContenidoRedesNeuronalesIntroducciónEstructuras deRedesPerceptrones1 Introducción2 Estructuras de RedesRedesMulticapasRedesRecurrentesDiscusión3 Perceptrones4 Redes MulticapasAplicaciones5 Redes Recurrentes6 Discusión7 Aplicaciones(INAOE)Redes Neuronales2 / 72

cciónEstructuras deRedesPerceptronesRedesMulticapas A las redes neuronales (conneccionismo, procesoparalelo distribuido, computación neuronal, redesadaptivas, computación colectiva) las podemosentender desde dos puntos de vista: Computacional: Representar funciones usando redesde elementos con cálculo aritmético sencillo, y métodospara aprender esa representación a partir de ejemplos.La repesentación es útil para funciones complejas consalidas continuas y datos con ruido Biológico: Modelo matemático de la operación delcerebro. Los elementos sencillos de cómputocorresponden a neuronas, y la red a una colección INAOE)Redes Neuronales3 / 72

cciónEstructuras deRedesPerceptronesRedesMulticapasRedesRecurrentes La neurona es la unidad funcional fundamental delsistema nervioso Cada neurona tiene un cuerpo (soma) que tiene unnucleo y tiene un grupo de fibras (dendritas) y una delas cuales es más larga (axón)DiscusiónAplicaciones(INAOE)Redes Neuronales4 / 72

cciónEstructuras DiscusiónAplicaciones El axón se bifurca eventualmente en sinapses. Lasseñales se propagan en una reacción electroquı́micacomplicada. Las substancias quı́micas transmisoras se liberan delas sinapses y entran a la dendrita, aumentando odisminuyendo el potencial eléctrico del cuerpo de lacélula.(INAOE)Redes Neuronales5 / 72

cciónEstructuras DiscusiónAplicaciones Cuando el potencial alcanza un umbral se transmite unpulso elétrico o acción potencial a través del axón. Lassinapses que aumentan el potencial se llamanexitatorias y los que disminuyen, inhibidoras. La conección “sináptica” es plástica (cambia con laestimulación). Se pueden formar nuevas conecciones y las neuronasmigran de un lugar a otro. Esto se cree que forman labase de aprendizaje en el cerebro.(INAOE)Redes Neuronales6 / 72

cciónEstructuras DiscusiónAplicaciones En general el mapeo de regiones con funciones puedeser múltiple y cambiar cuando un área es dañada (perono se sabe bien como se hace). Lo sorprendente es que una colección de célulassimples puedan dar pensamiento, acción y conciencia(cerebros causan mentes (Searle 92)).(INAOE)Redes Neuronales7 / 72

cciónEstructuras deRedesComparación gruesa de las capacidades computacionalesde cerebros y computadoras ades deAlmacenamientoCiclo a1 CPU,105 compuertas109 bits RAM,1010 bits disco10 8 seg.109 bits/seg.105Cerebro Humano1011 neuronas1011 neuronas,1014 sinapses10 3 seg.1014 bits/seg.1014A pesar de que una computadora es millones de veces másrápida por proceso individual, el cerebro finalmente esbillones de veces más rápido(INAOE)Redes Neuronales8 / 72

cciónEstructuras DiscusiónAplicaciones Una de las atracciones, es construir un mecanismo quecombine el paralelismo del cerebro con la velocidad delas máquinas. Los cerebros son mucho más tolerantes (en 70-80años, no se tiene que reemplazar una tarjeta dememoria, llamar al servicio o hacer reboot). La tercera atracción es su degradación gradual.(INAOE)Redes Neuronales9 / 72

nEstructuras DiscusiónAplicaciones Existió mucho desarrollo en los primeros años de lacomputación: McCulloch y Pitts (43), Hebb (49), Minsky(51) (primera red), Ashby (52), Rosenblatt (57)(perceptrón), Selfridge (59) (pandemonium), Widrow yHoff (60) (adalines), Nilsson (65 - 90), Minsky y Papert(69). Durante 10 años prácticamente no se hizo nada. El resurgimiento comenzó en la decada de los 80’s:Hinton y Anderson (81), Hopfield (82), Hinton ySejnowski (83 y 86) y los dos volumens de PDP(Parallel Distributed Processing) anthology (Rumelhartet al. 86).(INAOE)Redes Neuronales10 / 72

IntroducciónHistoria (reciente)RedesNeuronalesIntroducciónEstructuras DiscusiónAplicaciones Durante los 95’s-03’s hubo otra época de oscurantismoen RNs, debido al surgimiento y popularización de lasSVMs Las RNs tuvieron (otro) segundo aire a finales de laprimera decada del presente siglo(INAOE)Redes Neuronales11 / 72

cciónEstructuras DiscusiónAplicaciones El funcionamiento de las neuronas y del cerebro engeneral sirve como inspiración para el desarrollo desistemas de aprendizaje computacional El equivalente computacional de una neurona es unaunidad que almacena pesos asociados a un problemade aprendizaje Redes de neuronas imitan, de manera burda, elfuncionamiento del cerebro(INAOE)Redes Neuronales12 / 72

cciónEstructuras DiscusiónAplicacionesEn pocas palabras una RNA es: Un modelo no lineal formado por muchos modelos(unidades) lineales con funciones de activaciónno-lineal Un modelo que modifica los valores de sus elementospara hacer correspondser sus salidas con las salidasesperadas/verdaderas(INAOE)Redes Neuronales13 / 72

cciónEstructuras DiscusiónAplicacionesNeurona artificial (diapositiva I. Guyon)(INAOE)Redes Neuronales14 / 72

cciónEstructuras DiscusiónAplicaciones Una red neuronal está compuesta por nodos ounidades, conectados por ligas Cada liga tiene un peso numérico asociado Los pesos son el medio principal para almacenamientoa largo plazo en una red neuronal, y el aprendizajenormalmente se hace sobre la actualización de pesos.(INAOE)Redes Neuronales15 / 72

cciónEstructuras DiscusiónAplicaciones Algunas unidades están conectadas al medio ambienteexterno y pueden diseñarse como unidades de entradao salida. Los pesos se modifican para tratar de hacer que elcomportamiento entrada/salida se comporte como eldel ambiente.(INAOE)Redes Neuronales16 / 72

cciónEstructuras DiscusiónAplicacionesCada unidad tiene: Un conjunto de ligas de entrada (provenientes de otrasunidades) Un conjunto de ligas de salida (hacia otras unidades) Un nivel de activación, y Una forma de calcular su nivel de activación en elsiguiente paso en el tiempo, dada su entrada y suspesos (cada unidad hace un cálculo local basado en lasentradas de sus vecinos)(INAOE)Redes Neuronales17 / 72

cciónEstructuras deRedesPerceptronesRedesMulticapas La computación se hace en función de los valoresrecibidos y de los pesos. Se divide en dos:RedesRecurrentesUn componente lineal, llamado la función de entrada(ini ), que calcúla la suma de los valores de entrada.2 Un componente no lineal, llamado función de activación(g), que transforma la suma pesada en una valor finalque sirve como su valor de activación (ai ).1DiscusiónAplicaciones Normalmente, todas las unidades usan la mismafunción de activación.(INAOE)Redes Neuronales18 / 72

cciónEstructuras deRedesPerceptronesRedesMulticapas La suma pesada es simplemente las entradas deactivación por sus pesos correspondientes:Xini wj,i aj wi · aijRedesRecurrenteswi : vector de los pesos que llegan a la unidad iai : vector de los valores de activación de las entradas ala unidad iDiscusiónAplicaciones El nuevo valor de activación se realiza aplicando unafunción de activación g:Xai g(ini ) g(wj,i aj )j(INAOE)Redes Neuronales19 / 72

cciónEstructuras DiscusiónAplicaciones En muchos casos, es matemáticamente convientecambiar el umbral por un peso de entrada extra. Estopermite un elemento de aprendizaje más simple, yaque sólo hay que ajustar pesos, y no pesos y umbral. Una de las motivaciones iniciales en el diseño deunidades individuales fué la representación defunciones Booleanas básicas (McCulloch y Pitts, ’43). Esto es importante, porque entonces podemos usarestas unidades para construir una red que computecualquier función Booleana.(INAOE)Redes Neuronales20 / 72

IntroducciónEjemplo de as DiscusiónAplicacionesFigura: Arquitectura de Alvinn(INAOE)Redes Neuronales21 / 72

cciónEstructuras deRedesPerceptronesRedesMulticapasRedesRecurrentes En la práctica, casi todas las implementaciones de RNson en software y utilizan un control sı́ncrono en suactualización. Para el diseño uno debe de decidir:1234DiscusiónAplicacionesnúmero de unidadescómo se deben de conectarqué algoritmo de aprendizaje utilizarcómo codificar los ejemplos de entradas y salidas Cada unidad recibe señales de sus ligas de entradas ycalcúla un nuevo nivel de activación que manda através de sus ligas de salidas.(INAOE)Redes Neuronales22 / 72

cciónEstructuras DiscusiónAplicacionesProblemas apropiados para abordarse con RNAs Las instancias se representan por muchos paresatributo-valor La función objetivo de salida puede ser discreta, real,un vector de reales-categorı́as o una combinación deambos Los ejemplos de entrenamiento pueden tener errores Se requiere uan evaluación rápida de la funciónaprendida No es importante interpretar la función aprendida(INAOE)Redes Neuronales23 / 72

Estructuras de RedesEstructuras de RedesRedesNeuronalesIntroducciónEstructuras deRedesPerceptronesRedesMulticapas Existen muchas estructuras que dan propiedadescomputacionales distintas. La distinción principal es entre:RedesRecurrentesfeed-forward: ligas unidireccionales, sin ciclos (DAGs).Normalmente estaremos hablando de redes que estánarregladas en capas. Cada unidad está ligada solo conlas unidades de la siguiente capa. No hay ligasinter-capas, ni ligas a capas anteriores, ni ligassaltandose capas.2 recurrent: las ligas pueden formar topologı́as arbitrarias.1DiscusiónAplicaciones(INAOE)Redes Neuronales24 / 72

Estructuras de ucturas DiscusiónAplicaciones Una red feed-forward calcula una función de lasentradas que depende de los pesos. Este es el modelomás usado y nos vamos a concentrar más en éste. Por un lado, están las unidades de entrada (su valor deactivación depende del medio ambiente). Del otro, lasunidades de salida. En medio (sin conección al medioambiente) se tienen las unidades ocultas (ver figura 2).(INAOE)Redes Neuronales25 / 72

Estructuras de ucturas DiscusiónAplicacionesSalidasEntradasFigura: Arquitectura tı́pica de una Red Neuronal feedforward.(INAOE)Redes Neuronales26 / 72

Estructuras de ucturas DiscusiónAplicaciones Algunas redes no tienen nodos o unidades ocultos(perceptrones) Esto hace el aprendizaje mucho más sencillo, perolimita lo que se puede aprender Redes con una o mas capas ocultas se llaman redesmulticapas.(INAOE)Redes Neuronales27 / 72

Estructuras de ucturas DiscusiónAplicaciones Con una sola capa (suficientemente grande) deunidades ocultas, es posible representar cualquierfunción continua de las entradas. Con dos capas esposible representar hasta funciones discontinuas. Con una estructura fija y función de activación g fija, lasfunciones representables por una red feed-forwardestán restringidas por una estructura especı́ficaparametrizada.(INAOE)Redes Neuronales28 / 72

Estructuras de ucturas deRedesPerceptronesRedesMulticapas Los pesos escogidos para la red determinan cuáles delas funciones se representan. Por ejemplo, una red con 2 unidades de entrada, dosocultas y una de salida, con todas las coneccionesintercapas, calcula la siguiente función (ver figura 3):aw1 1 13a1w 14a2w a2 w 243a3 w3554a4w 45a5SalidaFigura: Arquitectura de una Red Neuronal simple.(INAOE)Redes Neuronales29 / 72

Estructuras de ucturas deRedes La salida es:a5 g(w3,5 a3 w4,5 a4 iónAplicaciones g(w3,5 g(w1,3 a1 w2,3 a2 ) w4,5 g(w1,4 a1 w2,4 a2 )) Como g es una función no lineal, la red representa unafunción nolineal compleja. Si se piensa que los pesos son los parámetros ocoeficientes de esta función, el aprendizaje essimplemente el proceso de “afinar” los parámetros paraque concuerden con los datos en el conjunto deentrenamiento (es lo que en estadı́stica se llamaregresión nolineal).(INAOE)Redes Neuronales30 / 72

́nEstructuras DiscusiónAplicaciones Feed-forward se estudiaron desde los 50’s llamandoseperceptrones. A pesar de que se estudiaron variasconfiguraciones, la única con una regla efectiva deaprendizaje en aquel tiempo fué la de una sola capa. Cada salida es independiente de las otras, cada pesosólo afecta una de las salidas, por lo que se puedenestudiar independientemente (i.e., ver sólo una salida ala vez). La activación de salida es:XO escalón0 (Wj Ij ) escalón0 (W · I)j(INAOE)Redes Neuronales31 / 72

́nEstructuras DiscusiónAplicaciones Lo que se puede representar son funciones Booleanassencillas como, AND, OR or NOT. También otras no tansimples como: función mayoritaria (lo cual requiere unárbol de decisión de O(2n ) nodos). Sin embargo, están muy limitados en las funciones quepueden representar. El problema, es que cada entradaIj sólo puede influir la salida final en una dirección, sinimportar los otros posibles valores de la salida. Lo que quiere decir es que si tenemos una entrada ajque vale 0 cuando la salida vale 0 y vale 1 cuando lasalida vale 1, no podemos tener otra entrada bj quevalga 1 cuando la salida valga 0 y viceversa. Lo que podemos representar son funciones linealmenteseparables (i.e., AND, OR, pero no XOR).(INAOE)Redes Neuronales32 / 72

́nEstructuras DiscusiónAplicaciones Esto se obtiene directamente de la ecuación querepresenta. Para n entradas, se vuelve más difı́cilvisualizar la separación lineal. Existe un algoritmo del perceptrón que puede aprendercualquier función linealmente separable, dado unconjunto adecuado de ejemplos. La mayorı́a de los algoritmos de las redes neuronales,hacen pequeños ajustes en los pesos para reducir ladiferencia entre los observado y lo predicho. La diferencia, con otro sistema de aprendizaje, es queéste se realiza varias veces para cada ejemplo.(INAOE)Redes Neuronales33 / 72

PerceptronesAlgoritmo de s deRedesFunción aprendizaje-red-neuronal (ejemplos)red una red con pesos asignados aleatoriamenterepeatpara cada e ejemplos doo salida de la red neuronal(red,e)t valor observado de eActualiza los pesos en la red con base en e, o y tenduntil todos los ejemplos sean predichos correctamente ose alcance un criterio de paroregresa usiónAplicaciones(INAOE)Redes Neuronales34 / 72

�nEstructuras deRedesPerceptronesRedesMulticapasRedesRecurrentes Para los perceptrones la regla de actualización depesos es más o menos sencilla: Si lo predicho es o y lo real es t, el error es: err t o. Si el error es positivo, aumenta o, y si es negativodecrece o.DiscusiónAplicaciones(INAOE)Redes Neuronales35 / 72

PerceptronesRedesNeuronalesGradiente descendiente y la regla DeltaIntroducciónEstructuras deRedesPerceptronesRedesMulticapasRedesRecurrentes El gradiente descendiente trata de encontrar los pesosque mejor se ajustan a los ejemplos y es la base delalgoritmo de retro–propagación (backpropagation). El error lo podemos expresar por diferencias de error alcuadrado de la siguiente forma:DiscusiónE(W ) Aplicaciones1X(ti oi )22i Lo que queremos es determinar el vector de pesos queminimice el error E Esto se logra alterando los pesos en la dirección queproduce el máximo descenso en la superficie del error(INAOE)Redes Neuronales36 / 72

Estructuras deRedesPerceptronesRedesMulticapasRedesRecurrentes La dirección de cambio se obtiene mediante elgradiente. El gradiente nos especifica la dirección queproduce el máximo incremento, por lo que el mayordescenso es el negativo de la dirección. La regla de actualización de pesos es entonces:DiscusiónW W WAplicaciones W α E E wi(INAOE) 1P w(t o )2P i 2 d D d d · xd ) d D (td od ) wi (td wP d D (td od )( xi,d )Redes Neuronales37 / 72

Estructuras deRedes Por lo que: wi siónAplicacionesX(td od )xi,dd D En la práctica, se tiende a usar un gradientedescendiente incremental. Esto es, en lugar deprocesar el error sobre todos los datos, se hace sobreuno solo. En este caso, la regla de actualización es: wi α(t o)xi La cual es también conocida como la regla delta, LMS(least-mean-square), Adeline ó Widrow–Hoff.(INAOE)Redes Neuronales38 / 72

Estructuras DiscusiónAplicaciones Rosenblatt la propuso en 1960 y probó que usandoestá regla, se convergı́a a los pesos correctos, mientrasla función fuera linealmente separable. El teorema de convergencia, creó gran expectación,hasta que en 1969 Minsky y Papert, hicieron lo quequizas se debió haber hecho desde el principio.Analizar la clase de funciones representables (en sulibro Perceptrons). El resultado no deberı́a de ser tan sorprendente, ya queen efecto está haciendo una búsqueda de gradientedescendente en el espacio de pesos. Se puede ver queel espacio de pesos no tiene un mı́nimo local.(INAOE)Redes Neuronales39 / 72

Redes MulticapasRedes MulticapasRedesNeuronalesIntroducciónEstructuras DiscusiónAplicaciones Rosenblatt y otros se concentraron en una sola capa,por no encontrar un método adecuado de actualizar lospesos entre las entradas y las unidades ocultas,cuando el error se calcula en las unidades de salida. Minsky y Papert dijeron que investigar multicapas eraun problema de importancia, pero especularon que nohabı́a razón para suponer que alguna de las virtudes delos perceptrones (teorema de regla de aprendizaje) semantuvieran con multicapas y que su extensión serı́aesteril. En parte tuvieron razón, pero definitivamente no hasido esteril. Aprendizaje en multicapas no es eficienteni garantiza converger al óptimo global. El aprenderfunciones generales a partir de ejemplos es unproblema intratable en el peor de los casos.(INAOE)Redes Neuronales40 / 72

Redes MulticapasRedes MulticapasRedesNeuronalesIntroducciónEstructuras Se obtienen modelos diferentes cambiando g. Las opcionescomunes son: Función escalón: 1, si x tescalont (x) 0, si x tDiscusiónAplicaciones Signo: signo(x) 1, 1,si x 0si x 0 Sigmoide:sigmoide(x) (INAOE)Redes Neuronales11 e x41 / 72

Redes MulticapasRedes turas 0.5SigmoidexFigura: Funciones de activación comunes para Redes(INAOE)Redes Neuronales42 / 72

Redes ónEstructuras DiscusiónAplicaciones El método más popular de multicapas es el deretro-propagación (back-propagation). Se publicó originalmente en 1969 por Bryson y Ho, perofué ignorado hasta mediados de los 80’s. Aprender en una red multicapas es muy parecido a unperceptrón. Si existe un error se ajustan los pesos parareducir el error. El truco es dividir la culpa del error entre los pesoscontribuyentes. Como en el perceptrón se trata deminimizar el error (en este caso, el cuadrado del error).(INAOE)Redes Neuronales43 / 72

Redes ónEstructuras deRedesPerceptronesRedesMulticapasRedesRecurrentes En la capa de salida, la actualización es muy parecida ala del perceptrón. Las diferencias son: se usa la activación de la unidad oculta ai en lugar de lade entrada la regla contiene un término para el gradiente de lafunción de activaciónDiscusiónAplicaciones(INAOE)Redes Neuronales44 / 72

Redes structuras DiscusiónAplicacionesNotación: xij la i-ésima entrada al nodo j wij elPpeso asociado a la i-ésima entrada del nodo j netj i wij xij (suma pesada de entradas al nodo j) oj la salida del nodo j tj la salida esperada del nodo j σ función sigmoide sal el conjunto de nodos de salida α razón de aprendizaje. sal(j) conjunto de nodos cuyas entradas directasincluyen la salida del nodo j(INAOE)Redes Neuronales45 / 72

Redes MulticapasAlgoritmo de RetropropagaciónRedesNeuronales(un solo paso un solo ejemplo)IntroducciónEstructuras deRedes1PerceptronesRedesMulticapas2Propaga las entradas a través de la red y calcula lasalidaPropaga el error hacia atrás1RedesRecurrentespara cada unidad de salida k , calcula su error δkδk ok (1 ok )(tk ok )DiscusiónAplicaciones2Para cada unidad oculta h, calcula su error δhXδh oh (1 oh )whk δkk sal(h)3Actualiza los pesos wijwij wij wij(INAOE)Redes Neuronalesdonde wij αδj xij46 / 72

Redes structuras deRedesPerceptrones Lo que queremos calcular es la actualizacón de lospesos wij sumandole wijRedesMulticapas wij αRedesRecurrentes Ed wijDiscusiónAplicaciones Ed Ed netj wij netj wij (INAOE) Edxij δj xij netjRedes Neuronales47 / 72

Redes MulticapasCapa de SalidaRedesNeuronalesIntroducción Para la capa de salida:Estructuras deRedes Ed oj Ed netj oj netjPerceptronesRedesMulticapas 1 X Ed (tk ok )2 oj oj 2RedesRecurrentesDiscusiónAplicacionesk sal La derivada es cero en todos los casos, exceptocuando k j, por lo que: Ed 1 (tj oj )2 oj oj 2 (tj oj )(INAOE)Redes Neuronales48 / 72

Redes MulticapasCapa de SalidaRedesNeuronalesIntroducción Como oj σ(netj )Estructuras deRedes σ(netj ) oj netj netjPerceptronesRedesMulticapas que es la derivada de la sigmoide:RedesRecurrentes σ(netj )(1 σ(netj )) oj (1 oj )DiscusiónAplicaciones Por lo que: Ed (tj oj )oj (1 oj ) netj y finalmente: wij α(INAOE) Ed α(tj oj )oj (1 oj )xij wijRedes Neuronales49 / 72

Redes MulticapasCapa OcultaRedesNeuronalesIntroducciónEstructuras Discusión Si j es un nodo oculto, ahora en la regla deactualización del peso wij se debe de considerar lasformas indirectas en las que pudo contribuir al error (dealguna forma estamos distribuimos el error), por lo queconsideramos todos los nodos a los cuales les llega lasalida del nodo oculto j. Ed Vamos a denotar: δi netiX Ed netk Ed netj netk netjAplicacionesk sal(j)δj X δkk sal(j)δj X δkk sal(j)(INAOE)Redes Neuronales netk netj netk oj oj netj50 / 72

Redes MulticapasCapa OcultaRedesNeuronales IntroducciónEstructuras deRedes netk ojes diferente de cero, sólo cuando tenemos eltérmino wjk · xjk (donde xjk oj ) en la sumatoria, por loque:PerceptronesRedesMulticapasδj RedesRecurrentesX δk wjkk sal(j)Discusiónδj AplicacionesX oj netj δk wjk oj (1 oj )k sal(j)δj oj (1 oj )X δk wjkk sal(j) Lo que corresponde a la fórmula del inciso 2(b).Finalmente: wij αδj xij(INAOE)Redes Neuronales51 / 72

Redes ónEstructuras DiscusiónAplicaciones La retro-propagación puede ser visto como búsquedade gradiente descendente en la superficie del error. La retro-propagación nos da una forma de dividir elcálculo del gradiente entre las unidades, con lo que elcambio en cada peso puede calcularse por la unidad alcual el peso está ligado, usando sólo información local. Como cualquier gradiente descendiente tieneproblemas de eficiencia y convergencia, sin embargo,es un paso para pensar en paralelizar. Tip: para calcular el error observado, se tiene quecalcular una salida. Durante este cálculo esconveniente salvar algunos de los resultadosintermedios (en particular el gradiente de activacióng 0 (ini ) en cada unidad), lo cual acelera la fase deretro-propagación.(INAOE)Redes Neuronales52 / 72

Redes RecurrentesRedes s DiscusiónAplicaciones Las redes de Hopfield son probablemente las mejorentendidas de redes recurrentes Tienen conecciones bidireccionales con pesossimétricos (i.e., Wi,j Wj,i ) Todas las unidades son tanto unidades de entradacomo de salida. La función de activación es la funciónsigno, y los valores de activación pueden ser sólo 1.(INAOE)Redes Neuronales53 / 72

Redes RecurrentesRedes de HopfieldRedesNeuronalesIntroducciónEstructuras DiscusiónAplicaciones Una red de Hopfield funciona como una memoriaasociativa. Despues de entrenarse con un conjunto de ejemplos,un nuevo estı́mulo causa la red a “asentarse” en unpatrón de activación correspondiente al ejemplo deentrenamiento que se parece más al nuevo estı́mulo. Uno de los resultados teóricos interesantes es que unared de Hopfield puede almacenar en forma confiablehasta: 0,138N ejemplos de entrenamiento (donde N esel número de unidades de la red).(INAOE)Redes Neuronales54 / 72

Redes RecurrentesMáquinas de Boltzmann y cturas DiscusiónAplicaciones Las Máquinas de Boltzmann también usan pesossimétricos, pero incluyen unidades que son ni deentrada ni de salida Usan una función de activación estocástica, tal que laprobabilidad de que la salida sea 1 es una función de lasuma total de los pesos. Las máquinas de Boltzmann siguen una transición deestados que se parece a la búsqueda de recocidosimulado (simulated annealing), para encontrar laconfigurar que mejor se ajusta al conjunto deentrenamiento.(INAOE)Redes Neuronales55 / 72

Redes RecurrentesAlgloritmo Recocido SimuladoRedesNeuronalesFunción: simulated-annealing (problema, agenda)Entrada: problema, agenda (mapeo del tiempo a“temperatura”)Usa: nodo actual, nodo siguiente y T (temperatura)(controla la probabilidad de pasos hacia abajo)IntroducciónEstructuras nodo actual crea-nodo(estado-inicial[problema])for t 1 a doT agenda(t)if T O regresa nodo actualsiguiente nodo un sucesor (de nodo actual)seleccionado aleatoriamente E valor(siguiente) valor(actual)if E 0 then actual siguiente Eelse actual siguiente, solo con probabilidad e TDiscusiónAplicaciones(INAOE)Redes Neuronales56 / 72

Redes RecurrentesRecocido SimuladoRedesNeuronalesIntroducciónEstructuras DiscusiónAplicaciones Como hill-climbing, pero el siguiente nodo se escoge enforma aleatoria. Si el movimiento mejora, lo toma, sino lo toma concierta probabilidad. La probabilidad está determinada por la temperatura. La idea es ir reduciendo gradualmente la temperatura. Si se hace lo suficientemente lento, se llega a laconfiguración perfecta.(INAOE)Redes Neuronales57 / 72

Redes RecurrentesMapas Auto

A las redes neuronales (conneccionismo, proceso paralelo distribuido, computacion neuronal, redes adaptivas, computacion colectiva) las podemos entender desde dos puntos de vista: Computacional: Representar funciones usando redes de elementos con calculo aritm etico sencillo, y m etodos para aprender esa representacion a partir de .

Related Documents:

tema 1.- introducciÓn a la computaciÓn neuronal 1.6.- aplicaciones de las redes neuronales artificiales tema 2.- fundamentos de las redes neuronales artificiales 2.2.- la neurona artificial 2.3.- redes neuronales artificiales de una capa y multicapa 2.4.- entrenamiento de las redes neuronales artificiales tema 3.-

Aplicados A Redes Neuronales 2 HRS E la umn otiliz rá eí dg f s ien p RNA 3.4 Arquitecturas Neuronales 2 HRS E laum nor ecá sd i tp q neu 3.5 Generalidades de las redes neuronales artificiales 2 HRS E lau mn o señ rá ven tj y li ic ne de RNA MODULO 4. PRIMERAS REDES NEURONALES 10

Neuronales que se requiere para el desarrollo del tema. Además se presenta el modelo y resolución de una problemática abordada con redes neuronales. En la sección 4 se presenta un ejercicio de prueba realizado como entrenamiento en trabajo con Redes Neuronales. A continuación en la sección 5 se muestra la implementación del proyecto.

La teor a sobre redes neuronales es muy amplia [1, 11, 12]. Debido quiz as a esto nos encontramos con que en la literatura referente a redes neuronales se describen de manera muy general s olo los tipos de redes m as representativos, o por el contrario, se enfoca al estudio de un modelo en particular. Otra de

Una primera clasificación de los modelos de redes neuronales podría ser, atendiendo a su similitud con la realidad biológica: 1) El modelo de tipo biológico. Este comprende las redes que tratan de simular los sistemas neuronales biológicos, así como las funciones auditivas o algunas funciones básicas de la visión.

Tema 7: Introducci on a las redes neuronales F. J. Mart n Mateos J. L. Ruiz Reina Dpto. Ciencias de la Computaci on e Inteligencia Arti cial . Cuando hablamos de aprendizaje o entrenamiento de redes neuronales estamos hablando de encontrar los pesos de las conexiones entre unidades, de manera que la red se comporte

Tema 9: Introduccio n a las redes neuronales D. Balbont ın Noval F. J. Mart ın Mateos J. L. Ruiz Reina Dpto. Ciencias de la Computaci on e Inteligencia Artificial Universidad de Sevilla Inteligencia Artificial IA 2013-2014 Tema 9: Introducci on a las redes neuronales.

find protein coding genes in E.coli DNA using E.coli genome DNA sequence from the EcoSeq6 database maintained by Kenn Rudd. This HMM includes states that model the codons and their frequencies in E.coli genes, as well as the patterns found in the intergenic region, including repetitive extragenic palindromic sequences and the Shine - Delgarno motif. To account for potential sequencing errors .