La Mente Neuromorfa:
Arquitectura y Computación Básica
1. Planteamientos previos:
del Alumno escéptico y de la Respuesta del Profesor
La mente desde una perspectiva que irrumpió con fuerza a mediados de los 80 y, desde entonces, ha estado compartiendo lugar en la ciencia cognitiva con los modelos clásicos inspirados en el ordenador serial: el conexionismo.
2. La Arquitectura de la Mente Conexionista
2.1. La Metáfora Cerebral de la Mente
Metáfora cerebral: "Analogía utilizada para explicar el funcionamiento de la mente. Los modelos y teorías elaborados desde esta perspectiva entienden que la mente funciona de forma análoga al cerebro y como tal, elaboran propuestas teóricas en las que multitud de unidades de procesamiento (neuronas artificiales) con posibilidades simples de computación, funcionan al unísono y se conectan entre sí constituyendo redes neuronales artificiales (RNAs) de complejidad variable"
La distinción entre un hardware y un software, propuesta desde el cognitivismo clásico, ha dado paso al wetware (la sustancia húmeda), al cerebro como modelo.
El conexionismo pretende diseñar sistemas artificiales inteligentes inspirados en el cerebro, pero no una teoría fisiológica del funcionamiento cerebral.
Los conexionistas entienden que la mente procesa información -en este supuesto coinciden con los cognitivistas clásicos-.
Sin embargo, el procesamiento que defienden no es serial, inspirado en la máquina de Turing o en un ordenador Von Neumann.
2.2. Estructura de los Modelos Conexionistas
Un sistema de redes neuronales artificiales (RNAs) fundamenta su arquitectura en principios análogos a los que rigen el sistema nervioso.
Para comprender lo que supone una mente conexionista es necesario conocer su arquitectura, es decir, los elementos básicos que la constituyen.
Dichos elementos son las unidades de procesamiento.
Unidad de procesamiento: "En una RNA cada una de las unidades básicas de computación. Su funcionamiento se rige mediante una función de transferencia"
Una posibilidad en el funcionamiento de las unidades de procesamiento es la propuesta que lanzaron McCulloch y Pitts: la neurona McCulloch-Pitts o unidad de decisión binaria.
Este sistema de computación es utilizado todavía por los conexionistas.
En esencia, la computación conexionista supone contemplar dos parámetros generales e las unidades de procesamiento: nivel de activación y función de transferencia:
Nivel de activación: "Grado de activación que en un momento temporal presenta una unidad de procesamiento de una ARN"
Función de transferencia: "En una RNA, aquella que determina tanto el valor de activación que adoptará la unidad a partir de los ingresos que recibe, como la salida que emitirá la unidad. Es el resultado de combinar dos tipos de funciones diferentes que actúan secuencialmente: la de activación y la de salida"
En un sistema conexionista, un tipo de organización posible consiste en disponer las unidades en forma jerárquica, en capas.
En este caso, las unidades de procesamiento pueden entenderse de tres maneras:
1) como unidades de entrada (input units): formalmente son las que envían señales a otras unidades del sistema;
2) como unidades ocultas (hidden units): se organizan en una o varias capas intermedias; reciben señales de las unidades de entrada y envían señales a las unidades de salida.
(no todos los sistemas conexionistas precisan de unidades ocultas);
3) como unidades de salida (output units): formalmente reciben señal de otras unidades del sistema;
(bien directamente de las unidades de entrada y, además si existen, de las unidades ocultas).
Se suelen distinguir entre las denominadas:
Redes de capa única: "Aquellas que sólo tienen unidades de entrada y salida vinculadas entre sí por una única capa de pesos"
Redes multicapa: "Aquellas que disponen de una o más capas de unidades ocultas y que, por tanto, incorporan varias capas de pesos"
Peso: "Parámetro que determina la fuerza y naturaleza de la conexión entre dos unidades de procesamiento en una RNA"
El peso desempeña un papel fundamental en los modelos conexionistas:
a) Indica la naturaleza de la conexión que puede ser excitatoria si el peso es positivo o inhibitoria si el peso es negativo.
b) Indica la fuerza de conexión que está determinada por el valor absoluto del peso, y que establece el grado con que las unidades se relacionan entre sí.
c) A través de su modificación, la red va a ser capaz de aprender la tarea encomendada.
El valor de los pesos en un momento temporal dado es lo que va a especificar el:
Patrón de conectividad: "Matriz de pesos propia de una RNA que determinará los posibles estados de activación de la red"
3. Redes de Capa Única: el Perceptrón
Red unicapa (single layer network): "Aquella RNA que sólo dispone de una capa de pesos"
Sistema de reconocimiento de patrones, en el que subyace la idea de procesamiento perceptivo:
si el valor ingresado que determina la activación es mayor que el umbral (0), la unidad de salida se activará (1); en caso contrario permanecerá inactivada (0).
Primer caso: X1 y X2 se activan:
el valor de activación de cada unidad de entrada es multiplicada por el peso y el ingreso total determinará la activación/desactivación de la unidad de salida si supera el umbral de 0 (1+1 = 2). El perceptrón reconoce cuando las dos unidades de entrada están activadas, y la unidad de salida así lo indica.
Segundo caso: X1 está activada y X2 desactivada:
la unidad de salida ingresa por el lado de X1 un valor de 1 y por el lado de X2 un valor de 0 (1+0 = 0).
El perceptrón reconoce también cuando está activa una.
Tercer caso: X1 está desactivada y X2 activada:
cálculo inverso al anterior (0+1 = 1). El perceptrón lo reconoce.
Cuarto caso: X1 y X2 permanecen desactivadas:
(0+0 = 0). Valor que no supera el umbral de 0 que tiene la unidad de salida.
El perceptrón reconoce cuando están desactivadas las dos unidades de entrada, indicándolo la unidad de salida al permanecer desactivada.
3.1. El Problema de la Separabilidad Lineal
Se trata de discutir los límites de estos sistemas de computación.
Si bien las posibilidades de resolución de tareas lógicas resultaba sorprendente, estos sistemas de computación unicapa, constituidos por unidades de entrada y de salida, eran a veces incapaces de realizar una simple tarea como la disyunción exclusiva XOR (Por eje. "voy al cine o con Juan, o con Pedro, pero no con ambos").
Una red tipo perceptrón es incapaz de solucionar esta tarea debido a un problema geométrico denominado linealidad: existe en el espacio una región para el cero y otra diferente para los unos.
En estos casos se dice que el problema a computar es linealmente separable: la red es capaz de solucionar los emparejamientos de entrada con la salida correspondiente mediante la localización de pesos adecuados.
En el caso de la disyunción exclusiva XOR, no se puede trazar una única recta que separe los dos unos de los dos ceros.
En estos casos se dice que el problema es linealmente no separable, y una red unicapa tipo perceptrón es incapaz de solucionarlo.
4. Redes Multicapa
Red multicapa (multi layer network): "Aquella RNA que dispone de dos o más capas de pesos"
¿Quién dijo que una red con unidades ocultas no puede solucionar la disyunción exclusiva XOR?
La unidades ocultas en una red neuronal amplían las posibilidades de computación, pues lo que hacen es generar una nueva representación interna de la entrada.
Primer caso: ambas unidades de entrada están activadas:
1+1 = 2, valor que supera el umbral de +1,5, por lo que la unidad oculta también se activará y responderá con 1 (activada).
La unidad de salida recibe dos conexiones excitatorias (X y X) y una inhibitoria de doble magnitud, imposibilitando así su activación.
Segundo caso (y tercer caso): una y sólo una de las unidades de entrada está activada:
1 + 0 = 1, valor que se encuentra por debajo del umbral (+1,5), por lo que la unidad oculta no se activará y por tanto responderá con 0 (desactivada), y por tanto la unidad de salida se activará (responderá con valor 1).
Cuarto caso: las dos unidades de entrada están desactivadas:
0 + 0 = 0, por lo que el valor no supera el umbral de +1,5: la unidad oculta permanecerá desactivada. La unidad de salida permanecerá en estado de off.
5. Redes Recurrentes (Feedback Networks)
Red recurrente (feedback network): "Tipo de RNA en el que la unidad de salida envía una señal hacia las unidades de entrada"
La existencia de una señal recurrente entre determinadas unidades supone un cambio sustancial frente a la RNAs de propagación hacia adelante.
En estas últimas, la señal se detiene al llegar a las unidades de salida, pues constituyen el final de la cadena. Se dice que son: redes estables.
Sin embargo, cuando se introducen unidades recurrentes, se generan bucles que permiten la recirculación de la señal. La redes recurrentes son: redes dinámicas.
Dos posibles resultados:
_una red recurrente alcanza estabilidad cuando, tras diversas interacciones, las unidades de salida generan un output constante;
_pero puede suceder que las unidades de salida siempre estén cambiando de señal de feedback, por lo que se dice que la red está en un estado permanente de inestabilidad, debido a que siempre está cambiando sus patrones de activación.
5.1. Recurrencia e Interacción: Redes Hopfield
Red Hopfield: "RNA auto-asociada en la que las unidades se conectan plenamente entre sí, excepto consigo mismas"
Una nueva posibilidad que ofrece la recurrencia es la interactividad:
Red interactiva: "RNA en la que al menos dos unidades se conectan entre sí de forma directa y bidireccional"
Redes plenamente recurrentes o auto-asociadas: "Redes en las que las unidades de procesamiento son totalmente interactivas y, como tal, se interconectan entre sí, incluso consigo mismas"
5.2. Reconocimiento Visual en una Red Auto-asociada:
Identificando Rostros
Una ejemplificación de lo que sería una red auto-asociada:
se representan 10 rostros diferentes que pueden ser identificados a partir de 4 unidades de procesamiento totalmente interactivas, las cuales detectan otros tantos atributos o características diferentes:
_la unidad A detecta el tipo de pelo; _la unidad B el tipo de ojos; la unidad C el tipo de nariz; _ y la D el tipo de boca.
5.3. Memorias Direccionales por Contenidos
Memoria direccional por contenido: "Con este concepto se alude a una RNA que es capaz de recuperar la información cuando ésta se presenta de forma parcial, incompleta o ambigua"
6. Redes Competitivas (WTA Networks)
Red competitiva: "RNA en la que dos o más unidades de procesamiento compiten entre sí por alcanzar el máximo nivel de activación. También se denomina "Winner-take-all (WTA) Network"
6.1. IAC: Reconociendo Palabras
Red IAC: "RNA que combina las propiedades de interactividad y competitividad"
Esta red IAC es interactiva, porque se establecen conexiones mutuas entre el nivel de letras y el nivel de palabras y, porque dentro de cada elipse, todas las unidades están conectadas entre sí inhibitoriamente.
Esta última característica hace, además, que la red sea competitiva, porque dentro de un mismo nivel, y para cada una de las cuatro posiciones, las unidades que se incluyen dentro de cada una de las elipses compiten entre sí por alcanzar mayor grado de activación que sus compañeras siguiendo la lógica WTA.
Supongamos que el modelo debe reconocer la palabra TAKE. Formalizar el modelo implica utilizar 1395 unidades de procesamiento que se distribuyen de la siguiente manera:
1) Nivel de rasgos: (unidades de entrada):
en un primer nivel se detectan los rasgos individuales de las letras individuales.
2) Nivel de letras (unidades ocultas):
las señales, tanto excitatorias como inhibitorias de las unidades de rasgos se ingresan en un siguiente nivel o nivel de letras del abecedario inglés que se conectan inhibitoriamente entre sí, compitiendo para alcanzar la máxima activación.
3) Nivel de palabras (unidades de salida):
finalmente, el reconocimiento de la palabra se produce por la activación de una de las 1179 unidades de procesamiento del tercer nivel: las conexiones excitatorias e inhibitorias entre el segundo y el tercer nivel decidirán qué palabra se reconoce.
7. Resonancia Adaptativa
Resonancia adaptativa: "Capacidad que presenta un sistema (mente humana, RNA) de completar la información degradada del medio, de la manera más coherente posible"
Se expone finalmente una de las ventajas de estos modelos y que les capacita extraordinariamente en la simulación de la cognición humana:
la actuación por resonancia adaptativa que permite que la red, mediante direccionamiento por contenidos, responda de forma análoga al ser humano en situaciones de incertidumbre o de información parcial.
