Un marco para mejorar el aprendizaje profundo

Investigadores de la Universidad de Heidelberg y la Universidad de Berna han ideado recientemente una técnica para lograr una computación rápida

    5 de octubre de 2021
    None

    Investigadores de la Universidad de Heidelberg y la Universidad de Berna han ideado recientemente una técnica para lograr una computación rápida y energéticamente eficiente utilizando sustratos neuromórficos con picos. Esta estrategia, presentada en un artículo publicado en Nature Machine Intelligence , es una adaptación rigurosa de un esquema de codificación de tiempo hasta el primer pico (TTFS), junto con una regla de aprendizaje correspondiente implementada en ciertas redes de neuronas artificiales. TTFS es un enfoque de codificación de tiempo, en el que la actividad de las neuronas es inversamente proporcional a su retardo de activación.


    "Hace unos años, comencé mi tesis de maestría en el grupo Electronic Vision (s) en Heidelberg", dijo a TechXplore Julian Goeltz, uno de los principales investigadores que trabajan en el estudio. "El sistema neuromórfico BrainScaleS desarrollado allí prometía ser un sustrato intrigante para la computación similar al cerebro, dado que sus circuitos de neuronas y sinapsis imitan la dinámica de las neuronas y sinapsis en el cerebro".

    Cuando Goeltz comenzó a estudiar en Heidelberg, los modelos de aprendizaje profundo para redes de picos todavía estaban relativamente inexplorados y los enfoques existentes no usaban la comunicación basada en picos entre neuronas de manera muy efectiva. En 2017, Hesham Mostafa, investigador de la Universidad de California en San Diego, presentó la idea de que la sincronización de los picos neuronales individuales podría usarse para el procesamiento de información. Sin embargo, las dinámicas neuronales que describió en su artículo todavía eran bastante diferentes de las biológicas y, por lo tanto, no eran aplicables al hardware neuromórfico inspirado en el cerebro.

    "Por lo tanto, necesitábamos encontrar una variante de retropropagación de errores compatible con el hardware, el algoritmo subyacente a la revolución de la IA moderna, para tiempos de pico único", explicó Goeltz. "La dificultad radica en la relación bastante complicada entre las entradas y salidas sinápticas de las neuronas en punta".

    Inicialmente, Goeltz y sus colegas se propusieron desarrollar un marco matemático que podría usarse para abordar el problema de lograr un aprendizaje profundo basado en la codificación temporal en redes neuronales con picos. Su objetivo era luego transferir este enfoque y los resultados que reunieron al sistema BrainScaleS, un reconocido sistema de computación neuromórfica que emula modelos de neuronas, sinapsis y plasticidad cerebral.

    "Supongamos que tenemos una red en capas en la que la capa de entrada recibe una imagen, y después de varias capas de procesamiento, la capa superior necesita reconocer la imagen como un gato o un perro", Laura Kriener, la segunda investigadora principal del estudio. , le dijo a TechXplore. "Si la imagen era un gato, pero la neurona 'perro' en la capa superior se activa, la red debe saber que su respuesta fue incorrecta. En otras palabras, la red debe cambiar las conexiones, es decir, las sinapsis, entre las neuronas. de tal manera que la próxima vez que vea la misma imagen, la neurona 'perro' permanece en silencio y la neurona 'gato' está activa ".


     
    El problema descrito por Kriener y abordado en el artículo reciente, conocido como el 'problema de asignación de créditos', esencialmente implica comprender qué sinapsis en una red neuronal son responsables de la salida o predicción de una red, y cuánto crédito debe recibir cada sinapsis. una predicción dada.

    Para identificar qué sinapsis estaban involucradas en la predicción incorrecta de una red y solucionar el problema, los investigadores a menudo usan el llamado algoritmo de retropropagación de errores. Este algoritmo funciona propagando un error en la capa superior de una red neuronal a través de la red, para informar a las sinapsis sobre su propia contribución a este error y cambiar cada una de ellas en consecuencia.

    Cuando las neuronas de una red se comunican a través de picos, cada pico de entrada "impulsa" el potencial de una neurona hacia arriba o hacia abajo. El tamaño de esta "protuberancia" depende del peso de una sinapsis determinada, conocida como "peso sináptico".

    "Si se acumulan suficientes protuberancias ascendentes, la neurona 'dispara', envía un pico propio a sus socios", dijo Kriener. "Nuestro marco le dice efectivamente a una sinapsis exactamente cómo cambiar su peso para lograr un tiempo de pico de salida particular, dados los errores de tiempo de las neuronas en las capas superiores, de manera similar al algoritmo de retropropagación, pero para las neuronas de pico. De esta manera, el pico completo la actividad de una red se puede configurar de la manera deseada, lo que, en el ejemplo anterior, haría que la neurona 'gato' se disparara temprano y la neurona 'perro' se quedara en silencio o se disparara más tarde ".

    Debido a su naturaleza basada en picos y al hardware utilizado para implementarlo, el marco desarrollado por Goeltz, Kriener y sus colegas exhibe una velocidad y eficiencia notables. Además, el marco estimula a las neuronas a dispararse lo más rápido posible y solo una vez. Por lo tanto, el flujo de información es rápido y escaso, ya que es necesario que fluyan muy pocos datos a través de una red neuronal determinada para permitirle completar una tarea.

    "El hardware BrainScaleS amplifica aún más estas características, ya que la dinámica de sus neuronas es extremadamente rápida, 1000 veces más rápida que la del cerebro, lo que se traduce en una velocidad de procesamiento de información correspondientemente más alta", explicó Kriener. "Además, las neuronas y sinapsis de silicio están diseñadas para consumir muy poca energía durante su funcionamiento, lo que genera la eficiencia energética de nuestras redes neuromórficas".

    Ilustración del proceso de clasificación en chip. Las trazas en los ocho paneles muestran los voltajes de membrana de las neuronas clasificadoras. El pico agudo es cuando la neurona se dispara. Nuestro algoritmo tiene como objetivo tener el pico de neuronas de etiqueta "correcto" primero mientras retrasa los picos de las otras neuronas de etiqueta. Múltiples grabaciones para cada traza muestran la variación debido a la naturaleza analógica de los circuitos, pero no obstante, el algoritmo tiene éxito en el entrenamiento. Crédito: Goltz et al.


    Los hallazgos podrían tener importantes implicaciones tanto para la investigación como para el desarrollo. Además de informar estudios adicionales, podrían, de hecho, allanar el camino hacia el desarrollo de herramientas informáticas neuromórficas más rápidas y eficientes.

    "Con respecto al procesamiento de la información en el cerebro, una pregunta de larga data es: ¿Por qué las neuronas en nuestro cerebro se comunican con picos? O en otras palabras, ¿por qué la evolución ha favorecido esta forma de comunicación?" MA Petrovici, el investigador principal del estudio, dijo a TechXplore. "En principio, esto podría ser simplemente una contingencia de la bioquímica celular, pero sugerimos que un esquema de procesamiento de información escaso y rápido basado en picos como el nuestro proporciona un argumento para la superioridad funcional de los picos".

    Los investigadores también evaluaron su marco en una serie de pruebas de robustez sistemáticas. Sorprendentemente, encontraron que su modelo es adecuado para sustratos neuronales imperfectos y diversos, que se asemejarían a los de la corteza humana, donde no hay dos neuronas idénticas, así como hardware con variaciones en sus componentes.

    "Creemos que nuestra demostrada combinación de alta velocidad y baja potencia llega en un momento oportuno, considerando los recientes desarrollos en el diseño de chips", explicó Petrovici. "Mientras que en los procesadores modernos el número de transistores sigue aumentando de forma exponencial (ley de Moore), la velocidad de procesamiento bruta medida por la frecuencia del reloj se estancó a mediados de la década de 2000, principalmente debido a la alta disipación de potencia y las altas temperaturas de funcionamiento que surgen como una consecuencia. Además, los procesadores modernos todavía se basan esencialmente en una arquitectura von-Neumann, con una unidad de procesamiento central y una memoria separada, entre las cuales la información debe fluir para cada paso de procesamiento en un algoritmo ".

    En las redes neuronales , las memorias o los datos se almacenan dentro de las propias unidades de procesamiento; es decir, dentro de las neuronas y las sinapsis. Esto puede aumentar significativamente la eficiencia del flujo de información de un sistema.

    Como consecuencia de esta mayor eficiencia en el almacenamiento y procesamiento de la información, el marco desarrollado por este equipo de investigadores consume comparativamente poca energía. Por lo tanto, podría resultar particularmente valioso para aplicaciones de computación de vanguardia, como nanosatélites o dispositivos portátiles, donde el presupuesto de energía disponible no es suficiente para respaldar las operaciones y los requisitos de los microprocesadores modernos.

    Hasta ahora, Goeltz, Kriener, Petrovici y sus colegas ejecutaron su marco utilizando una plataforma para la investigación neuromórfica básica, que prioriza la flexibilidad del modelo sobre la eficiencia. En el futuro, les gustaría implementar su marco en chips neuromórficos de diseño personalizado, ya que esto podría permitirles mejorar aún más su rendimiento.

    "Aparte de la posibilidad de construir hardware especializado utilizando nuestra estrategia de diseño, planeamos seguir dos preguntas de investigación adicionales", dijo Goeltz. "Primero, nos gustaría extender nuestra implementación neuromórfica al aprendizaje integrado y en línea".

    A los efectos de este estudio reciente, la red desarrollada por los investigadores se entrenó fuera de línea, en un conjunto de datos pregrabados. Sin embargo, al equipo también le gustaría probarlo en escenarios del mundo real donde se espera que una computadora aprenda cómo completar una tarea sobre la marcha mediante el análisis de datos en línea recopilados por un dispositivo, robot o satélite.

    "Para lograr esto, nuestro objetivo es aprovechar los mecanismos de plasticidad integrados en el chip", explicó Goeltz. "En lugar de tener una computadora host que calcule los cambios sinápticos durante el aprendizaje, queremos permitir que cada sinapsis calcule y promulgue estos cambios por sí misma, utilizando solo la información disponible localmente. En nuestro artículo, describimos algunas ideas iniciales para lograr este objetivo. "

    En su trabajo futuro, a Goeltz, Kriener, Petrovici y sus colegas también les gustaría ampliar su marco para que pueda procesar datos espacio-temporales. Para hacer esto, también necesitarían entrenarlo con datos que varían en el tiempo, como grabaciones de audio o video.

    "Si bien nuestro modelo es, en principio, adecuado para dar forma a la actividad de picos en una red de formas arbitrarias, la implementación específica de la propagación de errores basada en picos durante el aprendizaje de secuencias temporales sigue siendo una pregunta de investigación abierta", agregó Kriener.