Hacer que la IA sea más nítida: los investigadores de NCSU desarrollan una forma de identificar y clasificar mejor las imágenes
Fecha de publicación:Los transformadores de visión (ViT) son poderosas tecnologías de inteligencia artificial (IA) que pueden identificar o categorizar objetos en imágenes; sin embargo, existen desafíos importantes relacionados tanto con los requisitos de potencia informática como con la transparencia en la toma de decisiones. Los investigadores ahora han desarrollado una nueva metodología que aborda ambos desafíos y al mismo tiempo mejora la capacidad del ViT para identificar, clasificar y segmentar objetos en imágenes.
Los transformadores se encuentran entre los modelos de IA más potentes que existen. Por ejemplo, ChatGPT es una IA que utiliza una arquitectura transformadora, pero las entradas utilizadas para entrenarla son el lenguaje. Los ViT son IA basadas en transformadores que se entrenan mediante entradas visuales. Por ejemplo, los ViT podrían usarse para detectar y categorizar objetos en una imagen, como identificar todos los automóviles o todos los peatones en una imagen.
Sin embargo, los ViT enfrentan dos desafíos.
En primer lugar, los modelos de transformadores son muy complejos. En relación con la cantidad de datos que se conectan a la IA, los modelos de transformadores requieren una cantidad significativa de potencia computacional y utilizan una gran cantidad de memoria. Esto es particularmente problemático para los ViT, porque las imágenes contienen muchos datos.
En segundo lugar, a los usuarios les resulta difícil comprender exactamente cómo toman decisiones los ViT. Por ejemplo, es posible que haya entrenado a un ViT para que identifique perros en una imagen. Pero no está del todo claro cómo el ViT determina qué es un perro y qué no. Dependiendo de la aplicación, comprender el proceso de toma de decisiones de ViT, también conocido como interpretabilidad del modelo, puede ser muy importante.
La nueva metodología ViT, llamada “Atención parche-a-clúster” (PaCa), aborda ambos desafíos.
"Abordamos el desafío relacionado con las demandas computacionales y de memoria mediante el uso de técnicas de agrupamiento, que permiten que la arquitectura del transformador identifique y enfoque mejor los objetos en una imagen", dice Tianfu Wu, autor correspondiente de un artículo sobre el trabajo y profesor asociado de Ingeniería eléctrica e informática en la Universidad Estatal de Carolina del Norte. “La agrupación es cuando la IA agrupa secciones de la imagen, en función de las similitudes que encuentra en los datos de la imagen. Esto reduce significativamente las demandas computacionales del sistema. Antes de la agrupación, las demandas computacionales para una ViT son cuadráticas. Por ejemplo, si el sistema divide una imagen en 100 unidades más pequeñas, necesitaría comparar las 100 unidades entre sí, lo que equivaldría a 10.000 funciones complejas.
“Al agrupar, podemos hacer de este un proceso lineal, donde cada unidad más pequeña solo necesita compararse con un número predeterminado de grupos. Digamos que le dice al sistema que establezca 10 grupos; Eso sería sólo 1.000 funciones complejas”, dice Wu.
“La agrupación también nos permite abordar la interpretabilidad del modelo, porque podemos observar cómo se crearon los grupos en primer lugar. ¿Qué características decidió que eran importantes al agrupar estas secciones de datos? Y debido a que la IA solo crea una pequeña cantidad de grupos, podemos observarlos con bastante facilidad”.
Los investigadores realizaron pruebas exhaustivas de PaCa, comparándolas con dos ViT de última generación llamados SWin y PVT.
"Descubrimos que PaCa superó a SWin y PVT en todos los sentidos", dice Wu. “PaCa era mejor clasificando objetos en imágenes, mejor identificando objetos en imágenes y mejor segmentando, esencialmente delineando los límites de los objetos en las imágenes. También era más eficiente, lo que significa que podía realizar esas tareas más rápidamente que los otros ViT.
"El siguiente paso para nosotros es ampliar la escala de PaCa mediante la capacitación en conjuntos de datos fundamentales más grandes".
El papel, "PaCa-ViT: aprendizaje de la atención entre parches y clústeres en transformadores de visión”, se presentará en la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, que se llevará a cabo del 18 al 22 de junio en Vancouver, Canadá. El primer autor del artículo es Ryan Grainger, Ph.D. estudiante en NC State. El artículo fue coautor de Thomas Paniagua, Ph.D. estudiante de NC State; Xi Song, investigador independiente; y Naresh Cuntoor y Mun Wai Lee de BlueHalo.
El trabajo se realizó con el apoyo de la Oficina del Director de Inteligencia Nacional, bajo el contrato número 2021-21040700003; la Oficina de Investigación del Ejército de EE. UU., con las subvenciones W911NF1810295 y W911NF2210010; y la Fundación Nacional de Ciencias, bajo las subvenciones 1909644, 1822477, 2024688 y 2013451.
(C) NCSU
Fuente del artículo original: WRAL TechWire