Una nueva investigación presenta el modelo AI Recognize Anything (RAM): un poderoso modelo subyacente para el etiquetado de imágenes

https://arxiv.org/abs/2306.03514

Cuando se trata de tareas de procesamiento de lenguaje natural (NLP), los modelos grandes de lenguaje (LLM) entrenados en grandes conjuntos de datos en línea funcionan excepcionalmente bien. El Segment Anything Model (SAM) ha demostrado impresionantes capacidades de localización en visión por computadora (CV) al escalar los datos.

Desafortunadamente, SAM no puede producir etiquetas semánticas, que es una tarea igualmente esencial con la traducción. Reconocer múltiples etiquetas para una sola imagen es el objetivo del reconocimiento de imágenes de múltiples etiquetas, también conocido como etiquetado de imágenes. Debido a que las imágenes tienen diferentes etiquetas, incluidos objetos, escenas, propiedades y actividades, el etiquetado de imágenes es un problema de visión artificial importante y útil.

Hay dos factores principales que dificultan el etiquetado de imágenes de la siguiente manera:

Amplia gama de datos de alta calidad. Todavía falta un motor de anotación de datos efectivo que pueda anotar de forma semiautomática o automática grandes cantidades de imágenes en diferentes categorías, como es el caso con un sistema de etiquetado estándar y completo.
No hay suficientes vocabularios abiertos y modelos robustos creados con un diseño de modelo eficiente y flexible que aproveche los datos a gran escala y mal moderados.

🚀 Echa un vistazo a las herramientas de IA de 100 en nuestro club de herramientas de IA

El modelo Recognition Anything (RAM) es un poderoso modelo básico para el etiquetado de imágenes, que acaba de ser presentado por investigadores del Instituto de Investigación OPPO, la Academia Internacional de Economía Digital (IDEA) y AI2 Robotics. Cuando se trata de datos, la RAM puede superar problemas como esquemas de etiquetado inapropiados, conjuntos de datos insuficientes, motores de datos ineficientes y limitaciones arquitectónicas.

READ Ofertas de Black Friday TV 2021: las mejores ofertas de ahorro de Smart TV a principios de 65, 55 y 50 pulgadas reveladas por Consumer Post

Los investigadores comienzan estableciendo una convención de nomenclatura global estándar. Utilizan conjuntos de datos académicos (clasificación, detección y segmentación) y marcas registradas (Google, Microsoft y Apple) para enriquecer su sistema de etiquetado. Al combinar todas las etiquetas genéricas disponibles y las etiquetas de texto comunes, el método de etiquetado produce 6449 etiquetas que abordan colectivamente la gran mayoría de los casos de uso. Los investigadores afirmaron que es posible identificar las etiquetas de vocabulario abierto restantes mediante el reconocimiento abierto.

Hacer anotaciones en fotos de gran tamaño con el sistema automático de pegatinas es un trabajo duro. El enfoque propuesto para el etiquetado de imágenes está inspirado en trabajos anteriores en este campo, que utiliza pares de imagen-texto genéricos a gran escala para entrenar modelos visuales robustos. Para hacer un buen uso de estas grandes cantidades de datos de texto de imágenes para el etiquetado, el equipo utilizó el análisis semántico automático del texto para extraer etiquetas de imágenes. Con este método, pueden obtener un gran conjunto de etiquetas de imagen basadas en pares de imagen y texto sin depender de las anotaciones manuales.

Las combinaciones de imágenes y texto de fuentes de Internet tienden a ser imprecisas debido al ruido aleatorio. El equipo está creando un motor de etiquetado de datos para mejorar la precisión de las anotaciones. Para resolver el problema de las etiquetas que faltan, adoptan modelos preexistentes para producir etiquetas complementarias. Cuando se trata de regiones mal etiquetadas, señalan ciertas secciones dentro de la imagen que están asociadas con etiquetas distintas. Luego, usan el método de agregación de regiones para encontrar y eliminar las anomalías dentro de la misma clase. Además, las etiquetas que hacen predicciones inconsistentes también se eliminan para una anotación más precisa.

READ Experimente con el Kensington StudioDock actualizado para iPad Pro

RAM permite la generalización a nuevas clases al agregar contexto semántico a las búsquedas de nombres. Las capacidades de limitación de RAM se pueden aumentar con esta arquitectura modelo para cualquier conjunto de datos visuales, lo que demuestra su versatilidad. Al mostrar que un modelo genérico entrenado con datos ruidosos y sin anotaciones puede superar a los modelos muy supervisados, RAM introduce un nuevo paradigma para el etiquetado de imágenes. La RAM requiere un conjunto de datos anotado, gratuito y disponible públicamente. La versión más potente de RAM solo debe entrenarse durante tres días en ocho GPU A100.

Según el equipo, se pueden realizar mejoras en la memoria RAM. Esto incluye ejecutar múltiples iteraciones del motor de datos, aumentar los parámetros de la columna vertebral para mejorar la capacidad del modelo y expandir el conjunto de datos de entrenamiento más allá de 14 millones de imágenes para cubrir mejor diversas regiones.

escanear el papelY proyectoY Y github. No olvides unirte Sub Reddit de 23k+MLY canal de discordiaY Y Boletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos hemos perdido algo, no dude en enviarnos un correo electrónico a [email protected]

🚀 Echa un vistazo a las herramientas de IA de 100 en el club de herramientas de IA

Tanushree Shenwai es aprendiz de consultoría en MarktechPost. Actualmente está cursando su Licenciatura en Tecnología del Instituto Indio de Tecnología (IIT), Bhubaneswar. Le apasiona la ciencia de datos y tiene un gran interés en el ámbito de aplicación de la inteligencia artificial en varios campos. Le apasiona explorar nuevos desarrollos en tecnologías y sus aplicaciones en el mundo real.

READ Cambiar de iPhone 12 mini a iPhone 13 Pro Max me abrió los ojos

➡️ PRUEBE: IP criminal: extensión de Chrome para el verificador de enlaces de phishing basado en IA

Vinicio Terrazas

«Food ninja. Freelance fanático de la cultura pop. Wannabe zombie maven. Aficionado a Twitter».

Una nueva investigación presenta el modelo AI Recognize Anything (RAM): un poderoso modelo subyacente para el etiquetado de imágenes

La imagen filtrada de la serie iPhone 16 muestra cuán masivo es el iPhone 16 Pro Max

7 atajos de teclado de Google Docs para hacer más en menos tiempo

Apple advierte a los usuarios de iPhone que no carguen el iPhone durante la noche

Empresas chinas desean exhibir nuevos productos en Spain Seafood Expo-Xinhua

Restaurar la testosterona después de dejar el TDA: ¿quién corre el riesgo de no recuperarse a largo plazo?

Fernando Torres ha anunciado la selección de los Miami Dolphins en el Draft NFL 2024

La imagen filtrada de la serie iPhone 16 muestra cuán masivo es el iPhone 16 Pro Max

Entradas recientes

Deja una respuesta Cancelar la respuesta

More Stories

La imagen filtrada de la serie iPhone 16 muestra cuán masivo es el iPhone 16 Pro Max

7 atajos de teclado de Google Docs para hacer más en menos tiempo

Apple advierte a los usuarios de iPhone que no carguen el iPhone durante la noche

You may have missed

Empresas chinas desean exhibir nuevos productos en Spain Seafood Expo-Xinhua

Restaurar la testosterona después de dejar el TDA: ¿quién corre el riesgo de no recuperarse a largo plazo?

Fernando Torres ha anunciado la selección de los Miami Dolphins en el Draft NFL 2024

La imagen filtrada de la serie iPhone 16 muestra cuán masivo es el iPhone 16 Pro Max