Meta ha resumido sus últimos avances en la identificación automatizada de objetos dentro de las imágenes, con su actualización sistema SEER ahora, según Meta, la más grande y avanzada modelo de visión artificial disponible.

SEER, que es un derivado de ‘autosupervisado’, puede aprender de cualquier grupo aleatorio de imágenes en Internet, sin necesidad de curación y etiquetado manual, lo que acelera su capacidad para identificar una amplia gama de objetos diferentes dentro de un marco, y ahora es capaz de superar a los principales sistemas de visión por computadora estándar de la industria en términos de precisión.

Ejemplos de Meta SEER

Y solo está mejorando. La versión original de VIDENTE, que Meta anunció inicialmente el año pasado, se basó en un modelo de más de mil millones de imágenes. Esta nueva versión es ahora 10 veces más amplia.

Como lo explica Meta:

Cuando anunciamos por primera vez SEER la primavera pasada superó a los sistemas de última generación, lo que demuestra que el aprendizaje autosupervisado puede sobresalir en tareas de visión por computadora en entornos del mundo real. Ahora hemos escalado SEER de mil millones a 10 mil millones de parámetros densos, lo que lo convierte en el modelo de visión por computadora más denso de su tipo”.

De particular interés es la capacidad del sistema para identificar diferentes imágenes de diferentes personas y culturas, mientras que también puede asignar significado e interpretación a objetos de diferentes regiones globales.

Los sistemas tradicionales de visión artificial se entrenan principalmente en ejemplos de EE. UU. y países ricos de Europa, por lo que a menudo no funcionan bien para imágenes de otros lugares con diferentes características socioeconómicas. Pero SEER ofrece resultados sólidos para imágenes de todo el mundo, incluidas regiones fuera de EE. UU. y fuera de Europa con una amplia gama de niveles de ingresos”.

Eso es significativo, porque ampliará la comprensión del sistema de diferentes objetos y usos, lo que luego puede ayudar a mejorar la precisión y proporcionar mejores descripciones automatizadas de lo que hay en un marco. Eso puede proporcionar más contexto para los usuarios con discapacidades visuales, junto con la coincidencia de identificación de productos, señales de señalización, alertas de marca, etc.

Meta también señala que el sistema es un componente clave de su próximo turno.

El avance de la visión artificial es una parte importante de la construcción del Metaverso. Por ejemplo, para construir anteojos AR que puedan guiarlo a sus llaves extraviadas o mostrarle cómo hacer una receta favorita, necesitaremos máquinas que entiendan el mundo visual como lo hacen las personas. Deberán funcionar bien en las cocinas no solo de Kansas y Kioto, sino también de Kuala Lumpur, Kinshasa y muchos otros lugares del mundo. Esto significa reconocer todas las diferentes variaciones de los objetos cotidianos, como las llaves de la casa, las estufas o las especias. SEER abre nuevos caminos para lograr este sólido rendimiento.

Meta ha estado trabajando en identificación de objetos mejorada durante añosy ha logrado avances significativos en términos de subtítulos automatizados, descripciones de lectores y más.

Ejemplo de reconocimiento de imagen de Facebook

También está trabajando en identificar objetos dentro del video, la próxima etapa. Y si bien esa no es una opción viable todavía, podría, eventualmente, conducir a todos los nuevos conocimientos de datos, al permitirle aprender más sobre lo que publica cada usuario individual y cómo llegar a ellos con sus promociones.

Incluso ahora mismo, esto puede ser valioso. Si supiera, por ejemplo, que un determinado subconjunto de usuarios en Instagram era más probable que publicara una foto de su comida, según los patrones de publicación anteriores, eso podría ayudar en la orientación de su anuncio. Extrapole eso a cualquier tema, con un alto grado de precisión en la coincidencia de datos, y esa podría ser una excelente manera de generar el máximo valor a partir de su enfoque publicitario.

Y eso es antes, como señala Meta, considerando las aplicaciones avanzadas en las superposiciones AR, o en la mejora de sus algoritmos de video para mostrar a las personas más contenido con el que es más probable que interactúen, en función de lo que realmente hay en cada cuadro.

Se acerca la próxima etapa, y sistemas como este sustentarán cambios importantes en la conectividad en línea.

Puedes leer más sobre el sistema SEER de Meta aquí.

Ir arriba