jueves, 12 de febrero de 2015

Software de Microsoft reconoce imágenes mejor que los humanos y es un paso fundamental en la próxima ola de interacción.

Software de Microsoft reconoce imágenes mejor que los humanos y es un paso fundamental en la próxima ola de interacción.
publicado en Fast Co Design

No es la fotografía más hermosa que has visto nunca. IMAGEnet cuenta con 1,2 millones de imágenes de artículos mundanso-una fotocopiadora en la esquina de una oficina, un tazón de avena en una mesa, una pila de troncos, una forma de una mazorca de maíz, un cartel gigante. Pero IMAGEnet es importante: Es la central de toma de imágenes científicos de todo el mundo utilizan para enseñar a su reconocimiento de imágenes de software, y luego probarlo, también.
Cada año, los algoritmos mejoran en la identificación de lo que hay en estas imágenes. Pero Microsoft Research acaba de anunciar un hito importante: Su software es capaz de identificar los contenidos de 100.000 imágenes de prueba en IMAGEnet con una tasa de error de 4,94%, mientras que los humanos han anotado una tasa de error de 5,1% en la misma prueba en el pasado. En otras palabras, Microsoft no sólo ha batido todos los competidores en la industria; también han vencido los seres humanos en su propio juego.
"Ese es el actual mejor [resultado] que he oído hablar", confirma Alex Berg, profesor asistente en la UNC Chapel Hill, que ayuda a gestionar el IMAGEnet ajustado, aunque señaló que Baidu, con su tasa de error de 5,33%, ya que conseguir muy cerca el hito de Microsoft Research, y potencialmente alcanzando picos teóricos en la prueba en sí. "Hay algo de ruido y la ambigüedad en el conjunto de datos, y por lo tanto más pequeñas mejoras en la precisión no tendría sentido."

La ventaja del sistema de Microsoft tiene sobre los seres humanos proviene en gran parte a lo que los investigadores llaman material de "grano fino", como distinguir 120 especies diferentes de perros. Pero las tasas de error y picos teóricos lado, la verdadera comida para llevar aquí es que el software se está poniendo muy bueno en el reconocimiento de lo que en realidad son cosas de todos los días con una cantidad increíble de especificidad. Y esto es un desarrollo clave cuando se trata del futuro de la interfaz.

Como gafas digitales como Microsoft Hololens and Magic Salto hacen su camino al mercado, van a inclinan en gran medida de la promesa de aumentar nuestra interfaz e información de la realidad, añadiendo que todos los objetos mundanos que nos rodean. Y en realidad hay dos formas en que los sistemas pueden hacer esto sin la adición de virutas de transmisión RFID para cada caja de cereal en el estante de la tienda de comestibles.
La primera es de geolocalización. La solicitud de patente Hololens describe la construcción de un mapa conectado a la nube del mundo entero. Así que si, por ejemplo, caminar a través de un parque, cada árbol será indexado y etiquetada en la base de datos del mapa y las gafas entonces puede entregar información relevante sobre la marcha a medida que pasan por cualquier punto.
El segundo es el reconocimiento de la imagen-mismo tipo de tecnología utiliza Facebook para etiquetar las caras de tus amigos. En este escenario, si uno mira en una señal de alto con sus gafas de realidad aumentada sobre, las gafas se acaba de saber que es una señal de alto, al igual que lo haría un humano, a través de su propia lógica visual.
Sin duda, los futuros sistemas de realidad aumentada va a utilizar una combinación de estas dos tecnologías de referencias cruzadas entre si en cuanto a precisión, pero el reconocimiento de imágenes es tan importante, porque hay momentos en nuestras vidas que los Googles del mundo nunca será capaz de comprobar la validez de mapa y el índice. Digamos que usted está haciendo guacamole en su cocina en casa desordenada. Reconocimiento de imágenes podría afectar a su tabla de cortar, el cuchillo y la jalapeños, los aguacates y el cilantro. Entonces, si usted tenía ni idea de lo que estaba haciendo, el software de realidad aumentada podría guiarlo a través del proceso de elaboración de las líneas de corte guacamole, tal vez, incluso, añadir al producto de manera ustedes en dados y sin semillas adecuadamente.

Diseñadores podían imaginar docenas de maneras de caminar a alguien a través de esto, pero el proceso sólo funciona si un par de gafas inteligentes puede entender que su aguacate acaba de rodar en el suelo, y que en realidad estás sosteniendo el cuchillo por el camino equivocado en el primer lugar .
Domótica, también, puede beneficiarse enormemente de reconocimiento de objetos. Webcams de seguridad ya están siendo utilizados para rastrear los movimientos y reconocer las caras en una casa, pero imagino que si, por ejemplo, la cámara Kinect de Microsoft se equipó con un algoritmo que permita identificar cada objeto en su sala de estar. Usted podría preguntar: "Xbox, ¿dónde puse mis llaves?" y la Xbox podría escanear la habitación y le dirá. (Más espeluznantemente, la Xbox podría ver y catálogo en el que mover todos los objetos en su casa en todo momento, por lo que sabía la respuesta antes de que usted hizo la pregunta.)

En esa nota, Berg advierte que sistemas como el maltrato humano plataforma de análisis de imágenes de Microsoft todavía tienen algunos problemas de trabajo. Si bien estas piezas de software pueden identificar correctamente un aseo, así como a un ser humano puede, todavía no están siempre muy bien a proporcionar contexto espacial y en realidad llamando donde ese inodoro está en la imagen. "Aunque la gente están avanzando muy rápido allí, también!" , dice.

Pero, de nuevo, estos son momentos de la experiencia del usuario de magia totalmente dependiente de un mejor software de reconocimiento de imágenes. Podemos imaginar todos los escenarios de ciencia ficción que nos gustan, pero ninguna cuestión hasta que las tecnologías de base están en su lugar para actualizarlos. Y esto es lo que hace que el rendimiento de Microsoft de manera significativa.

No hay comentarios: