Deep Learning – Estimación de la pose humana
La comunicación a través del lenguaje corporal es una forma de arte antigua, que actualmente evoluciona de maneras fascinantes: la detección computacional del lenguaje corporal humano se está volviendo efectiva y accesible.
Durante más de 20 años , Motion Capture nos ha permitido grabar acciones de humanos y luego usar esa información para animar un personaje digital o analizar poses. Si bien los creadores de películas y los desarrolladores de juegos adoptaron tales tecnologías, hasta hace poco tiempo requerían equipos costosos que capturaban solo algunos aspectos del rendimiento general.
Hoy , una nueva generación de sistemas basados en aprendizaje automático está haciendo posible detectar el lenguaje corporal humano directamente de las imágenes. Un número creciente de trabajos de investigación y bibliotecas de código abierto aborda aspectos clave: seguimiento del cuerpo, la mano, la cara y la mirada. Detección de identidad, género, edad, emoción y tensión muscular. Clasificación de la acción y predicción.
Experimento: Detección de pose humana en videos
Los sitios de cine y video en línea son una gran fuente de actuaciones humanas grabadas. Cualquier movimiento imaginable ha sido descubierto y perfeccionado: caminatas, bailes, gestos, drama, escenas de amor y lucha. Como la nueva generación de herramientas de rastreo corporal nos permite “extraer” datos del lenguaje corporal de cualquier video, ahora podemos “robar” fácilmente el movimiento de películas famosas y luego usar esos datos para conducir personajes en AR / VR, por nombrar solo un ejemplo .
El siguiente video está hecho con la biblioteca OpenPose para detectar poses del cuerpo humano en escenas de películas y videoclips.
El video prueba OpenPose en diversas fuentes, incluidos juegos deportivos, rutinas de baile de James Brown y escenas de Kung-Fu. La Biblioteca detectó una amplia gama de imágenes de manera robusta, fallando infrecuentemente de manera deliciosamente cómica.
OpenPose
Todos los videos experimentales fueron procesos con OpenPose , una biblioteca de código abierto para la detección de puntos clave de múltiples personas en tiempo real. Permite la detección de 18 puntos clave del cuerpo a partir de imágenes y es invariable para la cantidad de personas detectadas. Aunque la biblioteca está en rápido desarrollo, funciona de manera confiable fuera de la caja y es divertido de usar.
OpenPose utiliza un mecanismo interesante para lograr un rendimiento robusto. El documento ” Estimación de pose 2D en tiempo real para múltiples personas usando campos de afinidad de parte ” ofrece una visión general del funcionamiento interno del sistema. Finalmente esto:
¿Lenguaje corporal?
OpenPose no modela todo el espectro del lenguaje corporal humano. Los sistemas actuales todavía están luchando con desafíos difíciles y tienen un alcance limitado, sin embargo, el desarrollo avanza muy rápido. En combinación con componentes como la clasificación de la cara, el género y la edad , la estimación de la mirada , la identificación de la persona , la predicción del movimiento y la detección de emociones , estamos llegando gradualmente a una perspectiva computacional del lenguaje corporal humano.
Aplicaciones
La lista de posibles aplicaciones es larga y creciente. Aquí hay un resumen de los campos, donde la detección del lenguaje corporal humano puede encontrar un uso intensivo: