Deep Learning – Estimación de la pose humana

deeplx

La comunicación a través del lenguaje corporal es una forma de arte antigua, que actualmente evoluciona de maneras fascinantes: la detección computacional del lenguaje corporal humano se está volviendo efectiva y accesible.

Durante más de 20 años , Motion Capture nos ha permitido grabar acciones de humanos y luego usar esa información para animar un personaje digital o analizar poses. Si bien los creadores de películas y los desarrolladores de juegos adoptaron tales tecnologías, hasta hace poco tiempo requerían equipos costosos que capturaban solo algunos aspectos del rendimiento general.

Estimación de pose humana, usando OpenPose. 
Imágenes de Boston Dynamics

Hoy , una nueva generación de sistemas basados ​​en aprendizaje automático está haciendo posible detectar el lenguaje corporal humano directamente de las imágenes. Un número creciente de trabajos de investigación y bibliotecas de código abierto aborda aspectos clave: seguimiento del cuerpo, la mano, la cara y la mirada. Detección de identidad, género, edad, emoción y tensión muscular. Clasificación de la acción y predicción. 

Experimento: Detección de pose humana en videos

Los sitios de cine y video en línea son una gran fuente de actuaciones humanas grabadas. Cualquier movimiento imaginable ha sido descubierto y perfeccionado: caminatas, bailes, gestos, drama, escenas de amor y lucha. Como la nueva generación de herramientas de rastreo corporal nos permite “extraer” datos del lenguaje corporal de cualquier video, ahora podemos “robar” fácilmente el movimiento de películas famosas y luego usar esos datos para conducir personajes en AR / VR, por nombrar solo un ejemplo .

El siguiente video está hecho con la biblioteca OpenPose para detectar poses del cuerpo humano en escenas de películas y videoclips.

deeplx

El video prueba OpenPose en diversas fuentes, incluidos juegos deportivos, rutinas de baile de James Brown y escenas de Kung-Fu. La Biblioteca detectó una amplia gama de imágenes de manera robusta, fallando infrecuentemente de manera deliciosamente cómica.

Clonar videos de clases de yoga y Tai-Chi es excepcionalmente fácil de hacer.

OpenPose

Todos los videos experimentales fueron procesos con OpenPose , una biblioteca de código abierto para la detección de puntos clave de múltiples personas en tiempo real. Permite la detección de 18 puntos clave del cuerpo a partir de imágenes y es invariable para la cantidad de personas detectadas. Aunque la biblioteca está en rápido desarrollo, funciona de manera confiable fuera de la caja y es divertido de usar.

OpenPose utiliza un mecanismo interesante para lograr un rendimiento robusto. El documento ” Estimación de pose 2D en tiempo real para múltiples personas usando campos de afinidad de parte ” ofrece una visión general del funcionamiento interno del sistema. Finalmente esto:

¿Lenguaje corporal?

OpenPose no modela todo el espectro del lenguaje corporal humano. Los sistemas actuales todavía están luchando con desafíos difíciles y tienen un alcance limitado, sin embargo, el desarrollo avanza muy rápido. En combinación con componentes como la clasificación de la cara, el género y la edad , la estimación de la mirada , la identificación de la persona , la predicción del movimiento y la detección de emociones , estamos llegando gradualmente a una perspectiva computacional del lenguaje corporal humano.

Aplicaciones

La lista de posibles aplicaciones es larga y creciente. Aquí hay un resumen de los campos, donde la detección del lenguaje corporal humano puede encontrar un uso intensivo:

 Publicidad : cartelera inteligente puede decir si estás sonriendo
Interacción hombre-computadora: nuevos métodos de entrada con agrupación de coactivación muscular

Leave a Reply

Your email address will not be published. Required fields are marked *