Con tantos de nosotros trabajando desde casa, nos hemos mudado a un mundo donde las videoconferencias se han convertido en el principal medio de comunicación con nuestros colegas. Pasamos horas en reuniones individuales y grupales, mirando caras en pequeñas cajas en nuestras pantallas. Es, para ser franco, duro. La carga cognitiva que acompaña al intento de analizar rostros en pantallas es alta, lo que lleva a lo que se conoce como "fatiga de zoom". Por supuesto, no se limita a Zoom: existen los mismos problemas con cualquier cosa que use, ya sea Google Meet, WebEx, Skype o Microsoft Teams.

VER: Cómo administrar su privacidad y otras configuraciones en Microsoft Teams

Microsoft ha estado trabajando en formas de reducir esta presión. Un enfoque es el modo Teams Together, que cambia la forma en que vemos las caras en una pantalla. Otro se basa en hardware especializado de aprendizaje automático integrado en Surface Pro X basado en Arm.

Índice
  • Introducción al contacto visual
  • Uso del hardware del dispositivo
  • La IA en tiempo real necesita silicio especializado
  • Introducción al contacto visual

    Ahora disponible para todos los que tengan un Pro X, Eye Contact está diseñado para funcionar con cualquier aplicación que use la cámara frontal de la tableta. Todo lo que necesita hacer es instalar la aplicación Surface de Microsoft, cambiar a la pestaña Contacto visual y hacer clic en Habilitar. Una opción de vista previa muestra la diferencia sutil entre una imagen procesada y una sin procesar, con un ligero cambio en la posición de los ojos entre las dos mientras mira la imagen de vista previa y activa y desactiva la función.

    El contacto visual no produce grandes cambios en su imagen: no hay cambios en la posición de la cabeza ni en la iluminación de la habitación. Todo lo que hace es cambiar ligeramente la posición y la apariencia de tus ojos, haciéndolos un poco más anchos y cambiando ligeramente la posición de tu mirada, para que parezca que estás mirando a la cámara aunque en realidad estás enfocado en la pantalla. caras debajo de ti.

    El efecto resultante te hace parecer más involucrado en la conversación, como si miraras a los ojos a las otras personas en la reunión de video. Es bastante sutil, pero hace que las conversaciones sean un poco más cómodas, ya que la persona con la que estás hablando ya no intenta inconscientemente hacer contacto visual contigo mientras miras la pantalla.

    Es una pieza extrañamente desinteresada de aprendizaje automático. Usted mismo no se beneficiará de esto (a menos que esté hablando con alguien que también usa una Surface Pro X), pero lo verán más involucrado en la llamada y, por lo tanto, estará más relajado y menos sobrecargado. Sin embargo, estos efectos secundarios no deben subestimarse. Cuanto mejor sea una llamada para algunos de los participantes, mejor para todos los demás.

    Uso del hardware del dispositivo

    El procesador SQ1, desarrollado conjuntamente por Microsoft y Qualcomm, es un chip personalizado basado en Arm que combina capacidades de CPU, GPU e IA.
    Imagen: Microsoft

    Eye Contact utiliza el motor de inteligencia artificial (AI) personalizado en SQ1 SOC de Surface Pro X, por lo que no debería ver ninguna degradación del rendimiento, ya que gran parte de la compleja fotografía computacional en tiempo real se transfiere a él y a la GPU integrada. Todo se maneja en el nivel del controlador del dispositivo, por lo que funciona con cualquier aplicación que use la cámara frontal; no importa si está usando Teams, Skype, Slack o Zoom, todos se benefician.

    Única restricción: Surface Pro X debe estar en modo horizontal, porque el modelo de aprendizaje automático utilizado en Eye Contact no funcionará si sostiene la tableta verticalmente. En la práctica, esto no debería ser un problema, ya que la mayoría de las aplicaciones de videoconferencia asumen que está utilizando un monitor de escritorio estándar en lugar de una tableta y, por lo tanto, están optimizadas para diseños horizontales.

    La pregunta para el futuro es si este enfoque de aprendizaje automático se puede aplicar a otros dispositivos. Desafortunadamente, es poco probable que esta sea una solución de propósito general por algún tiempo; debe integrarse con los controladores de la cámara y Microsoft tiene la ventaja aquí de poseer tanto el software de la cámara como la arquitectura del procesador en Surface Pro X. Microsoft tiene mucha experiencia en diseño y desarrollo del hardware de red neuronal profunda (DNN) utilizado en el silicio personalizado en ambas generaciones de HoloLens, y es razonable suponer que parte de ese aprendizaje se dedicó al diseño del silicio Surface Pro X (especialmente porque el mismo equipo parece haber estado involucrado en el diseño de ambos conjuntos de chips).

    Para el resto de la línea Surface basada en Intel y AMD, probablemente tendremos que esperar una nueva generación de procesadores con soporte de aprendizaje automático mejorado o que Microsoft separe su motor de IA personalizado de su procesador SQ1 basado en ARM en uno. acelerador de IA independiente como las TPU de Google.

    La IA en tiempo real necesita silicio especializado

    El motor de IA es un potente hardware informático por derecho propio, capaz de ofrecer 9 TFLOP. Aquí es donde Microsoft ejecuta el modelo de aprendizaje automático Eye Contact, llamándolo desde un modelo de fotografía de computadora en el controlador de cámara de Surface Pro X. Sin hardware dedicado como este disponible en todas las PC con Windows, es difícil imaginar un servicio de Eye Contact genérico disponible para cualquier cámara interna o externa, incluso con soporte de Windows 10 para modelos portátiles de aprendizaje automático ONNX.

    Aunque los últimos procesadores Tiger Lake de Intel (que vencen en noviembre de 2020) agregan instrucciones DL Boost para mejorar el rendimiento de ML, no ofrecen funciones de capacidades DNN como el silicio de IA dedicado de SQ1. Probablemente estemos a dos o tres generaciones de silicio de estas capacidades disponibles para los procesadores de propósito general. Las GPU de próxima generación pueden admitir DNN como Eye Contact, pero es probable que esté buscando hardware caro de alta gama diseñado para estaciones de trabajo científicas.

    Por ahora, tal vez sea mejor considerar Eye Contact como una importante herramienta de prueba de concepto para futuras cámaras basadas en IA, usando motores SOC AI como SQ1 o una GPU de propósito general con gráficos discretos usando Open CL o CUDA, o conjuntos de instrucciones de inferencia de CPU ML. Al incorporar modelos de IA en los controladores de dispositivos, podemos proporcionar funcionalidad avanzada a los usuarios simplemente conectando un nuevo dispositivo. Y si las nuevas técnicas de aprendizaje automático brindan una nueva funcionalidad, es posible que vengan con un controlador de dispositivo actualizado. Hasta entonces, tendremos que aprovechar la menor potencia del hardware que tenemos para mejorar las videoconferencias para la mayor cantidad de personas posible.