Portada » ¿Qué es el audio inmersivo y cómo funciona?

¿Qué es el audio inmersivo y cómo funciona?

audio inmersivo

El tema más candente en el ámbito del audio del momento es el audio inmersivo y espacial. Prácticamente todas las revistas comerciales de audio y conferencias de AES han destacado presentaciones con la palabra «inmersivo» por todas partes. Las categorías espaciales e inmersivas presentes en servicios de streaming como Apple Music, Tidal, Netflix y Amazon HD han cautivado la fascinación de los oyentes con la promesa de una experiencia auditiva novedosa para canciones favoritas de siempre. Ahora, hasta las compañías de automóviles de lujo ofrecen mejoras de audio con sistemas de reproducción inmersiva que hacen que a los audiófilos se les erice la piel. Los servicios de streaming para usuarios finales están emocionados y los creadores de contenido también lo están.

Podrías esperar que algo tan nuevo y brillante como lo inmersivo sea increíblemente complicado. Pero en realidad no es tan difícil de entender como la mayoría imagina. Sin duda, hay nuevos aspectos en el trabajo con lo inmersivo que requieren un poco de tiempo para asimilar; pero los ingenieros exitosos siempre están dispuestos a aprender nuevas tecnologías y adaptarse a los rápidos cambios del mercado. Los ingenieros que adopten el audio inmersivo desde temprano serán los primeros en cosechar las recompensas.

¿Por qué es ahora un buen momento para dar el salto a lo inmersivo? Grandes sellos discográficos como Capitol ya han comenzado a remezclar todo su catálogo estéreo en formatos inmersivos, lo cual es una evidencia de que los sellos discográficos se toman en serio lo inmersivo. Muchos artistas populares ya han lanzado mezclas inmersivas, brindando a sus fans una nueva forma de disfrutar de su arte. Existen estándares técnicos para ayudarte a construir un sistema inmersivo con precisión, pero las reglas creativas aún no han sido escritas. Esta etapa temprana de evolución ofrece un momento oportuno para que los creadores, productores e ingenieros aprendan sobre el audio inmersivo.

En esta introducción, los ingenieros que están familiarizados con cómo mezclar en estéreo y sienten curiosidad por el mundo del audio inmersivo obtendrán una mejor comprensión de qué son el audio inmersivo y espacial, y cómo conceptualizar el flujo de trabajo. Se anima a los lectores a considerar esto como una preparación/motivación para una conversación más amplia sobre cómo integrar el audio inmersivo y espacial en una práctica profesional. No es tan complicado como parece ¡y es muy divertido!

¿Qué es el audio inversivo?

El objetivo de un sistema inmersivo es crear una experiencia auditiva que envuelva al oyente desde todos los ángulos en tres dimensiones. Esto puede ser para recrear la experiencia de un evento como un partido de baloncesto o un concierto de orquesta. Puede utilizarse en una película para sumergir al espectador en una escena con señales ambientales desde arriba y por detrás. Se puede utilizar para imaginar nuevos paisajes sonoros donde los instrumentos parecen desafiar las leyes de la física o presentar reinterpretaciones fantásticas de música que se hizo hace mucho tiempo. Para envolver al oyente, ya sea con un realismo preciso o con una fantasía caprichosa, primero hay que entender cómo el oyente crea su propia percepción del mundo que le rodea.

Nuestro aparato auditivo ya es inmersivo. Con los ojos cerrados, aún podemos entender las señales de sonido que llegan desde cualquier ángulo alrededor de nuestras cabezas. Aprovechamos esta capacidad cuando creamos entornos de escucha inmersivos. Los sonidos que salen de altavoces detrás y por encima de nosotros son convincentes porque realmente están detrás o por encima de nosotros. No se necesita ningún procesamiento informático especial para que nuestros cerebros puedan descifrar la dirección.

La razón por la que somos capaces de hacer este truco es porque nuestros oídos y nuestro cerebro trabajan juntos como un equipo. La forma en que nuestros cerebros utilizan los oídos para oír es similar a cómo utilizamos los ojos para ver. Nuestra visión es binocular, lo que significa que tenemos un ojo dominante y un segundo ojo que se compara con el primero.

Esta comparación matemática es lo que utilizamos para generar nuestra sensación de profundidad. ¿Quieres una demostración rápida? Intenta atrapar un objeto pequeño lanzado por un amigo a unos dos metros de distancia con una sola mano. No es muy difícil. Ahora, repite el experimento, pero cubre uno de tus ojos. Con un ojo cerrado, es más difícil discernir la distancia. Es probable que notes que es difícil juzgar dónde está la pelota en el espacio a medida que se acerca a ti. Hemos modificado tu visión binocular en visión monocular. ¡Divertido!

El equipo cerebro/oreja funciona de manera similar. Cuando el sonido llega a nuestros dos oídos (izquierdo y derecho), el cerebro calcula las diferencias en el tiempo y la amplitud de ambas señales para comprender dónde se encuentra la fuente de ese sonido. Un sonido directamente frente a ti llegará a ambos oídos al mismo tiempo y con la misma amplitud, en la posición de las 12 en punto. A medida que el sonido se mueve hacia la izquierda o hacia la derecha, llegará a un oído ligeramente antes y con más volumen.

El cerebro realiza rápidos cálculos comparativos para comprender la diferencia exacta en tiempo y amplitud, y puede traducir esos datos en una aproximación de la ubicación de la fuente del sonido sin la ayuda de los ojos. Esto también funciona para los sonidos verticales. Llamamos a este sistema de audición «binaural» (bi-dos, aural-oreja). Nuestras capacidades binaurales son las que nos permiten percibir las señales de sonido vertical y lateral en el mundo tridimensional que nos rodea. Es un truco bastante impresionante y fue fundamental para nuestra supervivencia como especie cuando aún no habíamos alcanzado la cima de la cadena alimentaria. El audio inmersivo y el audio espacial fueron diseñados para aprovechar la forma natural en que recibimos y procesamos el sonido.

Comprender cómo escuchamos nos prepara para comprender y participar en el arte y la ciencia del audio inmersivo. Esta revisión de los conceptos básicos es suficiente para comenzar la conversación, pero será beneficioso para el lector continuar su propia investigación sobre este tema. Una búsqueda en el Journal of the Audio Engineering Society revelará una gran cantidad de recursos revisados por expertos sobre el tema, y hay toneladas de videos y artículos en la web que cubren conceptos más avanzados relacionados con nuestra percepción cognitiva auditiva. Por ahora, hemos repasado lo necesario para definir el audio inmersivo y comprender sus principios básicos de funcionamiento.

Entonces, ¿qué es el audio «inmersivo» y cómo funciona?

A veces denominado «ambisonics», el audio inmersivo es un campo de sonido tridimensional creado mediante una combinación de altavoces laterales y superiores. Todos los sistemas de audio inmersivo son, por definición, de múltiples canales y deben incluir altavoces desde arriba (canales de altura). Puedes visualizar esto como altavoces que apuntan hacia ti desde varias direcciones alrededor de tu cabeza a nivel de oído, con altavoces adicionales que apuntan hacia ti desde arriba de tus oídos. En el audio inmersivo, todos los altavoces están enfocados directamente hacia un punto fijo llamado «posición de escucha». La ubicación exacta de estos altavoces está determinada por el formato inmersivo que elijas. Los formatos populares incluyen Dolby ATMOS, Sony 360 y Auro 3D. Cada formato tiene estándares estrictos sobre dónde deben colocarse los altavoces en una habitación para una audición y creación de contenido optimizados.

Todos los formatos inmersivos utilizan software dedicado para emular el entorno tridimensional. El software consiste en una caja virtual tridimensional que representa las paredes, el techo y el suelo de la habitación en la que escuchas. Cuando se instala el software, el usuario introduce la cantidad de altavoces conectados al sistema, así como su posición y orientación relativas en la habitación. Una vez calibrado, el software se convierte en un puente entre el espacio virtual y el físico. El ingeniero de mezcla puede utilizar el software para navegar y colocar elementos de sonido en el espacio virtual. Luego, el software determina qué combinación de altavoces en la habitación recreará mejor esa posición en el entorno físico de escucha.

El software se puede considerar mejor como un «renderizador» que toma datos sin procesar, como la posición de un sonido en el entorno virtual tridimensional, y lo convierte en una experiencia sonora para el ingeniero de mezcla. El renderizador también genera el archivo maestro que contiene toda la información de audio y decodificación necesaria para que un consumidor reproduzca la mezcla inmersiva tal como el ingeniero de mezcla la concibió.

Este concepto es bastante diferente al flujo de trabajo tradicional en estéreo. Al realizar una mezcla en estéreo, los sonidos se colocan entre dos altavoces, el «canal izquierdo» y el «canal derecho». Se utiliza un control de panorama para enviar la señal hacia la izquierda, la derecha o en algún punto intermedio. Al asignar la ubicación de un sonido en el software inmersivo, el usuario opera controles que representan la posición lateral (x), la posición de profundidad (y) y la posición vertical (z) del sonido. Luego, el software calcula el altavoz más preciso o la combinación de altavoces necesarios para recrear el sonido en la habitación para el ingeniero de mezcla. El proceso de colocación y calibración al configurar el sistema es fundamental porque garantiza una relación intuitiva entre el espacio digital cúbico representado en el software y el espacio físico de la habitación.

Una vez que se establece la posición y los niveles relativos de todas las señales, el software captura el audio en un archivo maestro e incrusta la información de posicionamiento como metadatos. Este archivo maestro es el que se envía al sello discográfico y, en última instancia, se distribuye a los consumidores.

Existen varias formas en las que los usuarios finales pueden experimentar un archivo de audio inmersivo. Esto requiere un receptor equipado con un decodificador que coincida con el formato inmersivo que se está transmitiendo. Cuando un consumidor reproduce un archivo inmersivo, un software de re-renderización analiza los metadatos en el archivo maestro y gestiona la experiencia de reproducción. El receptor del consumidor es consciente del número total de altavoces conectados al sistema y de su colocación relativa. (Más información sobre la ubicación de los altavoces en un artículo posterior).

El re-renderizador luego considera los altavoces en el espacio físico y dirige el sonido a la posición más cercana posible a las coordenadas originales. Por ejemplo, si el sistema de reproducción no está equipado con canales de altura traseros, el audio que se había colocado allí se redirigirá al conjunto más cercano de altavoces laterales. Si hay más canales de altura disponibles, se conservará la ubicación del sonido, pero la distribución de altavoces utilizada para crear esa experiencia puede cambiar. De esta manera, el re-renderizador es lo suficientemente flexible como para generar una experiencia auditiva adaptativa en una variedad de configuraciones de altavoces de reproducción.

La capacidad del renderizador de adaptarse a su entorno de acogida es sorprendente. Altavoces inteligentes y barras de sonido equipadas para la reproducción inmersiva pueden recrear una versión de una mezcla inmersiva sin que el operador tenga ningún conocimiento sobre la colocación de los altavoces o la calibración. Dispositivos de consumo como el Echo Studio de Amazon son un buen ejemplo. El Echo Studio es compatible con Dolby ATMOS y calibra automáticamente una experiencia de reproducción inmersiva utilizando Alexa. No te dejes engañar por su forma de cilindro, en realidad cuenta con cuatro altavoces en su interior que reflejan el sonido en el techo hacia el oyente, simulando la presencia de canales de altura. Esto es bastante sorprendente para un producto que cuesta poco más de 200 €. Si conoces a alguien que tenga uno, ¡deberías pedirle que te lo preste para probarlo!

Ahora sabemos mucho más sobre lo que es el audio inmersivo y los conceptos básicos del flujo de trabajo en sistemas de múltiples canales. Pero, ¿cómo funciona esto en los auriculares? ¿Existen auriculares inmersivos?

La respuesta es no, por el momento. Sin embargo, puedes experimentar una versión de audio inmersivo en auriculares regulares mediante algo llamado «audio espacial». El audio espacial es la forma en que la mayoría de los consumidores se conectan con contenido inmersivo en plataformas de transmisión como Apple Music, Tidal y Amazon HD. Aunque están estrechamente relacionados, el audio espacial no es lo mismo que el audio inmersivo. Podemos entender las simples diferencias entre estos dos formatos relacionados pero diferentes sin adentrarnos demasiado en lo técnico (por ahora).

Entonces, ¿qué es el audio «espacial»?

Seguramente recordarás que en un entorno inmersivo, la posición de escucha es fija y el oyente recibirá señales binaurales sobre la ubicación de los sonidos provenientes de los altavoces a su alrededor. El audio espacial se puede describir como una representación binaural simulada de una experiencia auditiva inmersiva y multicanal. De manera más sencilla, el audio espacial intenta proporcionar en dos canales lo que los oídos estarían escuchando si estuvieran sentados en la posición de escucha fija de un sistema de audio inmersivo. Los auriculares o auriculares son ideales para generar esta experiencia porque la señal binaural simula el sonido en el momento en que llega a tus oídos.

El software de streaming que ofrece contenido espacializado generará la experiencia auditiva de dos formas diferentes. En algunas plataformas como Tidal, que ofrece Dolby ATMOS, no hay una categoría específica de «espacial». Cualquier álbum ofrecido en ATMOS se transmitirá como un archivo multicanal inmersivo si está conectado a un renderizador inmersivo. Si se transmite a auriculares, la plataforma utilizará el algoritmo del renderizador Dolby ATMOS para generar una experiencia binaural (estéreo) de la mezcla inmersiva.

¿Es el audio espacial tan bueno como el audio inmersivo? La respuesta es no y hay muchas razones por las que no lo es. Aunque tanto el audio binaural como el espacial se generan en software que aproxima nuestra experiencia auditiva, el audio espacial todavía se queda corto en recrear con precisión los matices de una experiencia auditiva inmersiva y multicanal. Además, otro desafío complicado para el audio espacial es que no todos los servicios de transmisión proporcionan la misma interpretación estéreo de un archivo inmersivo. En consecuencia, un consumidor tendrá una experiencia diferente de la misma mezcla inmersiva al cambiar de plataforma. Como se mencionó anteriormente, Tidal utiliza el renderizador propietario Dolby ATMOS para generar una experiencia binaural.

Otras plataformas, como Apple Music, procesan el archivo maestro de ATMOS con su propio software propietario que genera un flujo binaural diferente. Apple aún no ha compartido cómo funciona su software especial, ni está integrado en el renderizador de ATMOS. Esto deja a los ingenieros adivinando cómo sonarán sus mezclas inmersivas para aquellos que elijan escuchar en Apple Music. El proceso de espacialización de Apple no solo colorea la mezcla, sino que a veces puede atenuar, desplazar o eliminar sonidos en el campo de sonido inmersivo. En justicia, las anomalías causadas por el algoritmo de Apple también pueden tener un efecto positivo en una mezcla. Para reiterar el problema, el audio espacializado es inconsistente, y esto es perjudicial para los artistas, los creadores de contenido y los consumidores.

Otro problema con las representaciones binaurales y espaciales está relacionado con la forma de nuestras orejas. Cada uno de nosotros tiene una forma de oreja externa diferente, o pabellones auriculares, y esto influye en cómo los sonidos son recogidos por nuestros cerebros. Debido a que nuestros cerebros tienen su propia «imagen» única, cada uno tiene su propio código de procesamiento individualizado. Por necesidad, el software que genera audio binaural y espacial asume una forma física genérica de la oreja humana. Esto es problemático.

Por un lado, todos interpretaremos este modelo genérico de manera diferente, incluso cuando escuchamos en la misma plataforma. Algunas personas pueden escuchar claramente un sonido colocado en la parte trasera, mientras que otros pueden no escuchar ese sonido en absoluto. También existe un problema de diversidad, equidad e inclusión relacionado con esto. El modelo genérico utilizado para representar la oreja se basa en un modelo físico eurocéntrico (caucásico). Esto coloca a cualquier persona que no sea blanca en una desventaja significativa.

Una solución lógica sería escanear nuestras propias orejas e insertar nuestros propios modelos personalizados en el software de re-renderización. Hay algunas empresas que ofrecen esta solución a los consumidores. Sony ofrece una aplicación gratuita que mapea las características físicas de tus orejas y desarrolla un perfil personalizado que puedes cargar en ciertos modelos de sus auriculares. Su objetivo es mejorar la experiencia de escuchar música en su plataforma Sony 360. Con suerte, esta tendencia continuará y más marcas de consumo ofrecerán una opción similar. Es ciertamente una posibilidad ahora que los nuevos modelos del iPhone vienen equipados con sensores LiDAR que generan escaneos 3D de objetos.

En resumen, si has probado escuchar mezclas espaciales anteriormente y te has sentido decepcionado, no estás solo. Hay buenas razones por las cuales tu experiencia con el audio espacial puede no haber cumplido con las expectativas. A pesar de sus limitaciones, los consumidores están entusiasmados con el audio espacial. Apple recientemente publicó un informe que indica que el audio espacial es el área de mayor crecimiento en el servicio de streaming de Apple Music. Es posible que el audio espacial sea inferior a la experiencia inmersiva, pero el hecho de que a los consumidores les guste (sin tener idea de cómo funciona) es un signo alentador.

Conclusión

El audio inmersivo es una forma emocionante y fresca de experimentar el sonido. Puede parecer complicado, pero la evolución humana ya ha logrado la parte milagrosa. Gracias a nuestra percepción binaural, disfrutamos de un mundo rico lleno de paisajes sonoros cautivadores. Cuando trabajas con audio inmersivo, puedes recrear estos eventos con detalles realistas, generar nuevas experiencias que despiertan la imaginación y brindar nuevas oportunidades para artistas y creadores de contenido. Es un formato muy gratificante. Aprender un nuevo flujo de trabajo es divertido y ahora es un buen momento para adentrarse en esta tecnología incipiente. Mientras reflexionas sobre todo esto, animo a aquellos que aún no lo hayan hecho a buscar una instalación equipada con un sistema de reproducción inmersivo y pedir una prueba. Sumérgete en el audio espacial en tu aplicación de streaming favorita y descubre qué hay ahí fuera.

«Creer en lo que ves con tus ojos, confiar en lo que escuchas con tus oídos, saber lo que sientes con tu piel» – Brian Staveley

Artículo traducido del blog de Sonarworks. Artículo original disponible aquí.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Utilizamos Cookies propias y de terceros para recopilar información para mejorar nuestros servicios y para análisis de tus hábitos de navegación. Para dar tu consentimiento sobre su uso pulsa el botón "Aceptar". Puedes configurar tu navegador para impedir su instalación.