Audio Toolbox™ brinda herramientas para el procesamiento de audio, el análisis de la voz y la medición acústica. Incluye algoritmos para procesar señales de audio, como la ecualización y la extensión de tiempo, estimar métricas de señales acústicas, como el volumen y la nitidez, y extraer características de audio, como MFCC y el tono. Asimismo, proporciona modelos de Machine Learning avanzados, como los vectores i, y redes de Deep Learning previamente entrenadas, como VGGish y CREPE. Las apps de esta toolbox admiten las pruebas de algoritmos en tiempo real, la medición de la respuesta a impulso y el etiquetado de señales. La toolbox proporciona interfaces de streaming para ASIO, CoreAudio y otras tarjetas de sonido, dispositivos MIDI, y herramientas para generar y alojar complementos VST y Audio Units.
Con Audio Toolbox, puede importar, etiquetar y aumentar conjuntos de datos de audio, además de extraer características para entrenar modelos de Machine Learning y Deep Learning. También se proporcionan modelos previamente entrenados que se pueden aplicar a las grabaciones de audio para realizar un análisis semántico de alto nivel.
Puede prototipar algoritmos de procesamiento de audio en tiempo real o ejecutar mediciones acústicas personalizadas realizando streaming de audio de baja latencia desde y hacia las tarjetas de sonido. También puede validar un algoritmo convirtiéndolo en un complemento de audio para ejecutarlo en aplicaciones de alojamiento externas, como estaciones de trabajo de audio digital. El alojamiento de complementos permite utilizar complementos de audio externos como objetos normales de MATLAB®.
Más información:
- Adquisición y reproducción de streaming con interfaces de audio
- Machine Learning y Deep Learning
- Algoritmos y efectos de procesamiento de audio
- Prototipado de audio en tiempo real
- Mediciones acústicas y audio espacial
- Generación y alojamiento de complementos de audio
- Sistemas de audio en tiempo real y embebidos en plataformas
Conectividad con controladores de audio estándar
Lea y escriba muestras de audio en tarjetas de sonido (tales como USB o Thunderbolt™) mediante controladores de audio estándar (tales como ASIO, WASAPI, CoreAudio y ALSA) en sistemas operativos Windows®, Mac® y Linux®.
Streaming de audio multicanal de baja latencia
Procese audio en vivo en MATLAB con una latencia de ida y vuelta de milisegundos.
Machine Learning y Deep Learning
Etiquete, aumente, cree y procese conjuntos de datos de audio y voz; extraiga características y calcule transformaciones de tiempo-frecuencia. Desarrolle análisis de audio y voz con Statistics and Machine Learning Toolbox™, Deep Learning Toolbox™ u otras herramientas de Machine Learning.
Modelos de Deep Learning previamente entrenados
Utilice Deep Learning para realizar tareas complejas de procesamiento de señales y extraer audio embebido con una sola línea de código. Acceda a redes previamente entrenadas ya asentadas, como YAMNet, VGGish, CREPE y OpenL3, y aplíquelas con la ayuda de funciones de extracción de características preconfiguradas.
Extracción de características de acústica, audio y voz
Transforme las señales en representaciones de tiempo-frecuencia como los espectrogramas de Mel, Bark y ERB. Calcule coeficientes cepstrales como MFCC y GTCC, y características escalares como el tono, la armonicidad y los descriptores espectrales. Extraiga características de alto nivel y señales embebidas con modelos de Deep Learning previamente entrenados (VGGish, OpenL3) y el sistema de vectores i. Acelere la extracción de características con tarjetas GPU compatibles.
Modelos y entrenamiento de Machine Learning
Entrene Machine Learning de última generación con conjuntos de datos de audio. Utilice sistemas de modelos ya asentados, como los vectores i, para aplicaciones de identificación y verificación de hablantes. A partir de ejemplos reales, aprenda a diseñar y entrenar redes y capas neuronales avanzadas para aplicaciones de acústica, audio y voz.
Importación, anotación y preprocesamiento de conjuntos de datos de audio
Lea, particione y preprocese grandes conjuntos de grabaciones de audio. Anote señales de audio manualmente con apps. Identifique y segmente las regiones de interés automáticamente con modelos de Machine Learning previamente entrenados.
Aumento y sintetización de conjuntos de datos de audio y voz
Configure canalizaciones aleatorias de aumento de datos utilizando combinaciones de cambios de tono, extensión de tiempo y otros efectos de procesamiento de audio. Cree grabaciones de voz sintética a partir de texto con servicios de conversión de texto a voz basados en la nube.
Filtros y ecualizadores de audio
Modele y aplique filtros EQ paramétricos, EQ gráficos, de shelving y de pendiente variable. Diseñe y simule filtros de cruce digital, de octavas y de fracciones de octava.
Efectos y control de rango dinámico
Modele y aplique algoritmos de procesamiento de rango dinámico para comprimir, limitar, expandir y usar una puerta de ruido. Agregue reverberación artificial con modelos paramétricos recursivos.
Simulación de sistemas con diagramas de bloques
Diseñe y simule modelos de sistemas mediante librerías de bloques de procesamiento de audio para Simulink®. Ajuste los parámetros y visualice el comportamiento del sistema mediante controles interactivos y gráficas dinámicas.
Ajuste de parámetros en tiempo real con interfaces de usuario
Cree automáticamente interfaces de usuario para parámetros de algoritmos de procesamiento de audio que se pueden ajustar. Pruebe cada algoritmo con la app Audio Test Bench y ajuste los parámetros en los programas en ejecución con controles interactivos generados automáticamente.
Conectividad con MIDI para controlar parámetros e intercambiar mensajes
Cambie los parámetros de los algoritmos de MATLAB de forma interactiva con superficies de control MIDI. Controle el hardware externo o responda a eventos mediante el envío y recepción de mensajes MIDI.
Medición y análisis basados en estándares
Aplique medidores de nivel de presión sonora (SPL) y medidores de volumen a señales grabadas o en tiempo real. Analice las señales con filtros de octava y de fracciones de octava. Aplique filtros de ponderación A, C o K conformes a estándares en grabaciones sin procesar. Mida la nitidez acústica, la aspereza y la fuerza de fluctuación.
Medición de la respuesta a impulso
Mida las respuestas a impulso y frecuencia de sistemas acústicos y de audio mediante secuencias de longitud máxima (MLS) y sinusoides de barrido exponencial (ESS). Utilice la app Impulse Response Measurer. Automatice las mediciones con la generación programática de señales de excitación y la estimación de las respuestas del sistema.
Convolución eficiente con respuestas a impulsos en una sala
Convolucione las señales con respuestas largas a impulsos de forma eficiente mediante implementaciones overlap-and-add u overlap-and-save en el dominio de frecuencia. Encuentre el equilibro entre latencia y velocidad de cálculo mediante el particionamiento automático de la respuesta a impulso.
Audio espacial
Codifique y decodifique distintos formatos ambisónicos. Interpole funciones de transferencia relacionadas con la cabeza (HRTF) con muestreo espacial.
Generación de complementos de audio
Genere complementos VST, complementos AU y complementos ejecutables independientes directamente a partir de código de MATLAB, sin necesidad de diseñar manualmente interfaces de usuario. Para el prototipado de complementos más avanzados, genere proyectos JUCE C++ listos para crear (requiere MATLAB Coder™).
Alojamiento de complementos de audio externos
Utilice complementos VST y AU externos como objetos normales de MATLAB. Cambie los parámetros de los complementos y procese arrays de MATLAB de forma programática. Si lo prefiere, automatice las asociaciones de parámetros de complementos con interfaces de usuario y controles MIDI. Aloje complementos generados con código de MATLAB para aumentar la eficiencia de ejecución.
Generación de código para plataformas CPU y GPU
Con los productos codificadores de MathWorks®, genere código fuente C y C++ a partir de algoritmos de procesamiento de señales y Machine Learning proporcionados como funciones, objetos y bloques de toolbox. Genere código fuente CUDA a partir de funciones de extracción de características seleccionadas como mfcc
y melSpectrogram
.
Dispositivos móviles y de bajo coste
Prototipe diseños de procesamiento de audio en Raspberry Pi™ con interfaces de audio multicanal integrados o externos. Cree paneles de control interactivos como apps móviles para dispositivos Android® o iOS.
Sistemas sin latencia
Prototipe diseños de procesamiento de audio con entradas y salidas de muestra única para el control de ruido adaptativo, la validación de audífonos u otras aplicaciones que requieren una latencia DSP de ida y vuelta mínima. Ejecute automáticamente los modelos de Simulink en plataformas de audio Speedgoat y placas ST de Discovery.