Audio Toolbox
Diseñe y analice sistemas de procesamiento de voz, acústicos y de audio
Audio Toolbox™ proporciona herramientas para el procesamiento de audio, el análisis de la voz y la medición acústica. Incluye algoritmos para el procesamiento de señales de audio (tales como la ecualización y el control del rango dinámico) y la medición acústica (tales como la estimación de la respuesta a impulso, el filtrado de octavas y la ponderación perceptiva). También proporciona algoritmos para la extracción de características de audio y voz (tales como MFCC y tono) y la transformación de señales de audio (tales como el banco de filtros gammatono y el espectrograma con espaciado de Mel).
Las apps de esta toolbox soportan las pruebas de algoritmos en tiempo real, la medición de la respuesta a impulso y el etiquetado de señales de audio. La toolbox proporciona interfaces de streaming para dispositivos MIDI y tarjetas de audio ASIO, WASAPI, ALSA y CoreAudio, así como herramientas para generar y alojar complementos de audio estándar tales como VST y Audio Units.
Con Audio Toolbox, podrá importar, etiquetar y aumentar conjuntos de datos de audio, además de extraer características y transformar señales para machine learning y deep learning. Es posible prototipar algoritmos de procesamiento de audio en tiempo real mediante el streaming de audio de baja latencia mientras se ajustan los parámetros y se visualizan las señales. También se puede validar el algoritmo mediante su conversión en un complemento de audio para ejecutarlo en aplicaciones de alojamiento externas como, por ejemplo, estaciones de trabajo de audio digital. El alojamiento de complementos permite utilizar complementos de audio externos como objetos normales para procesar arrays de MATLAB®. La conectividad para tarjetas de sonido permite ejecutar mediciones personalizadas en señales de audio y sistemas acústicos reales.
Comience:
- Streaming de audio con tarjetas de sonido
- Machine learning y deep learning
- Algoritmos y efectos de procesamiento de audio
- Prototipado de audio en tiempo real
- Mediciones acústicas y audio espacial
- Generación y alojamiento de complementos de audio
- Sistemas de audio en tiempo real y embebidos en plataformas
Conectividad con controladores de audio estándar
Lea y escriba muestras de audio en tarjetas de sonido (tales como USB o Thunderbolt™) mediante controladores de audio estándar (tales como ASIO, WASAPI, CoreAudio y ALSA) en sistemas operativos Windows®, Mac® y Linux®.
Streaming de audio multicanal de baja latencia
Procese audio en tiempo real en MATLAB con una latencia de ida y vuelta de milisegundos.
Machine learning y deep learning
Etiquete, aumente, cree y procese conjuntos de datos de audio y voz, extraiga características y calcule transformaciones de tiempo-frecuencia. Desarrolle análisis de audio y voz con Statistics and Machine Learning Toolbox™, Deep Learning Toolbox™ u otras herramientas de machine learning.
Modelos de deep learning previamente entrenados
Utilice conocidos modelos de deep learning previamente entrenados con grandes conjuntos de datos de audio para realizar tareas complejas de procesamiento de audio, tales como clasificar eventos de sonido en grabaciones de audio con Yamnet y extraer audio embebido con VGGish.
Extracción de características de audio y voz
Extraiga características de bajo nivel para análisis de voz y audio, incluidos los coeficientes cepstrales en las frecuencias de Mel (MFCC), los coeficientes cepstrales gammatono (GTCC), el tono, la armonicidad y los descriptores espectrales. Alimente arquitecturas de deep learning que trabajan con series temporales, tales como las basadas en capas LSTM.
Transformaciones de tiempo-frecuencia
Transforme las señales en representaciones de tiempo-frecuencia mediante una transformada de coseno discreta modificada (MDCT), una transformada de Fourier de tiempo corto (STFT) o el espectrograma con espaciado de Mel, que es más compacto. Descomponga las señales mediante el uso de bandas de frecuencia con espaciado perceptivo que emplean bancos de filtros gammatono. Alimente modelos de deep learning que trabajan con datos bidimensionales, tales como los basados en capas de CNN.
Etiquetado y anotación de conjuntos de datos de audio
Asigne etiquetas y anotaciones de validación (ground-truth) a grabaciones de audio y conjuntos de datos de forma manual y automática. Detecte regiones de voz en señales de audio. Automatice la transcripción de voz mediante servicios de conversión de voz a texto basados en la nube.
Procesamiento de grandes conjuntos de datos de audio
Indexe y lea grandes colecciones de grabaciones de audio mediante audioDatastore
. Divida de forma aleatoria listas de archivos de audio de acuerdo con las etiquetas. Paralelice las tareas de procesamiento mediante arrays altos para aumentar los datos, realizar transformaciones de tiempo-frecuencia y extraer características.
Aumento y sintetización de conjuntos de datos de audio y voz
Configure canalizaciones aleatorias de aumento de datos utilizando combinaciones de cambios de tono, extensión de tiempo y otros efectos de procesamiento de audio. Cree grabaciones de voz sintética a partir de texto mediante servicios de conversión de texto a voz basados en la nube.
Filtros y ecualizadores de audio
Modele y aplique filtros EQ paramétricos, EQ gráficos, de shelving y de pendiente variable. Diseñe y simule filtros de cruce digital, de octavas y de fracciones de octavas.
Efectos y control de rango dinámico
Modele y aplique algoritmos de procesamiento de rango dinámico para comprimir, limitar, expandir y usar una puerta de ruido. Agregue reverberación artificial con modelos paramétricos recursivos.
Simulación de sistemas con diagramas de bloques
Diseñe y simule modelos de sistemas mediante librerías de bloques de procesamiento de audio para Simulink®. Ajuste los parámetros y visualice el comportamiento del sistema mediante controles interactivos y gráficas dinámicas.
Ajuste de parámetros en tiempo real mediante interfaces de usuario
Cree automáticamente interfaces de usuario para parámetros de algoritmos de procesamiento de audio que se pueden ajustar. Pruebe cada algoritmo con la app Audio Test Bench y ajuste los parámetros en los programas en ejecución con controles interactivos generados automáticamente.
Conectividad con MIDI para el control de parámetros y el intercambio de mensajes
Cambie de forma interactiva los parámetros de los algoritmos de MATLAB mediante superficies de control MIDI. Controle el hardware externo o responda a los eventos mediante el envío y la recepción de cualquier tipo de mensaje MIDI.
Medición y análisis basados en estándares
Aplique medidores de nivel de presión sonora (SPL) y medidores de volumen a señales grabadas o en tiempo real. Analice las señales con filtros de octavas y de fracciones de octavas. Aplique filtros de ponderación A, C o K conformes a estándares a grabaciones sin procesar.
Medición de la respuesta a impulso
Mida las respuestas a impulso y frecuencia de sistemas acústicos y de audio mediante secuencias de longitud máxima (MLS) y sinusoides de barrido exponencial (ESS). Comience a utilizar la app Impulse Response Measurer. Automatice las mediciones mediante la generación programática de señales de excitación y la estimación de las respuestas del sistema.
Convolución eficiente con respuestas a impulsos de sala
Convolucione las señales con respuestas largas a impulsos de forma eficiente mediante implementaciones overlap-and-add u overlap-and-save en el dominio de frecuencia. Encuentre el equilibro entre latencia y velocidad de cálculo mediante el particionamiento automático de la respuesta a impulso.
Audio espacial
Codifique y decodifique distintos formatos ambisónicos. Interpole funciones de transferencia relacionadas con la cabeza (HRTF) con muestreo espacial.
Generación de complementos de audio
Genere complementos VST, complementos AU y complementos ejecutables independientes directamente a partir de código de MATLAB sin necesidad de diseñar manualmente interfaces de usuario. Para el prototipado de complementos más avanzados, genere proyectos JUCE C++ listos para crear (requiere MATLAB Coder™).
Alojamiento de complementos de audio externos
Utilice complementos VST y AU externos como objetos normales de MATLAB. Cambie los parámetros de los complementos y procese arrays de MATLAB de forma programática. Si lo prefiere, automatice las asociaciones de parámetros de complementos con interfaces de usuario y controles MIDI. Aloje complementos generados a partir de código de MATLAB para aumentar la eficiencia de ejecución.
Dispositivos móviles y de bajo coste
Prototipe diseños de procesamiento de audio en Raspberry Pi™ mediante interfaces de audio multicanal integrados o externos. Cree paneles de control interactivos como apps móviles para dispositivos Android® o iOS.
Sistemas sin latencia
Prototipe diseños de procesamiento de audio con entradas y salidas de muestra única para el control de ruido adaptativo, la validación de audífonos u otras aplicaciones que requieren una latencia DSP de ida y vuelta mínima. Ejecute automáticamente los modelos de Simulink en plataformas de audio Speedgoat y placas ST de Discovery.
Clasificación de sonido con YAMNet
Clasifique las grabaciones de sonido con deep learning (requiere Deep Learning Toolbox).
Audio embebido con VGGish
Extraiga características de audio de alto nivel con deep learning (requiere Deep Learning Toolbox).
Coeficientes cepstrales generalizados y características delta
Calcule MFCC, GTCC, BFCC y otros tipos de coeficientes cepstrales, espectrogramas auditivos y características delta.
Análisis de octavas para frecuencias inaudibles
Analice señales con diseños de filtros de octavas mejorados utilizando octaveFilter, octaveFilterBank y splMeter.
Fluctuación acústica
Mida la fluctuación acústica percibida.
Aceleración por GPU para la extracción de características
Acelere funciones adicionales para extraer características utilizando tarjetas GPU compatibles (requiere Parallel Computing Toolbox).
Consulte las notas de la versión para obtener detalles sobre estas funcionalidades y las funciones correspondientes.