Reinforcement Learning Toolbox
Diseño y entrenamiento mediante aprendizaje por refuerzo
Reinforcement Learning Toolbox™ proporciona funciones y bloques para entrenar algoritmos de aprendizaje por refuerzo como DQN, A2C y DDPG. Estos métodos se pueden emplear a fin de implementar controladores y algoritmos de toma de decisiones para sistemas complejos, tales como robots y sistemas autónomos. Se pueden implementar mediante redes neuronales profundas, polinomios o tablas de búsqueda.
Esta toolbox permite entrenamiento, ya que les permite interactuar con entornos representados por modelos de MATLAB® o Simulink®. Cabe la posibilidad de evaluar algoritmos, experimentar con configuraciones de hiperparámetros y supervisar el progreso del entrenamiento. Para mejorar el rendimiento del entrenamiento, es posible ejecutar simulaciones en paralelo en la nube, en clusters de ordenadores y en GPUs (con Parallel Computing Toolbox™ y MATLAB Parallel Server™).
El formato ONNX™ permite importar las políticas existentes a partir de marcos de deep learning como TensorFlow™ Keras y PyTorch (con Deep Learning Toolbox™). Es posible generar código C, C++ y CUDA optimizado para implementación en microcontroladores y GPUs.
La toolbox incluye ejemplos de referencia para utilizar el aprendizaje por refuerzo a fin de diseñar controladores para aplicaciones de robótica y conducción autónoma.
Comience:
Algoritmos de aprendizaje por refuerzo
Implemente agentes mediante Deep Q-Network (DQN), Advantage Actor Critic (A2C), Deep Deterministic Policy Gradient (DDPG) y otros algoritmos integrados. Utilice plantillas a fin de implementar agentes personalizados para entrenamiento.
Representación de funciones de valores y políticas mediante redes neuronales profundas
Use redes neuronales profundas para sistemas complejos con grandes espacios de estado-acción. Defina mediante redes y arquitecturas de Deep Learning Toolbox. Importe modelos ONNX para la interoperabilidad con otros marcos de deep learning.
Bloques de Simulink para agentes
Implemente y entrene agentes de Reinforcement Learning en Simulink.
Entornos de Simulink y Simscape
Utilice modelos de Simulink y Simscape™ para representar un entorno. Especifique las señales de observación, acción y recompensa en el modelo.
Entornos de MATLAB
Utilice funciones y clases de MATLAB para representar un entorno. Especifique las variables de observación, acción y recompensa en el archivo de MATLAB.
Cálculo distribuido y aceleración multinúcleo
Acelere el entrenamiento gracias a la ejecución de simulaciones paralelas en equipos multinúcleo, recursos en la nube o clusters de cálculo mediante Parallel Computing Toolbox y MATLAB Parallel Server.
Aceleración mediante GPUs
Acelere el entrenamiento y la inferencia de redes neuronales profundas con GPUs NVIDIA® de alto rendimiento. Puede emplear MATLAB con Parallel Computing Toolbox y la mayor parte de GPUs NVIDIA compatibles con CUDA® que tienen una capacidad de cálculo 3.0 o superior.
Generación de código
Utilice GPU Coder™ para generar código CUDA optimizado a partir de código MATLAB que represente redes entrenadas. Utilice MATLAB Coder™ para generar código C/C++ que implemente Reinforcement Learning.
Soporte de MATLAB Compiler
Utilice MATLAB Compiler™ y MATLAB Compiler SDK™ para implementar Reinforcement Learning como librerías C/C++ compartidas, ensamblados Microsoft® .NET, clases de Java® y paquetes de Python®.
Primeros pasos
Implemente controladores basados en aprendizaje por refuerzo para problemas como equilibrar un péndulo invertido, solucionar un problema de grid-world y equilibrar un sistema de carro y poste.
Aplicaciones de conducción autónoma
Diseñe controladores para sistemas de control de crucero adaptativo y asistencia al mantenimiento de carril.
Robótica
Diseñe controladores para robots mediante Reinforcement Learning.
Vea los vídeos de esta serie para saber más sobre el aprendizaje por refuerzo
¿Tiene preguntas?
Póngase en contacto con Emmanouil Tzorakoleftherakis, experto técnico en Reinforcement Learning Toolbox
Agente de PPO
entrenamiento de políticas mediante un algoritmo proximal de optimización de políticas para una mayor estabilidad del entrenamiento.
Simulación de agentes en paralelo
verificación de políticas entrenadas mediante la ejecución de varias simulaciones de agente en paralelo.
Ejemplos de referencia
entrenamiento de políticas de aprendizaje por refuerzo para aplicaciones de robótica y diseño de sistemas de control.
Consulte las notas de la versión para obtener detalles sobre estas características y las funciones correspondientes.