Reinforcement Learning Toolbox

 

Reinforcement Learning Toolbox

Diseño y entrenamiento de políticas con reinforcement learning

Más información:

Agentes de reinforcement learning

Cree y configure agentes de reinforcement learning para entrenar políticas en MATLAB y Simulink. Utilice los algoritmos de reinforcement learning integrados o desarrolle algoritmos personalizados.

Algoritmos de aprendizaje por refuerzo

Cree agentes con Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG), Proximal Policy Optimization (PPO) y otros algoritmos integrados. Utilice plantillas para desarrollar agentes personalizados para entrenar políticas.

Varios algoritmos de entrenamiento, incluidos SARSA, SAC, DDPG y otros.

Algoritmos de entrenamiento disponibles en Reinforcement Learning Toolbox.

Representación de funciones de valores y políticas con redes neuronales profundas

Para sistemas complejos con grandes espacios de estado-acción, defina políticas de redes neuronales profundas de forma programática, con capas de Deep Learning Toolbox, o de forma interactiva con Deep Network Designer. Si lo prefiere, puede utilizar la arquitectura de red predeterminada sugerida por la toolbox. Inicialice la política utilizando el aprendizaje por imitación para acelerar el entrenamiento. Importe y exporte modelos ONNX para permitir la interoperabilidad con otros marcos de Deep Learning.

Reinforcement learning monoagente y multiagente en Simulink

Cree y entrene agentes de reinforcement learning en Simulink con el bloque RL Agent. Entrene varios agentes simultáneamente (reinforcement learning multiagente) en Simulink utilizando varias instancias del bloque RL Agent.

Modelo de Simulink con un bloque RL Agent.

Bloque RL Agent de Simulink.

Modelado de entornos

Cree modelos de entorno de MATLAB y Simulink. Describa la dinámica del sistema y proporcione señales de observación y recompensa para el entrenamiento de agentes.

Entornos de Simulink y Simscape

Utilice Simulink y Simscape™ para crear un modelo de un entorno. Especifique las señales de observación, acción y recompensa en el modelo.

Modelo de entorno de Simulink de un robot bípedo.

Modelo de entorno de Simulink de un robot bípedo.

Entornos de MATLAB

Utilice funciones y clases de MATLAB para modelar un entorno. Especifique las variables de observación, acción y recompensa en el archivo de MATLAB.

Entorno de MATLAB para un cohete de 3 grados de libertad.

Entorno de MATLAB para un cohete de tres grados de libertad.

Aceleración del entrenamiento

Acelere el entrenamiento mediante el cálculo con GPU, en la nube y distribuido.

Aceleración por GPU

Acelere el entrenamiento y la inferencia de redes neuronales profundas con las GPU NVIDIA® de alto rendimiento. Puede utilizar MATLAB con Parallel Computing Toolbox y la mayoría de las GPU NVIDIA habilitadas para CUDA con una capacidad de cálculo 3.0 o superior.

Hardware de GPU.

Acelere el entrenamiento con varias GPU.

Generación y despliegue de código

Implemente políticas entrenadas en dispositivos embebidos o intégrelas en una amplia gama de entornos de producción.

Generación de código

Utilice GPU Coder™ para generar código CUDA optimizado a partir de código de MATLAB que represente redes entrenadas. Genere código C/C++ con MATLAB Coder™ para desplegar políticas.

Ventana de configuración de GPU Coder.

Generación de código CUDA con GPU Coder.

Soporte de MATLAB Compiler

Utilice MATLAB Compiler™ y MATLAB Compiler SDK™ para desplegar políticas entrenadas como aplicaciones independientes, librerías C/C++ compartidas, ensamblados Microsoft® .NET, clases de Java® y paquetes de Python®.

MATLAB Compiler para crear una aplicación independiente.

Empaquetado y uso compartido de políticas como programas independientes.

Ejemplos de referencia

Diseñe controladores y algoritmos de toma de decisiones para aplicaciones de robótica, conducción autónoma, calibración y planificación, entre otras.

Ajuste, calibración y planificación

Diseñe políticas de reinforcement learning para aplicaciones de ajuste, calibración y planificación.

Sistema de distribución de agua con tres bombas, depósito y tanque.

Problema de asignación de recursos para la distribución de agua.

Serie de vídeos sobre reinforcement learning

Aprenda más sobre reinforcement learning con esta serie de vídeos.