Agents

Create and configure reinforcement learning agents

A reinforcement learning agent receives observations and a reward from the environment, and returns an action to the environment. During training, the agent continuously updates its parameters to improve its policy for the given environment.

Reinforcement Learning Toolbox™ software provides built-in reinforcement learning agents that use several common algorithms, such as Q-Learning, DQN, PG, AC, DDPG, TD3, SAC and PPO. You can also implement your own custom agents.

For an introduction to agents, see Reinforcement Learning Agents. For an introduction to policies, value functions, actors and critics, see Create Policies and Value Functions.

Apps

Reinforcement Learning Designer

Design, train, and simulate reinforcement learning agents (Since R2021a)

Blocks

RL Agent

Reinforcement learning agent

Functions

expand all

Agents

`rlQAgent`	Q-learning reinforcement learning agent
`rlSARSAAgent`	SARSA reinforcement learning agent
`rlLSPIAgent`	Least square policy iteration reinforcement learning agent (Since R2025a)
`rlDQNAgent`	Deep Q-network (DQN) reinforcement learning agent
`rlPGAgent`	Policy gradient (PG) reinforcement learning agent
`rlACAgent`	Actor-critic (AC) reinforcement learning agent
`rlPPOAgent`	Proximal policy optimization (PPO) reinforcement learning agent
`rlTRPOAgent`	Trust region policy optimization (TRPO) reinforcement learning agent (Since R2021b)
`rlDDPGAgent`	Deep deterministic policy gradient (DDPG) reinforcement learning agent
`rlTD3Agent`	Twin-delayed deep deterministic (TD3) policy gradient reinforcement learning agent
`rlSACAgent`	Soft actor-critic (SAC) reinforcement learning agent

Agent Options

`rlQAgentOptions`	Options for Q-learning agent
`rlSARSAAgentOptions`	Options for SARSA agent
`rlLSPIAgentOptions`	Options for LSPI agent (Since R2025a)
`rlDQNAgentOptions`	Options for DQN agent
`rlPGAgentOptions`	Options for PG agent
`rlACAgentOptions`	Options for AC agent
`rlPPOAgentOptions`	Options for PPO agent
`rlTRPOAgentOptions`	Options for TRPO agent (Since R2021b)
`rlDDPGAgentOptions`	Options for DDPG agent
`rlTD3AgentOptions`	Options for TD3 agent
`rlSACAgentOptions`	Options for SAC agent
`rlAgentInitializationOptions`	Options for initializing reinforcement learning agents
`rlConservativeQLearningOptions`	Regularizer options object to train DQN and SAC agents (Since R2023a)
`rlBehaviorCloningRegularizerOptions`	Regularizer options object to train DDPG, TD3 and SAC agents (Since R2023a)

Model-Based Policy Optimization

`rlMBPOAgent`	Model-based policy optimization (MBPO) reinforcement learning agent (Since R2022a)
`rlMBPOAgentOptions`	Options for MBPO agent (Since R2022a)

Get and Set Actors and Critics

`getActor`	Extract actor from reinforcement learning agent
`getCritic`	Extract critic from reinforcement learning agent
`setActor`	Set actor of reinforcement learning agent
`setCritic`	Set critic of reinforcement learning agent

Get Action

getAction Obtain action from agent, actor, or policy object given environment observations

Experience Buffer

`rlReplayMemory`	Replay memory experience buffer (Since R2022a)
`rlPrioritizedReplayMemory`	Replay memory experience buffer with prioritized sampling (Since R2022b)
`rlHindsightReplayMemory`	Hindsight replay memory experience buffer (Since R2023a)
`rlHindsightPrioritizedReplayMemory`	Hindsight replay memory experience buffer with prioritized sampling (Since R2023a)
`append`	Append experiences to replay memory buffer (Since R2022a)
`sample`	Sample experiences from replay memory buffer (Since R2022a)
`resize`	Resize replay memory experience buffer (Since R2022b)
`allExperiences`	Return all experiences in replay memory buffer (Since R2022b)
`validateExperience`	Validate experiences for replay memory (Since R2023a)
`generateHindsightExperiences`	Generate hindsight experiences from hindsight experience replay buffer (Since R2023a)

Observation and Action Specifications

`getActionInfo`	Obtain action data specifications from reinforcement learning environment, agent, or experience buffer
`getObservationInfo`	Obtain observation data specifications from reinforcement learning environment, agent, or experience buffer

Reset Agent or Experience Buffer

reset Reset environment, agent, experience buffer, or policy object (Since R2022a)

Topics

Agent Basics

Reinforcement Learning Agents
You can create an agent using one of several standard reinforcement learning algorithms or define your own custom agent.
Create Agents Using Reinforcement Learning Designer
Interactively create or import agents for training using the Reinforcement Learning Designer app.

Agent Types

Q-Learning Agent
Q-learning agent description and algorithm.
SARSA Agent
SARSA agent description and algorithm.
LSPI Agent
LSPI agent description and algorithm.
Deep Q-Network (DQN) Agent
DQN agent description and algorithm.
REINFORCE Policy Gradient (PG) Agent
Vanilla policy gradient agent description and algorithm.
Actor-Critic (AC) Agent
Actor-critic agent description and algorithm.
Proximal Policy Optimization (PPO) Agent
PPO agent description and algorithm.
Trust Region Policy Optimization (TRPO) Agent
TRPO agent description and algorithm.
Deep Deterministic Policy Gradient (DDPG) Agent
DDPG agent description and algorithm.
Twin-Delayed Deep Deterministic (TD3) Policy Gradient Agent
TD3 agent description and algorithm.
Soft Actor-Critic (SAC) Agent
SAC agent description and algorithm.
Model-Based Policy Optimization (MBPO) Agent
A model-based (MBPO) reinforcement learning agent learns a model of its environment that it can use to generate additional experiences for training.

Custom Agents

Create Custom Reinforcement Learning Agents
Create custom agents.
Create and Train Custom PG Agent
Create a custom PG agent and train it using the built-in train function.
Create and Train Custom LQR Agent
Create a custom agent that solves an LQR problem and train it using the built-in train function.