reinforcement learning toolboxでの行動選択について、状態から選ばれる行動を制限することは可能でしょうか

Question

RU SnRG el 25 de Mzo. de 2021

0
Enlazar

Enlace directo a esta pregunta

https://es.mathworks.com/matlabcentral/answers/783516-reinforcement-learning-toolbox

Comentada: RU SnRG el 30 de Mzo. de 2021

Respuesta aceptada: Hiro Yoshino

Abrir en MATLAB Online

現在、reinforcement learning toolboxを用いて、三目並べ(tic tac toe)の強化学習を試みている初学者です。

https://qiita.com/HYCE/items/102b2d58218271cc61eb

上記のQiitaの記事を参考に、ActionInfoとObservationInfoを以下のようにしています。　

ObservationInfo = rlNumericSpec([3 3]);
ActionInfo = rlFiniteSetSpec([1 2 3 4 5 6 7 8 9]);

左上のマスから順に１～９として、どこかのマスを選択する、といった形です。

しかし、これだと絶対に入らないマスを選択してしまい、無駄な行動が増えてしまいます（例えば、左上のマスは既に相手が取っているにもかかわらず、行動で１を選択してしまうなど）。このような無駄な行動を避けるために、現在の状態を確認して選択できない行動はあらかじめ除外するといったことをしたいのですが、そのようなことは可能でしょうか？可能でしたらやり方を教えていただきたいです。

0 comentarios
Mostrar -2 comentarios más antiguosOcultar -2 comentarios más antiguos

Iniciar sesión para comentar.

Iniciar sesión para responder a esta pregunta.

Answer 1

Hiro Yoshino el 26 de Mzo. de 2021

0
Enlazar

Enlace directo a esta respuesta

https://es.mathworks.com/matlabcentral/answers/783516-reinforcement-learning-toolbox#answer_658621

Abrir en MATLAB Online

現状では、探索方策をカスタマイズする方法があるようです。

https://www.mathworks.com/help/reinforcement-learning/ug/custom-agents.html

連続空間なので少し状況が異なるかと思いますが：

function action = getActionWithExplorationImpl(obj,Observation)
    % Given the current observation, select an action
    action = getAction(obj,Observation);
    
    % Add random noise to the action
    num = size(obj.R,1);
    action = action + 0.1*randn(num,1);
end

のように観測情報に合わせて、actionを制御することが可能です。

ただ、非常にシンプルな強化学習の問題に対してカスタム方策を導入するのは、大げさなような気もして、もう少し簡単に出来る方法がないか引き続き調査してみます。

1 comentario
Mostrar -1 comentarios más antiguosOcultar -1 comentarios más antiguos

RU SnRG el 30 de Mzo. de 2021

回答ありがとうございます。最終的にはもう少し複雑なルール上での学習も考えているので少し試してみます。

Iniciar sesión para comentar.

reinforcement learning toolboxでの行動選択について、状態から選ばれる行動を制限することは可能でしょうか

0 comentarios
Mostrar -2 comentarios más antiguosOcultar -2 comentarios más antiguos

Respuesta aceptada

1 comentario
Mostrar -1 comentarios más antiguosOcultar -1 comentarios más antiguos

Más respuestas (0)

Ver también

Categorías

Etiquetas

Productos

Versión

Community Treasure Hunt

reinforcement learning toolboxでの行​動選択について、状態​から選ばれる行動を制​限することは可能でし​ょうか

0 comentarios Mostrar -2 comentarios más antiguosOcultar -2 comentarios más antiguos

Respuesta aceptada

1 comentario Mostrar -1 comentarios más antiguosOcultar -1 comentarios más antiguos

Más respuestas (0)

Ver también

Categorías

Etiquetas

Productos

Versión

Community Treasure Hunt

reinforcement learning toolboxでの行動選択について、状態から選ばれる行動を制限することは可能でしょうか

0 comentarios
Mostrar -2 comentarios más antiguosOcultar -2 comentarios más antiguos

1 comentario
Mostrar -1 comentarios más antiguosOcultar -1 comentarios más antiguos