2023-05-02から1日間の記事一覧

2023-05-02

オフライン強化学習③ Implicit Q-Learning (IQL)の実装

Implicit Q-Learningでは、maxQ(s,a)の評価を期待回帰(Expectile Regression)によって暗黙的に行うことでオフライン強化学習の困難の一つであるサンプル外アクション問題を回避します openreview.net オフライン強化学習の困難オフライン強化学習とはサン…

#強化学習

どこから見てもメンダコ

軟体動物門頭足綱八腕類メンダコ科

2023-05-02から1日間の記事一覧

オフライン強化学習③ Implicit Q-Learning (IQL)の実装