強化学習サイト内検索結果｜ナウティスニュース

強化学習のサイト内検索結果

AlphaDevとかFunSearchみたいな最適化って、強化学習じゃなくてオンライン最適化じゃない？累積報酬/損失を伴わない任意の最適化タスクを強化学習とは呼べないと思うんだけど。

4月21日 12:19 北西の置物??

@mznh_moeいっけね書いてあるのは「overfitting」「overtraining」の方だな、寝起きでボケてた訂正せねば。×：強化学習　〇：過学習ただし本文には ”等” が付いているので赤字で強調されている範囲を目的とした場合は引っかかるかもしれん・・・？

4月15日 6:27 AI論文Bot

習で重要性を増している。 - 理論的な結果は有望だが、決定に重点を置いた損失を活用したアルゴリズムの実証的なパフォーマンスは不足している。 - 本論文では、決定に重点を置いた強化学習モデルの必要な要素についての研究を提示し、パフォーマンスの良いアルゴリズムを可 #AI

3月28日 19:49 村山理

・Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov+, NeurIPS 2023) - DPO(Direct Preference Optimization)は、強化学習を必要とせずに LLM を人間の好みに合わせることを可能にする新しい微調整方法 - 単純な分類損失

3月15日 10:28 nissymori

最近の強化学習論文でパラメタの大きさに対してスケールしてるっぽい手法軒並みCE損失でvalue学習している． - TD3-MPC2: arxiv.org/abs/2310.16828 - Grandmaster chess: arxiv.org/abs/2402.04494 - Stop regression: arxiv.org/abs/2403.03950

3月12日 9:10 tk42

強化学習、損失が下がっても報酬は上がるとは限らない難しさ