2025/07/02 引用元：arXiv.org 続きを読む

2025/07/02、『arXiv.org』が報じたこのニュースに1件のコメントが寄せられています（2026/04/17 23:54現在）。
あなたはこのニュースについてどう思いますか？関連する最近のニュースを知りたい場合は「Monitor Memorization-to-Generalization without Test」「Where to find Grokking in LLM Pretraining」で検索可能です。

一緒につぶやかれている企業・マーケット情報

ベクトル1

いま話題の企業・マーケット情報

みんなの反応・コメント 1件

おすすめ順 | 新着順

asap 2025年7月2日 1:37

arxiv.org/abs/2506.21551 あるデータに対して各層で選ばれるMoEルータが持つ代表ベクトルの各層ごとの類似度は、モデルの汎化性能と強い相関がある。そして、学習データの損失が下がり切った後も継続学習することで、類似度は増加していくと理解した。

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

一緒につぶやかれている企業・マーケット情報

みんなの反応・コメント 1件

関連キーワード