Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

2025/07/02 引用元:arXiv.org 続きを読む
2025/07/02、『arXiv.org』が報じたこのニュースに1件のコメントが寄せられています(2026/04/17 23:54現在)。
あなたはこのニュースについてどう思いますか? 関連する最近のニュースを知りたい場合は 「Monitor Memorization-to-Generalization without Test」 「Where to find Grokking in LLM Pretraining」 で検索可能です。
あなたはこのニュースについてどう思いますか? 関連する最近のニュースを知りたい場合は 「Monitor Memorization-to-Generalization without Test」 「Where to find Grokking in LLM Pretraining」 で検索可能です。
一緒につぶやかれている企業・マーケット情報
| ベクトル1 |
みんなの反応・コメント 1件
おすすめ順 | 新着順
arxiv.org/abs/2506.21551 あるデータに対して各層で選ばれるMoEルータが持つ代表ベクトルの各層ごとの類似度は、モデルの汎化性能と強い相関がある。 そして、学習データの損失が下がり切った後も継続学習することで、類似度は増加していくと理解した。