ナウティスニュース
すべて
|
ニュース・評判・反応
Monitor Memorization-to-Generalization without Testの最新ニュース一覧
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test
最新コメント|
1
2025年7月2日 1:37
asap
arxiv.org/abs/2506.21551 あるデータに対して各層で選ばれるMoEルータが持つ代表ベクトルの各層ごとの類似度は、モデルの汎化性能と強い相関がある。 そして、学習データの損失が下がり切った後も継続学習することで、類似度は増加していくと理解した。