SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
arxiv.org/abs/2502.14786 SigLIP 2は、オリジナルのSigLIPの成功の上に構築された、新しい多言語視覚言語エンコーダーのファミリーです。この2回目の反復では、キャプションに基づく事前トレーニング、自己教師付き損失、オンラインデータのキュレーションなど、... pic.x.com/EktcwtqRRt