MMTEB: Embeddingのための新しい多言語ベンチマーク
2025-03-20
最近のEmbeddingモデルについて調べていて,MMTEB (Massive Multilingual Text Embedding Benchmark)という,Text Embeddingのための新しい多言語ベンチマークがリリースされていることを知った。前身のMTEBというベンチマークにタスクと言語をたくさん追加したものらしい。ICLR2025にアクセプトされたペーパーなので,かなり新しい。
実世界のさまざまなユースケースと言語をカバーするため,10個のタスクカテゴリ(ファミリー)があり,タスクの総数は全部で500個以上,言語はBitextMiningで1050言語,その他のタスクカテゴリで250言語を含んでいる。Massiveを謳うだけあってかなりの規模。言語によってタスク数が異なり,日本語だと35タスクで入手できる。
リーダーボードを見ると,上位にはgemini-embedding-exp-03-07
, Linq-Embed-Mistral
, gte-Qwen2-7B-instruct
, multilingual-e5-large-instruct
といったモデルが並んでいて(2025/3/20現在),SoTAモデルをさっと調べるのに良さそう。
文献をざっと眺めると,データセット構築手法に加えて,低コストでベンチマークを実行するためのdownsamplingにも触れられている(愚直に実行したら,embedding生成でものすごいコストがかかるらしい)。