MMTEB: Embeddingのための新しい多言語ベンチマーク

2025-03-20

最近のEmbeddingモデルについて調べていて,MMTEB (Massive Multilingual Text Embedding Benchmark)という,Text Embeddingのための新しい多言語ベンチマークがリリースされていることを知った。前身のMTEBというベンチマークにタスクと言語をたくさん追加したものらしい。ICLR2025にアクセプトされたペーパーなので,かなり新しい。

実世界のさまざまなユースケースと言語をカバーするため,10個のタスクカテゴリ(ファミリー)があり,タスクの総数は全部で500個以上,言語はBitextMiningで1050言語,その他のタスクカテゴリで250言語を含んでいる。Massiveを謳うだけあってかなりの規模。言語によってタスク数が異なり,日本語だと35タスクで入手できる。

リーダーボードを見ると,上位にはgemini-embedding-exp-03-07, Linq-Embed-Mistral, gte-Qwen2-7B-instruct, multilingual-e5-large-instructといったモデルが並んでいて(2025/3/20現在),SoTAモデルをさっと調べるのに良さそう。

文献をざっと眺めると,データセット構築手法に加えて,低コストでベンチマークを実行するためのdownsamplingにも触れられている(愚直に実行したら,embedding生成でものすごいコストがかかるらしい)。