La plupart des systèmes RAG déployés aujourd'hui ont deux angles morts : ils ne comprennent que l'anglais et ils ne voient que du texte.
Ce que les benchmarks classiques ne testent pas
Le classement MTEB ne teste qu'une chose : la recherche de texte en anglais dans une base de textes en anglais. En réalité, les entreprises travaillent avec des documents en français, des images et des tableaux.
Milvus a créé le benchmark CCKM testant la recherche multilingue, la recherche multimodale et la recherche dans des documents longs (32 000 caractères).
Résultats en RAG multilingue
- Gemini Embedding 2 : 99,7 %
- Qwen3-VL-2B (open-source) : 98,8 %
- OpenAI text-embedding-3-large : 96,7 %
- Modèles légers (nomic-embed-text, mxbai-embed-large) : 12-15 %
- Sur idiomes : 3 %
Seul Gemini a obtenu un score parfait sur l'alignement d'idiomes chinois-anglais.
Résultats en recherche multimodale
- Qwen3-VL-2B : 94,5 %
- Gemini : 92,8 %
Le « modality gap » est déterminant : Qwen (0,25) vs Gemini (0,73).
Impact pour les PME francophones
Le choix du modèle d'embedding détermine si votre IA comprend vos documents ou les ignore. AS3P utilise Milvus pour BrainDup, une base vectorielle open source qui gère nativement le multilingue et le multimodal.
Il n'y a pas que l'anglais dans le monde de l'IA. Il n'y a pas que le texte non plus.
Source : Milvus — benchmark CCKM.