RAG multilingue : votre IA ignore le français

La plupart des systèmes RAG déployés aujourd'hui ont deux angles morts : ils ne comprennent que l'anglais et ils ne voient que du texte.

Ce que les benchmarks classiques ne testent pas

Le classement MTEB ne teste qu'une chose : la recherche de texte en anglais dans une base de textes en anglais. En réalité, les entreprises travaillent avec des documents en français, des images et des tableaux.

Milvus a créé le benchmark CCKM testant la recherche multilingue, la recherche multimodale et la recherche dans des documents longs (32 000 caractères).

Résultats en RAG multilingue

Gemini Embedding 2 : 99,7 %
Qwen3-VL-2B (open-source) : 98,8 %
OpenAI text-embedding-3-large : 96,7 %
Modèles légers (nomic-embed-text, mxbai-embed-large) : 12-15 %
Sur idiomes : 3 %

Seul Gemini a obtenu un score parfait sur l'alignement d'idiomes chinois-anglais.

Résultats en recherche multimodale

Qwen3-VL-2B : 94,5 %
Gemini : 92,8 %

Le « modality gap » est déterminant : Qwen (0,25) vs Gemini (0,73).

Impact pour les PME francophones

Le choix du modèle d'embedding détermine si votre IA comprend vos documents ou les ignore. AS3P utilise Milvus pour BrainDup, une base vectorielle open source qui gère nativement le multilingue et le multimodal.

Il n'y a pas que l'anglais dans le monde de l'IA. Il n'y a pas que le texte non plus.

Source : Milvus — benchmark CCKM.

RAG multilingue multimodal : pourquoi votre IA ignore vos documents français

Ce que les benchmarks classiques ne testent pas

Résultats en RAG multilingue

Résultats en recherche multimodale

Impact pour les PME francophones