LEDAR | AI Workspace for M&A

La plupart des systèmes RAG ignorent les tableaux, graphiques et figures qui contiennent les informations les plus difficiles à trouver pour les transactions. Des recherches récentes montrent à quel point cette lacune est coûteuse.

Un rapport trimestriel (10-Q) typique de Morgan Stanley compte environ 120 pages, avec plus de 275 tableaux et près de 200 figures. Les ventilations de revenus, les tendances de marges, les structures organisationnelles, l'exposition géographique — les informations qui guident les décisions de transaction résident principalement dans des contenus structurés et visuels. Le récit fournit le contexte. Les tableaux et graphiques apportent les preuves.

La plupart des systèmes documentaires alimentés par l'IA ne savent lire que le récit.

Où les systèmes actuels échouent

Lorsqu'un pipeline RAG standard traite un document financier, il extrait le texte, le découpe en segments et le stocke dans une base de données vectorielle. Les tableaux sont aplatis en chaînes de caractères séparées par des virgules, perdant ainsi les relations lignes-colonnes qui donnent un sens aux chiffres. Les graphiques et diagrammes — ne contenant aucun texte extractible — sont purement et simplement ignorés.

Le résultat ? Un système qui répond avec assurance aux questions portant sur les sections narratives, tout en restant aveugle aux contenus structurés et visuels, souvent les plus importants.

Une étude de S&P Global quantifie cette lacune. En testant un pipeline RAG standard sur 300 questions élaborées par des experts à partir de documents financiers réels, l'exactitude des réponses basées sur des tableaux a chuté à 2,8 %. Pour les questions basées sur des images : 0 %. La catégorie la plus difficile — les questions nécessitant une synthèse entre texte et éléments visuels, celles que les analystes posent réellement — a également obtenu un score de 0 %.

Ce que déverrouille un traitement multimodal adéquat

La même étude de S&P Global a testé un système RAG multimodal conçu à cet effet, où les tableaux sont convertis en JSON structuré avec des résumés contextuels, les graphiques sont décrits et indexés, et la récupération navigue entre les trois modalités. Les améliorations ont été spectaculaires : l'exactitude des réponses basées sur des tableaux est passée de 5,6 % à 69,4 %, celle des réponses basées sur des images de 0 % à 66,7 %, et celle des questions transversales de 0 % à 40 %.

Une étude distincte de l'Université de Hong Kong confirme ces résultats. Leurs travaux sur la compréhension multimodale des documents montrent que les avantages en termes de performance deviennent de plus en plus marqués à mesure que la longueur des documents augmente. Pour les documents dépassant 100 pages, les systèmes multimodaux bien conçus surpassent les alternatives basées uniquement sur le texte de plus de 13 points de pourcentage. Leur recherche met également en lumière une idée clé : représenter le contenu multimodal sous forme d'entités de connaissances interconnectées plutôt que de types de données isolés, via des structures de graphes liés, offre les principaux gains de performance par rapport à la récupération traditionnelle basée sur des segments.

Ce que cela signifie pour l'exécution des transactions

Lors du processus de sélection, les signaux pertinents sont dispersés dans les présentations aux investisseurs, les rapports annuels et les transcriptions des résultats — des documents fortement visuels. Les systèmes basés uniquement sur le texte manquent les tendances de marges, les ventilations géographiques et la complexité organisationnelle.

Lors de la due diligence, les enjeux se multiplient. Une question comme « La position de fonds de roulement de la cible s'est-elle détériorée ? » nécessite de synthétiser simultanément des bilans trimestriels, des graphiques de tendances de trésorerie et des commentaires de la direction. Manquer une modalité, c'est manquer une partie de la réponse.

La solution ne consiste pas à ajouter plus d'outils ou à travailler plus dur avec des systèmes basés sur le texte. Elle nécessite des architectures d'intelligence documentaire qui préservent la structure des tableaux, interprètent le contenu visuel, maintiennent les relations intermodales et récupèrent les preuves à travers les trois modalités en une seule passe.

En résumé

Lorsque vos outils d'IA ne peuvent lire qu'une partie du document, vous prenez des décisions sur la base d'une intelligence incomplète. Le fossé de la multimodalité n'est pas un problème à résoudre dans une feuille de route future. C'est une lacune de capacité qui affecte la qualité des transactions dès aujourd'hui.

LEDAR construit une infrastructure IA pour la réalité multimodale des documents de fusions-acquisitions — en traitant le texte, les tableaux et le contenu visuel comme des connaissances interconnectées, et non comme des types de données isolés.

Demander un accès anticipé →

Références :

Gondhalekar, C., Patel, U., & Yeh, F-C. (2025). « MultiFinRAG: An Optimized Multimodal RAG Framework for Financial Question Answering. » S&P Global Ratings. arXiv:2506.20821
Guo, Z., Ren, X., Xu, L., Zhang, J., & Huang, C. (2025). « RAG-Anything: All-in-One RAG Framework. » Université de Hong Kong. arXiv:2510.12323

Pourquoi votre IA ne peut pas lire la partie la plus importante de votre CIM

Où les systèmes actuels échouent

Ce que déverrouille un traitement multimodal adéquat

Ce que cela signifie pour l'exécution des transactions

En résumé

Références :

Prêt à optimiser votre sourcing de deals ?