Name: La segmentation sémantique intelligente pour optimiser un système RAG - Aymen Bernoussi, Data Scientist
Uploaded: 2024-07-11T06:30:12.531Z
Channel: Stellia.ai

Stellia.ai

1 961 abonnés

1 mois Modifié

👀 𝗩𝗼𝗶𝗰𝗶 𝗹𝗲 𝟱𝗲̀𝗺𝗲 𝗲́𝗽𝗶𝘀𝗼𝗱𝗲 𝗱𝗲 𝗻𝗼𝘁𝗿𝗲 𝘀𝗮𝗴𝗮 𝗱𝗲 𝗹'𝗲́𝘁𝗲́ ! 🔥 Vous voulez devenir un expert en #IA ? Regardez "𝗔𝗜 𝗯𝗲𝗵𝗶𝗻𝗱 𝘁𝗵𝗲 𝘀𝗰𝗲𝗻𝗲𝘀" by 𝗦𝘁𝗲𝗹𝗹𝗶𝗮. 🎬 𝗦𝗮𝗶𝘀𝗼𝗻 1️⃣ "Notre équipe de Data Scientists" 𝗘́𝗽𝗶𝘀𝗼𝗱𝗲 5️⃣ "Comment une segmentation sémantique “intelligente” peut-elle perfectionner un système RAG ?" avec ✨Aymen Bernoussi✨ L͟e͟s͟ i͟n͟f͟o͟r͟m͟a͟t͟i͟o͟n͟s͟ c͟l͟é͟s͟ ͟à͟ ͟r͟e͟t͟r͟o͟u͟v͟e͟r͟ ͟d͟a͟n͟s͟ ͟c͟e͟t͟t͟e͟ ͟i͟n͟t͟e͟r͟v͟i͟e͟w͟ ͟:͟ ✅ 𝗤𝘂𝗲𝗹𝘀 𝘀𝗼𝗻𝘁 𝗹𝗲𝘀 𝘀𝘂𝗷𝗲𝘁𝘀 𝘀𝘂𝗿 𝗹𝗲𝘀𝗾𝘂𝗲𝗹𝘀 𝘁𝘂 𝘁𝗿𝗮𝘃𝗮𝗶𝗹𝗹𝗲𝘀 𝗰𝗵𝗲𝘇 𝗦𝘁𝗲𝗹𝗹𝗶𝗮 ? Je travaille sur des sujets de R&D comme le développement et l’amélioration de nos modèles IA dans divers domaines : le parsing, la représentation vectorielle des textes et l'IA générative. Je m'occupe aussi de sujets Cloud et MLOps en déployant de ces modèles en production par exemple. ✅ 𝗤𝘂’𝗲𝘀𝘁-𝗰𝗲 𝗾𝘂𝗲 𝗹’𝗲́𝘁𝗮𝗽𝗲 𝗱𝗲 𝗣𝗮𝗿𝘀𝗶𝗻𝗴/𝗦𝗲𝗴𝗺𝗲𝗻𝘁𝗮𝘁𝗶𝗼𝗻 ? L'étape de parsing consiste à extraire le texte d'un document, en identifiant les informations pertinentes. L’étape de segmentation, va plus loin en regroupant les textes issus de l’étape de parsing sémantiquement pour mieux structurer le contenu, facilitant ainsi son utilisation par des modèles d'IA. ✅ 𝗖𝗼𝗺𝗺𝗲𝗻𝘁 𝗰𝗲𝗹𝗮 𝗰𝗼𝗻𝘁𝗿𝗶𝗯𝘂𝗲 𝗮̀ 𝗹'𝗲𝗳𝗳𝗶𝗰𝗮𝗰𝗶𝘁𝗲́ 𝗴𝗹𝗼𝗯𝗮𝗹𝗲 𝗱’𝘂𝗻 𝘀𝘆𝘀𝘁𝗲̀𝗺𝗲 𝗥𝗔𝗚 ? En segmentant le texte en unités significatives et en ne prenant que les informations pertinentes, nous facilitons la compréhension du contenu par les modèles d'IA. Cela se traduit par : - des représentations vectorielles + précises : amélioration de la qualité de nos réponses - une performance + élevée de notre système : meilleure interprétation des requêtes et tâches. ✅ 𝗖𝗼𝗺𝗺𝗲𝗻𝘁 𝗿𝗲𝘀𝘁𝗲𝗿 𝗽𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝘁 𝗳𝗮𝗰𝗲 𝗮̀ 𝗱𝗲𝘀 𝗱𝗼𝗻𝗻𝗲́𝗲𝘀 𝘁𝗲𝘅𝘁𝘂𝗲𝗹𝗹𝗲𝘀 𝗺𝘂𝗹𝘁𝗶𝗹𝗶𝗻𝗴𝘂𝗲𝘀 𝗼𝘂 𝗺𝘂𝗹𝘁𝗶𝗳𝗼𝗿𝗺𝗮𝘁𝘀 ? Chez Stellia, nous incluons une grande variété de langues dans les données d'entraînement de nos modèles, pour garantir une compréhension robuste de différentes langues. Nous avons développé plusieurs pipelines de parsing adaptés à différents formats de docs : PDF, vidéos, HTML, audio, markdown... Ces pipelines sont conçues pour traiter efficacement chaque type de format, en extrayant les informations pertinentes de manière précise et cohérente. 🏆 𝑁𝑜𝑢𝑠 𝑎𝑠𝑠𝑢𝑟𝑜𝑛𝑠 𝑎𝑖𝑛𝑠𝑖 𝑢𝑛𝑒 𝑝𝑒𝑟𝑓𝑜𝑟𝑚𝑎𝑛𝑐𝑒 𝑜𝑝𝑡𝑖𝑚𝑎𝑙𝑒 𝑑𝑒 𝑛𝑜𝑡𝑟𝑒 𝑒́𝑡𝑎𝑝𝑒 𝑑𝑒 𝑝𝑎𝑟𝑠𝑖𝑛𝑔/𝑠𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛, 𝑞𝑢𝑒𝑙 𝑞𝑢𝑒 𝑠𝑜𝑖𝑡 𝑙𝑒 𝑙𝑎𝑛𝑔𝑎𝑔𝑒 𝑜𝑢 𝑙𝑒 𝑓𝑜𝑟𝑚𝑎𝑡 𝑑𝑢 𝑡𝑒𝑥𝑡𝑒. 🔜𝗦𝘁𝗮𝘆 𝘁𝘂𝗻𝗲𝗱 𝗽𝗼𝘂𝗿 𝗱𝗲 𝗻𝗼𝘂𝘃𝗲𝗮𝘂𝘅 𝗲́𝗽𝗶𝘀𝗼𝗱𝗲𝘀 ! 𝑅𝑒𝑡𝑟𝑜𝑢𝑣𝑒𝑧 𝑙𝑒𝑠 𝑖𝑛𝑡𝑒𝑟𝑣𝑖𝑒𝑤𝑠 𝑑𝑒 𝑛𝑜𝑡𝑟𝑒 𝑑𝑟𝑒𝑎𝑚 𝑡𝑒𝑎𝑚 𝑠𝑢𝑟 𝑛𝑜𝑡𝑟𝑒 𝑐ℎ𝑎𝑖𝑛𝑒 𝑌𝑜𝑢𝑇𝑢𝑏𝑒 : 🔗 https://lnkd.in/g58e-d-h #LLM #GenAI #RAG #parsing École Polytechnique SATT PARIS SACLAY INNOVACOM INCO

Identifiez-vous pour afficher ou ajouter un commentaire

Post de Stellia.ai

La segmentation sémantique intelligente pour optimiser un système RAG - Aymen Bernoussi, Data Scientist

Explorer les sujets