Artefact

Research Scientist - Large Language Models with Industrial Use-Cases

Offre D’emploi

Research Scientist in LLM with Industrial Use-Cases

Contexte

Ce poste en CDI sera au sein du centre de recherche d’Artefact, qui compte une quinzaine de membres et est dédié à la recherche ouverte en intelligence artificielle (publications scientifiques et code open source), avec un accès à des jeux de données métiers grâce à des partenariats avec des entreprises tierces. Dans ce cadre privilégié pour la recherche, le travail est transversal dans le sens qu’il permet d’accéder à une diversité de cas métiers et de données.

Ce poste sera pendant 2 ans en collaboration avec le laboratoire MICS de CentraleSupélec, spécialisé en informatique et mathématiques appliquées, avec un accès au laboratoire et à leur équipe experte en LLM et en apprentissage pour les données non-structurées. Durant cette période, le (la) chercheur (chercheuse) intégrera notre projet France 2030 (soutenu par le gouvernement) et en collaboration avec Mistral, Giskard, l’INA et la BnF, qui a pour vocation de créer des communs numériques pour la filière française de l’IA générative. L’ambition de ce projet est de fournir une recherche à la fois appliquée, impactante et partagée à la communauté, sur un sujet en ébullition, les LLMs. En termes d’infrastructure de calcul, nous privilégierons le supercalculateur Jean Zay, ainsi que d’autres alternatives tels qu’un serveur on premise en accès complet.

Dans le cadre du projet France 2030, Artefact a obtenu des accords de partenaires industriels de renom, qui partageront des corpus, dans le but de les anonymiser en data-set open source, et de spécialiser des modèles et des agents dessus. Ces partenaires représentent différents secteurs et coeurs de métiers, notamment le milieu bancaire, celui de l’alimentation, de la grande distribution et du commerce en ligne. Le chercheur aura donc le rôle de travailler sur ces jeux de données, spécialisés, en parallèle de jeux de données en libre accès, souvent généralistes.

Sujet

L’architecture Transformers a initié une révolution dans le domaine du Natural Language Processing (NLP) qui a vu les modèles de langage s’apprendre sur des corpus de plus en plus larges, et ainsi ouvrir le champs des Large Language Models (LLMs).

Un cadre d’utilisation pour des applications est le “retrieval augmented generation” (RAG), qui permet d’apporter une information ciblée représentée par un corpus de documents, d’en respecter la propriété car le corpus n’est pas utilisé pour l’entraînement ou le fine-tuning du modèle, et de limiter les risques d’hallucination dans le cas où le document sélectionné du corpus est pertinent à la question posée. Pour que l’application RAG fonctionne, une étape clé est celle de l’Information retrieval, lors de laquelle un ou plusieurs documents du corpus sont sélectionnés.

Un axe de recherche portera sur l’utilisation de modèles type LLM ou encoder (BERT) pour la tâche d’information retrieval. L’utilisation de données open source aussi bien que celles des partenaires du projet France 2030 permettra d’évaluer la qualité des documents retournés. Une piste pour améliorer cette qualité sera d’effectuer un fine-tuning de modèle pré-entrainé, ou de l’effectuer avec un objectif information retrieval, possiblement sur un corpus spécialisé au cas métier.

Une question connexe sera sur la taille de la fenêtre d’entrée du modèle. En effet, la tâche d’information retrieval commence classiquement par l’indexation de chaque document du corpus, qui peuvent être longs, par exemple dans le cas de corpus juridique. Cette taille de fenêtre est limitée à celle utilisée lors de l’entraînement, cependant l’idéal serait de s’en affranchir au moment de l’inférence, afin d’indéxer des documents beaucoup plus longs. Là aussi, une évaluation indirecte de cette recherche sera de calculer la qualité des documents retournés.

Le travail de recherche s’effectuera sur des données réelles, issues des partenariats avec des grands groupes qu’Artefact a noué pour ce projet, qu’il faudra préparer, compiler et anonymiser. Ces données seront spécialisées sur une application métier, et en français. Par ailleurs, le chercheur pourra travailler sur les données disponibles, généralement non spécialisées. Un objectif opérationnel et cadre stimulant pour ces objectifs de recherche sera d’implémenter des agents RAG sur ces corpus industriels.

Un objectif sera de packager les algorithmes afin de les partager sous une licence open source. Idéalement, cela donnera naissance à une unique librairie python regroupant l’ensemble des méthodologies. Un effort particulier sera apporté à la signature des fonctions et méthodes afin d’en faciliter l’utilisation, et aussi à la performance du code pour réduire au maximum les temps de calcul. Artefact constitue pour cela un environnement stimulant, avec une équipe de Software Engineers et ML Engineers à la pointe des pratiques de code, CI/CD et packaging.

Objectifs

Les objectifs du (de la) chercheur (chercheuse) sera en priorité:

  • Publications scientifiques dans les journaux et conférences de Machine Learning
  • Packaging de code en open source
  • Préparation, anonymisation et compilation de corpus textuel industriel en vue de les partager en open source
  • Participation à la communication interne comme externe du centre de recherche d’Artefact

Pré-requis

Le Profil Recherché Pour Ce Poste Est Le Suivant

  • PhD: Titulaire de thèse de doctorat dans le domaine du NLP et/ou des réseaux de neurones.
  • Track Record: Publications dans des journaux et conférences de rang A.
  • Plus de 2 années d’expérience en entreprise.
  • Maîtrise avancée du python et aisance en git
  • La pratique d’entraînement à large échelle sur des clusters type Jean Zay est un plus
  • Niveau hiérarchique

    Manager
  • Type d’emploi

    Temps plein
  • Fonction

    Autre
  • Secteurs

    Services et conseil en informatique, Services d’information et Développement de logiciels

Les recommandations augmentent vos chances d’obtenir un entretien chez Artefact

Voir qui vous connaissez

Recevez des alertes en cas de nouvelles offres d’emploi : Chercheur scientifique, Paris.

Identifiez-vous pour créer une alerte Emploi

Offres d’emploi similaires

Autres pages consultées

Recherches similaires

Explorer des articles collaboratifs

Nous exploitons les connaissances de la communauté d’une toute nouvelle manière. Des experts ajoutent des informations directement à chaque article, élaboré à l’aide de l’intelligence artificielle.

Explorer