-->
Titulaire d'un doctorat en Intelligence Artificielle axé sur le Traitement du Langage Naturel et d'un diplôme d'ingénieur, je possède une palette de compétences variées couvrant les systèmes embarqués, le développement full-stack, le DevOps, la science des données et l'IA. Mon parcours multidisciplinaire me permet de naviguer et de contribuer efficacement à des projets complexes et transversaux.
• Extraction de Règles : Développé des algorithmes avancés pour extraire des
règles à partir de documents juridiques non structurés.
• Traitement du Langage Naturel (NLP) : Conçu et implémenté des modèles NLP pour
comprendre et interpréter des textes juridiques complexes provenant de
Légifrance.
• Recherche et Innovation : Publication de quatre articles dans des revues
scientifiques, présentant des avancées significatives dans le domaine du NLP
appliqué au droit.
• Collaboration Interdisciplinaire : Travaillé en étroite collaboration avec des
juristes et des informaticiens pour intégrer les besoins légaux dans les
solutions technologiques.
• Enseignement des Structures de Données : Conçu et dispensé des cours sur les
structures de données en Java, améliorant les compétences en programmation de
plus de 200 étudiants.
• Formation aux Bases de Données NoSQL : Développé un programme pédagogique
complet sur les bases de données NoSQL, permettant aux étudiants de maîtriser
les concepts et les outils modernes de gestion de données.
• Introduction à l'Informatique (Pix) : Animé des sessions interactives pour
initier les étudiants aux fondamentaux de l'informatique, augmentant leur
confiance et leurs compétences techniques.
• Mentorat et Suivi Personnalisé : Accompagné individuellement les étudiants
dans leurs projets académiques, contribuant à une amélioration significative de
leurs résultats.
• Création de Supports Pédagogiques : Élaboré des supports de cours et des
exercices pratiques, facilitant l'apprentissage et la compréhension des concepts
complexes.
• Évaluation : Mis en place des méthodes et support d'évaluation.
• Recherche Avancée : Participé à des projets de recherche de pointe en
informatique, contribuant à des avancées significatives dans le domaine du
traitement du langage naturel (NLP).
• Collaboration Internationale : Travaillé en étroite collaboration avec des
chercheurs japonais et internationaux, favorisant l'échange de connaissances
et d'expertise.
• Développement de Modèles : Conçu et implémenté des modèles de type LLM.
• Publication Scientifique : Co-rédigé un article de recherche sur les
applications du NLP dans les systèmes juridiques, soumis à une revue
scientifique de renom.
• Présentation de Résultats : Présenté les résultats de recherche lors de
séminaires internes, recevant des retours positifs de la part des pairs et des
superviseurs.
• Adaptation Culturelle : Démontré une capacité d'adaptation rapide à un
environnement de travail international, renforçant les compétences
interculturelles et linguistiques.
• Développement de Fonctionnalités : Conçu et implémenté de nouvelles
fonctionnalités pour le logiciel Carl Source.
• Gestion de Projet : Participé à la planification et à la gestion des sprints
de développement, contribuant à la livraison ponctuelle des mises à jour
logicielles.
• Résolution de Problèmes : Identifié et corrigé des bugs critiques, augmentant
la stabilité et la fiabilité de l'application.
• Preuve de Concept (PoC) : Développé une preuve de concept innovante pour
l'utilisation conjointe de S/4HANA et Maximo.
• Collaboration Inter-Entreprises : Travaillé en étroite collaboration avec les
équipes de SAP et IBM.
• Documentation et Formation : Rédigé des documentations techniques détaillées
et formé les équipes sur l'utilisation des nouvelles fonctionnalités,
garantissant une adoption rapide et efficace.
• Développement Mobile : Conçu et développé des fonctionnalités avancées pour l'application
mobile de La Poste, utilisant la programmation ReactiveX pour une gestion
réactive et efficace des flux de données.
• Intégration avec Maximo : Interfacé l'application mobile avec Maximo,
permettant une gestion mobile des actifs.
• Optimisation des Performances : Réalisé des optimisations significatives de l'application.
• Collaboration en Équipe : Travaillé en étroite collaboration avec l'équipe
mobile E.A.M. Factory et les stakeholders de La Poste pour aligner les objectifs
et les exigences techniques.
• Développement de Fonctionnalités : Implémenté de nouvelles fonctionnalités
pour Maximo Asset Management, répondant aux besoins spécifiques des clients.
• Automatisation des Tests : Conçu et mis en place des tests fonctionnels
automatisés, augmentant la couverture de test et réduisant les cycles de
validation.
• Optimisation des Workflows : Développé des outils de workflow personnalisés.
• Développement d'Interface : Conçu et développé une interface web avancée
pour consommer et visualiser de grandes quantités de données météorologiques
destinées aux professionnels.
• Gestion de Données : Implémenté des solutions pour gérer et traiter
efficacement des volumes importants de données météorologiques, améliorant la
précision et la rapidité des prévisions.
• Collaboration Interdisciplinaire : Travaillé en étroite collaboration avec les
météorologues et les analystes de données pour intégrer les besoins techniques
et scientifiques dans l'interface.
The legal industry is characterized by the presence of dense and complex documents, which necessitate automatic processing methods to manage and analyse large volumes of data. Traditional methods for extracting legal information depend heavily on substantial quantities of annotated data during the training phase. However, a question arises on how to extract information effectively in contexts that do not favour the utilization of annotated data. This study investigates the application of Large Language Models (LLMs) as a transformative solution for the extraction of legal terms, presenting a novel approach to overcome the constraints associated with the need for extensive annotated datasets. Our research delved into methods such as prompt-engineering and fine-tuning to enhance their performance. We evaluated and compared, to a rule-based and BERT systems, the performance of four LLMs: GPT-4, Miqu-1-70b, Mixtral-8x7b, and Mistral-7b, within the scope of limited annotated data availability. We implemented and assessed our methodologies using Luxembourg’s traffic regulations as a case study. Our findings underscore the capacity of LLMs to successfully deal with legal terms extraction, emphasizing the benefits of one-shot and zero-shot learning capabilities in reducing reliance on annotated data by reaching 0.690 F1 Score. Moreover, our study sheds light on the optimal practices for employing LLMs in the processing of legal information, offering insights into the challenges and limitations, including issues related to terms boundary extraction.
The legal industry is characterized by the presence of large volumes and complex documents. Given the continuous evolution of these documents, there is a growing interest in automating the processing of legal texts to streamline compliance. One key step of this process is the extraction of legal entities. State-of-the-art methods for legal entity extraction, including rule-based systems, Bi-LSTM, and BERT, require substantial annotated data to be effective, a task that is time-intensive for domain experts. With the rise of Large Language Models (LLMs), research has increasingly focused on leveraging their capabilities and exploring zero-shot approaches. In this paper, we present a hybrid system that distils GPT-4 knowledge through rule-based methods into a CamemBERT model. This approach not only reduces the need for expert involvement compared to the standard CamemBERT system but also outperforms the GPT-4-only system, enhancing the F1 score for legal entities by 9–24% points.
Compliance with legal documents related to industrial maintenance is the company’s obligation to oversee, maintain, and repair its equipments. As legal documents endlessly evolve, companies are in favour of automatically processing these texts to facilitate the analysis and compliance. The automatic process involves first, in this pipeline, the extraction of legal entities. However, state-of-the-art, like BERT approaches, have so far required a large amount of data to be effective. Creating this training dataset however is a time-consuming task requiring input from domain experts. In this paper, we bootstrap the legal entity extraction by levering Large Language Models and a semantic model in order to reduce the involvement of the domain experts. We develop the industrial perspective by detailing the technical implementation choices. Consequently, we present our roadmap for an end-to-end pipeline designed expressly for the extraction of legal rules while limiting the involvement of experts.
In different domains, compliance with legal documents about industrial maintenance is crucial. Legal industrial maintenance is the legal commitment of a company to control, maintain and repair its equipments. With the evolution of legal texts, companies are increasingly adopting automatic processing of legal texts in order to extract their key elements and to support the task of analysis and compliance. To perform such a task of knowledge extraction, a number of state-of-the-art proposal relies on a semantic model. Based on existing models from both legislative and industrial maintenance domains, we propose a new semantic model for the legal industrial maintenance: SEMLEG (SEmantic Model for the LEGal maintenance). This model results from an analysis of documents extracted from the Légifrance French governmental website.
This paper describes our two deep learning systems that competed at SemEval-2022 Task 1 “CODWOE: Comparing Dictionaries and WOrd Embeddings”. We participated in the subtask for the reverse dictionary which consists in generating vectors from glosses. We use sequential models that integrate several neural networks, starting from Embeddings networks until the use of Dense networks, Bidirectional Long Short-Term Memory (BiLSTM) networks and LSTM networks. All glosses have been preprocessed in order to consider the best representation form of the meanings for all words that appears. We achieved very competitive results in reverse dictionary with a second position in English and French languages when using contextualized embeddings, and the same position for English, French and Spanish languages when using char embeddings.