Disponible en freelance 🚀

Dr. Julien Breton

Docteur en intelligence artificielle

Titulaire d'un doctorat en Intelligence Artificielle axé sur le Traitement du Langage Naturel et d'un diplôme d'ingénieur, je possède une palette de compétences variées couvrant les systèmes embarqués, le développement full-stack, le DevOps, la science des données et l'IA. Mon parcours multidisciplinaire me permet de naviguer et de contribuer efficacement à des projets complexes et transversaux.

Experience

  • sept. 2021 - sept. 2025

    Berger-Levrault

    Doctorant — Toulouse, France

    • Extraction de Règles : Développé des algorithmes avancés pour extraire des règles à partir de documents juridiques non structurés.
    • Traitement du Langage Naturel (NLP) : Conçu et implémenté des modèles NLP pour comprendre et interpréter des textes juridiques complexes provenant de Légifrance.
    • Recherche et Innovation : Publication de quatre articles dans des revues scientifiques, présentant des avancées significatives dans le domaine du NLP appliqué au droit.
    • Collaboration Interdisciplinaire : Travaillé en étroite collaboration avec des juristes et des informaticiens pour intégrer les besoins légaux dans les solutions technologiques.

    Machine learning PyTorch R&D
  • sept. 2021 - juin 2024

    IUT Informatique Paul Sabatier

    Enseignant — Toulouse, France

    • Enseignement des Structures de Données : Conçu et dispensé des cours sur les structures de données en Java, améliorant les compétences en programmation de plus de 200 étudiants.
    • Formation aux Bases de Données NoSQL : Développé un programme pédagogique complet sur les bases de données NoSQL, permettant aux étudiants de maîtriser les concepts et les outils modernes de gestion de données.
    • Introduction à l'Informatique (Pix) : Animé des sessions interactives pour initier les étudiants aux fondamentaux de l'informatique, augmentant leur confiance et leurs compétences techniques.
    • Mentorat et Suivi Personnalisé : Accompagné individuellement les étudiants dans leurs projets académiques, contribuant à une amélioration significative de leurs résultats.
    • Création de Supports Pédagogiques : Élaboré des supports de cours et des exercices pratiques, facilitant l'apprentissage et la compréhension des concepts complexes.
    • Évaluation : Mis en place des méthodes et support d'évaluation.

    Formation
  • janv. 2024 - mars 2024

    National Institute of Informatics [Japan] 国立情報学研究所

    PHD Student — Tokyo, Chiyoda, Japan

    • Recherche Avancée : Participé à des projets de recherche de pointe en informatique, contribuant à des avancées significatives dans le domaine du traitement du langage naturel (NLP).
    • Collaboration Internationale : Travaillé en étroite collaboration avec des chercheurs japonais et internationaux, favorisant l'échange de connaissances et d'expertise.
    • Développement de Modèles : Conçu et implémenté des modèles de type LLM.
    • Publication Scientifique : Co-rédigé un article de recherche sur les applications du NLP dans les systèmes juridiques, soumis à une revue scientifique de renom.
    • Présentation de Résultats : Présenté les résultats de recherche lors de séminaires internes, recevant des retours positifs de la part des pairs et des superviseurs.
    • Adaptation Culturelle : Démontré une capacité d'adaptation rapide à un environnement de travail international, renforçant les compétences interculturelles et linguistiques.

    LLM R&D Data science Rédaction scientifique
  • septembre 2020 - septembre 2021

    Sopra Steria

    Software Development Engineer — Toulouse, France

    • Développement de Fonctionnalités : Conçu et implémenté de nouvelles fonctionnalités pour le logiciel Carl Source.
    • Gestion de Projet : Participé à la planification et à la gestion des sprints de développement, contribuant à la livraison ponctuelle des mises à jour logicielles.
    • Résolution de Problèmes : Identifié et corrigé des bugs critiques, augmentant la stabilité et la fiabilité de l'application.

    Java Développement Front-End Développement Back-End
  • janvier 2021 - juin 2021

    Sopra Steria

    Software Development Engineer — Toulouse, France

    • Preuve de Concept (PoC) : Développé une preuve de concept innovante pour l'utilisation conjointe de S/4HANA et Maximo.
    • Collaboration Inter-Entreprises : Travaillé en étroite collaboration avec les équipes de SAP et IBM.
    • Documentation et Formation : Rédigé des documentations techniques détaillées et formé les équipes sur l'utilisation des nouvelles fonctionnalités, garantissant une adoption rapide et efficace.

    R&D Kotlin Java
  • juil. 2019 - sept. 2020

    Sopra Steria

    Android Engineer — Toulouse, France

    • Développement Mobile : Conçu et développé des fonctionnalités avancées pour l'application mobile de La Poste, utilisant la programmation ReactiveX pour une gestion réactive et efficace des flux de données.
    • Intégration avec Maximo : Interfacé l'application mobile avec Maximo, permettant une gestion mobile des actifs.
    • Optimisation des Performances : Réalisé des optimisations significatives de l'application.
    • Collaboration en Équipe : Travaillé en étroite collaboration avec l'équipe mobile E.A.M. Factory et les stakeholders de La Poste pour aligner les objectifs et les exigences techniques.

    Android Kotlin Java
  • sept. 2018 - janv. 2018

    Sopra Steria

    Développeur Java — Toulouse, France

    • Développement de Fonctionnalités : Implémenté de nouvelles fonctionnalités pour Maximo Asset Management, répondant aux besoins spécifiques des clients.
    • Automatisation des Tests : Conçu et mis en place des tests fonctionnels automatisés, augmentant la couverture de test et réduisant les cycles de validation.
    • Optimisation des Workflows : Développé des outils de workflow personnalisés.

    Java Atlassian JIRA Selenium
  • avril 2018 - juill. 2018

    METEO FRANCE

    Développeur web — Toulouse, France

    • Développement d'Interface : Conçu et développé une interface web avancée pour consommer et visualiser de grandes quantités de données météorologiques destinées aux professionnels.
    • Gestion de Données : Implémenté des solutions pour gérer et traiter efficacement des volumes importants de données météorologiques, améliorant la précision et la rapidité des prévisions.
    • Collaboration Interdisciplinaire : Travaillé en étroite collaboration avec les météorologues et les analystes de données pour intégrer les besoins techniques et scientifiques dans l'interface.

    Développement Front-End JavaScript

Publications

  • Mar. 2025

    Leveraging LLMs for legal terms extraction with limited annotated data

    Artificial Intelligence and Law Journal

    The legal industry is characterized by the presence of dense and complex documents, which necessitate automatic processing methods to manage and analyse large volumes of data. Traditional methods for extracting legal information depend heavily on substantial quantities of annotated data during the training phase. However, a question arises on how to extract information effectively in contexts that do not favour the utilization of annotated data. This study investigates the application of Large Language Models (LLMs) as a transformative solution for the extraction of legal terms, presenting a novel approach to overcome the constraints associated with the need for extensive annotated datasets. Our research delved into methods such as prompt-engineering and fine-tuning to enhance their performance. We evaluated and compared, to a rule-based and BERT systems, the performance of four LLMs: GPT-4, Miqu-1-70b, Mixtral-8x7b, and Mistral-7b, within the scope of limited annotated data availability. We implemented and assessed our methodologies using Luxembourg’s traffic regulations as a case study. Our findings underscore the capacity of LLMs to successfully deal with legal terms extraction, emphasizing the benefits of one-shot and zero-shot learning capabilities in reducing reliance on annotated data by reaching 0.690 F1 Score. Moreover, our study sheds light on the optimal practices for employing LLMs in the processing of legal information, offering insights into the challenges and limitations, including issues related to terms boundary extraction.

  • Nov. 2024

    Empowering CamemBERT Legal Entity Extraction With LLM Boostrapping

    EKAW Conference

    The legal industry is characterized by the presence of large volumes and complex documents. Given the continuous evolution of these documents, there is a growing interest in automating the processing of legal texts to streamline compliance. One key step of this process is the extraction of legal entities. State-of-the-art methods for legal entity extraction, including rule-based systems, Bi-LSTM, and BERT, require substantial annotated data to be effective, a task that is time-intensive for domain experts. With the rise of Large Language Models (LLMs), research has increasingly focused on leveraging their capabilities and exploring zero-shot approaches. In this paper, we present a hybrid system that distils GPT-4 knowledge through rule-based methods into a CamemBERT model. This approach not only reduces the need for expert involvement compared to the standard CamemBERT system but also outperforms the GPT-4-only system, enhancing the F1 score for legal entities by 9–24% points.

  • Sept. 2024

    Leveraging Semantic Model and LLM for Bootstrapping a Legal Entity Extraction: An Industrial Use Case

    Semantics Conference

    Compliance with legal documents related to industrial maintenance is the company’s obligation to oversee, maintain, and repair its equipments. As legal documents endlessly evolve, companies are in favour of automatically processing these texts to facilitate the analysis and compliance. The automatic process involves first, in this pipeline, the extraction of legal entities. However, state-of-the-art, like BERT approaches, have so far required a large amount of data to be effective. Creating this training dataset however is a time-consuming task requiring input from domain experts. In this paper, we bootstrap the legal entity extraction by levering Large Language Models and a semantic model in order to reduce the involvement of the domain experts. We develop the industrial perspective by detailing the technical implementation choices. Consequently, we present our roadmap for an end-to-end pipeline designed expressly for the extraction of legal rules while limiting the involvement of experts.

  • Dec. 2022

    Semantic Model for the Legal Maintenance: the Case of Semantic Annotation of France Legislative and Regulatory Texts

    LN2FR Conference

    In different domains, compliance with legal documents about industrial maintenance is crucial. Legal industrial maintenance is the legal commitment of a company to control, maintain and repair its equipments. With the evolution of legal texts, companies are increasingly adopting automatic processing of legal texts in order to extract their key elements and to support the task of analysis and compliance. To perform such a task of knowledge extraction, a number of state-of-the-art proposal relies on a semantic model. Based on existing models from both legislative and industrial maintenance domains, we propose a new semantic model for the legal industrial maintenance: SEMLEG (SEmantic Model for the LEGal maintenance). This model results from an analysis of documents extracted from the Légifrance French governmental website.

  • Jul. 2022

    BL.Research at SemEval-2022 Task 1: Deep networks for Reverse Dictionary using embeddings and LSTM autoencoders

    ACL Conference

    This paper describes our two deep learning systems that competed at SemEval-2022 Task 1 “CODWOE: Comparing Dictionaries and WOrd Embeddings”. We participated in the subtask for the reverse dictionary which consists in generating vectors from glosses. We use sequential models that integrate several neural networks, starting from Embeddings networks until the use of Dense networks, Bidirectional Long Short-Term Memory (BiLSTM) networks and LSTM networks. All glosses have been preprocessed in order to consider the best representation form of the meanings for all words that appears. We achieved very competitive results in reverse dictionary with a second position in English and French languages when using contextualized embeddings, and the same position for English, French and Spanish languages when using char embeddings.

Education

  • 2021 - 2025

    IRIT - Toulouse University

    PhD in Computer Science (NLP & AI)
  • 2020 - 2021

    UTS Sofia, Bulgaria

    International Semester (Neural Networks)
  • 2018 - 2021

    Engineering School

    Computer Science Engineering Degree
  • 2016 - 2018

    IUT Toulouse

    University Diploma in Computer Science