Lucía Ormaechea

À propos.

Chercheuse en NLP & Ingénieure en technologies de la parole

Bienvenue sur mon site web 👋 Je m'appelle Lucía, chercheuse en NLP. Actuellement je travaille en tant que Machine Learning Software Engineer pour l'Organisation Mondiale de la Propriété Intellectuelle (OMPI – Nations Unies) au sein de l'équipe ATAC, pour le développement et le déploiement de solutions de reconnaissance vocale.

J'ai récemment complété un doctorat en cotutelle entre l'Université de Genève (FTI/TIM) (spécialisation : Traitement Informatique Multilingue) et à l'Université Grenoble-Alpes (LIG/GETALP) (spécialisation : Informatique), où j'ai obtenu la mention la plus haute possible.

J'ai également obtenu une licence en Philologie Hispanique à l'Université de Navarre (Pamplona, Espagne) et je suis titulaire d'un master en Traitement Automatique des Langues de l'Institut National des Langues et Civilisations Orientales (Paris, France).

Domaines de recherche : Reconaissance de la parole – Simplification automatique – Grands modèles de langage.

N'hésitez pas à prendre contact avec moi pour toute information complémentaire 😊

Données Personnelles

PrénomLucía
NomOrmaechea Grijalba
OriginePamplona, Espagne
RésidenceGenève, Suisse

Télécharger CV

Domaines de recherche

Reconnaissance de la parole

Simplification de textes

Grands modèles de langage

Parcours.

Télécharger CV

Expériences

Machine Learning Software Engineer

Organisation Mondiale de la Propriété Intellectuelle (OMPI) | Genève, Suisse

Participation au sein de l'équipe Advanced Technology Applications Center (ATAC).

Tâches principales :
• Contribution au développement de la plateforme WIPO Speech-to-Text : évaluation des modèles, optimisation de la chaîne de traitements existante.
• Maintenance de l'infrastructure de déploiement de WIPO Speech-to-Text.

Présent 10.2025
Chercheuse scientifique et assistant d'enseignement

Université de Genève | Genève, Suisse

Contribution au projet BabelDr:
• Développement d'un système spécialisé de Reconnaissance Automatique de la Parole (RAP).
• Déploiement d'une application Docker pour effectuer la RAP au sein du dispositif de traduction médicale BabelDr.

Participation au projet PROPICTO:
• Développement et optimisation de modèles en cascade et de bout en bout pour la simplification du français spontané.
• Publication de nombreux articles dans des conférences et revues de haut niveau.
• Développement et maintenance du site web du projet.

Travail en tant qu'assistant dans le cadre de Localisation (cours de Master) : préparation des supports de cours – correction des TPs – soutien aux étudiants lors des séances pratiques.

12.2025 12.2020
Ingénieure NLP

Lab. d'Informatique de Grenoble | Grenoble, France

Participation au sein du projet BabelDr : développement d'un système de reconnaissance automatique de la parole pour le domaine médical.

Tâches principales :
• Conception d'un pipeline complet pour l'injection de modèles de langue basés sur des grammaires dans la boîte à outils Kaldi.
• Création de conteneurs Docker pour la reconnaissance vocale.
• Entraînement de modèles acoustiques HMM-DNN sur la base de corpus open source.
• Développement d'une API web pour Kaldi.
• Ajustement et évaluation des prototypes conçus.

09.2020 02.2020
Stagiaire en traduction et localisation

New York Habitat | Travail à distance

Traduction ENG > ESP de textes commerciaux : Transcriptions de vidéos – Chroniques de voyages – Avis clients – Recommandations des clients.

09.2018 07.2018
Assistant de recherche

Université de Navarre | Pamplona, Espagne

Participation en tant qu'étudiante chercheuse au sein du Département de Philologie.

Tâches principales :
• Création de matériaux didactiques visant à évaluer automatiquement le niveau des connaissances en langue espagnole chez les apprenants non-natifs.
• Séminaires dispensés autour de la rédaction académique pour des étudiants allophones.
• Relecture et correction d'articles scientifiques, classification des documents.

06.2017 09.2016

Études

Doctorat en cotutelle, Traitement Informatique Multilingue & Informatique

Université de Genève & Université Grenoble-Alpes | Genève, Suisse

Note : Très honorable avec les félicitations du jury (la plus haute possible).

Description : J'ai complété une thèse en cotutelle entre le Département de Traitement Informatique Multilingue de l'Université de Genève, et l'équipe de recherche GETALP, rattaché à l'Université Grenoble-Alpes.

Mots clés: simplification de la parole – LLMs – corpus comparables – français oral spontané.

Intitulé du projet de thèse : Towards Simpler Transcripts: Investigating Automatic Simplification of French Spontaneous Speech.
12.2025 06.2022
Master en Traitement Automatique des Langues

Inalco & Université Sorbonne-Nouvelle & Université Paris Nanterre | Paris, France

Note : mention très bien (la plus haute possible).

Cours suivis : Langages de script (Python, Bash, Perl) – Programmation orientée objet (C+, Java) – Méthodes statistiques pour l'exploitation des corpus – Réseaux neuronaux – Fouille de textes – Linguistique de corpus – Langages de balisage (XML, XSLT) – Bases de données (SQL, Neo4J).

Mémoire de master : "Mise en place d'un système robuste de reconnaissance automatique de la parole appliqué au domaine médical". Note : 19/20.

09.2020 09.2018
Licence en Philologie Hispanique

Université de Navarre | Pamplona, Espagne

Note : candidate au prix extraordinaire de fin de licence.

Cours suivis : Phonétique et phonologie – Lexicologie et sémantique – Sociolinguistique et variation géolectale – Analyse du discours – Morphologie et syntaxe.

06.2018 09.2014

Langues

Espagnol

100%

Anglais

95%

Français

95%

Italien

60%

Compétences

Programmation

Python
Bash
Perl
C++
Java
SQL

Librairies

Transformers
Langchain
Pandas
NLTK
SpaCy

Outils

Kaldi
Git
LaTeX
Slurm
Docker
Praat

Ressources.

Tous
Outils
Jeux de données
Projets

WiViCo (Wikipedia Vikidia Corpus)

Constitution d'un corpus de phrases parallèles complexes-simples en français.

kaldi-grammar-compiler

Outil conçu pour transformer des grammaires régulières en FST compilés.

propicto project medico — MeDiCo (Medical Discourse Corpus)

Ensemble de données acoustiques artificielles comprenant des énoncés liés au domaine de la consultation médicale.

toolbox project — Projet Boîte à Outils

Étude quantitative portant sur l'identification de patrons morphosyntaxiques trouvés sur le journal Le Monde.

structured documents — Documents Structurés

Ensemble d'exercices de programmation liés au langage de balisage XML et à l'extraction d'informations.

Publications.

Articles de Revues

Automatic Text Simplification for French: Model Fine-Tuning for Simplicity Assessment and Simpler Text Generation

Lucía Ormaechea et Nikos Tsourakis.
In: International Journal of Speech Technology, Springer, vol. 27.
Décembre 2024

PDF LIEN

Articles de Conférence

Towards High-Quality LLM-Based Data for French Spontaneous Speech Simplification: an Exo-Refinement Approach

Lucía Ormaechea, Nikos Tsourakis, Pierrette Bouillon, Benjamin Lecouteux et Didier Schwab.
In: Proceedings of Interspeech 2025, Rotterdam (Pays-Bas).
Août 2025

PDF LIEN

TIM-UNIGE Translation into Low-Resource Languages of Spain for WMT24

Jonathan Mutal et Lucía Ormaechea.
In: Proceedings of the Ninth Conference on Machine Translation (WMT), Miami (États Unis).
Novembre 2024

PDF LIEN

Simplification Strategies in French Spontaneous Speech

Lucía Ormaechea, Nikos Tsourakis, Didier Schwab, Pierrette Bouillon et Benjamin Lecouteux.
In: Proceedings of the Workshop on DeTermIt! Evaluating Text Difficulty in a Multilingual Context, LREC-COLING 2024, Turin (Italie).
Mai 2024

PDF LIEN DIAPORAMA

Simple, Simpler and Beyond: A Fine-Tuning BERT-Based Approach to Enhance Sentence Complexity Assessment for Text Simplification

Lucía Ormaechea, Nikos Tsourakis, Didier Schwab, Pierrette Bouillon et Benjamin Lecouteux.
In: Proceedings of the 6th International Conference on Natural Language and Speech Processing (ICNSLP), Trento (Italie).
Décembre 2023

PDF LIEN DIAPORAMA

Extracting Sentence Simplification Pairs from French Comparable Corpora Using a Two-Step Filtering Method

Lucía Ormaechea et Nikos Tsourakis.
In: Proceedings of the 8th Swiss Text Analytics Conference 2023 (SwissText), Neuchâtel (Suisse).
Juin 2023

PDF LIEN DIAPORAMA

PROPICTO: Developing Speech-to-Pictograph Translation Systems to Enhance Communication Accessibility

Lucía Ormaechea, Pierrette Bouillon, Maximin Coavoux, Emmanuelle Esperança-Rodier, Johanna Gerlach, Jerôme Goulian, Benjamin Lecouteux, Cécile Macaire, Jonathan Mutal, Magali Norré, Adrien Pupier et Didier Schwab.
In: Proceedings of the 24th Annual Conference of The European Association for Machine Translation (EAMT), Tampere (Finlande).
Juin 2023

PDF LIEN

Une chaîne de traitements pour la simplification automatique de la parole et sa traduction automatique vers des pictogrammes

Cécile Macaire, Lucía Ormaechea Grijalba et Adrien Pupier.
In: 29ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Avignon (France).
Juin 2022

PDF LIEN DIAPORAMA

Présentations

Vers une simplification automatique de la parole en français : Les enjeux de l'extraction des données d'apprentissage pour la simplification linguistique

Lucía Ormaechea, Pierrette Bouillon, Benjamin Lecouteux et Didier Schwab.
In: Colloque de l'Association for French Language Studies (AFLS) — Le français et ses frontières, Lille (France).
Septembre 2023

PDF LIEN DIAPORAMA

PROPICTO : Développer des systèmes de traduction de la parole vers des séquences de pictogrammes pour améliorer l'accessibilité de la communication

Lucía Ormaechea, Pierrette Bouillon, Maximin Coavoux, Emmanuelle Esperança-Rodier, Johanna Gerlach, Jerôme Goulian, Benjamin Lecouteux, Cécile Macaire, Jonathan Mutal, Magali Norré, Adrien Pupier, Didier Schwab et Hervé Spechbach.
In: 30ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Paris (France).
June 2023

PDF LIEN

A Tool for Easily Integrating Grammars as Language Models into the Kaldi Speech Recognition Toolkit

Lucía Ormaechea Grijalba, Benjamin Lecouteux, Pierrette Bouillon et Didier Schwab.
In: Bridges and Gaps between Formal and Computational Linguistics (ESSLLI 2022 workshop), Galway (Irlande).
August 2022

PDF LIEN DIAPORAMA

Reconnaissance vocale du discours spontané pour le domaine médical

Lucía Ormaechea Grijalba, Pierrette Bouillon, Johanna Gerlach, Benjamin Lecouteux, Didier Schwab et Hervé Spechbach.
In: Journée Commune AFIA/TLH: Technologies du Langage Humain et Santé (en distanciel).
Février 2021

PDF LIEN

Posters

From Complex to Simpler Transcriptions: Simplifying Spontaneous French Speech

Lucía Ormaechea et Nikos Tsourakis
In: Journée d'échanges sur la recherche à la FTI, Genève (Suisse).
Septembre 2024

POSTER LIEN

Integrating Grammar-Based Language Models into Domain-Specific Speech Recognition Systems

Lucía Ormaechea Grijalba
In: Second Advanced Language Processing School (ALPS), organisée par Univ. Grenoble-Alpes et Naver Labs Europe (en distantiel).
Janvier 2022

POSTER LIEN

Mémoire de Master

Mise en place d'un système robuste de reconnaissance automatique de la parole appliqué au domaine médical

Lucía Ormaechea Grijalba
Septembre 2020

PDF LIEN

À propos.

Chercheuse en NLP & Ingénieure en technologies de la parole

Données Personnelles

Domaines de recherche

Reconnaissance de la parole

Simplification de textes

Grands modèles de langage

Parcours.

Expériences

Machine Learning Software Engineer

Organisation Mondiale de la Propriété Intellectuelle (OMPI) | Genève, Suisse

Chercheuse scientifique et assistant d'enseignement

Université de Genève | Genève, Suisse

Ingénieure NLP

Lab. d'Informatique de Grenoble | Grenoble, France

Stagiaire en traduction et localisation

New York Habitat | Travail à distance

Assistant de recherche

Université de Navarre | Pamplona, Espagne

Études

Doctorat en cotutelle, Traitement Informatique Multilingue & Informatique

Université de Genève & Université Grenoble-Alpes | Genève, Suisse

Master en Traitement Automatique des Langues

Inalco & Université Sorbonne-Nouvelle & Université Paris Nanterre | Paris, France

Licence en Philologie Hispanique

Université de Navarre | Pamplona, Espagne

Langues

Espagnol

Anglais

Français

Italien

Compétences

Programmation

Librairies

Outils

Ressources.

WiViCo (Wikipedia Vikidia Corpus)

kaldi-grammar-compiler

MeDiCo (Medical Discourse Corpus)

Projet Boîte à Outils

Documents Structurés

Publications.

Articles de Revues

Articles de Conférence

Présentations

Posters

Mémoire de Master

Terminal.