Lucía Ormaechea Grijalba

À propos.

Doctorante, Linguiste Informaticienne & Chercheuse en NLP

Bienvenue sur mon site web 👋 Je m'appelle Lucía, je suis chercheuse en NLP et doctorante en Traitement Informatique Multilingue à l'Université de Genève (FTI/TIM) et le Laboratoire d'Informatique de Grenoble (LIG/GETALP), dans le cadre du projet ANR/FNS PROPICTO.

J'ai obtenu une licence en Philologie Hispanique à l'Université de Navarre (Pamplona, Espagne) et je suis titulaire d'un master en Traitement Automatique des Langues de l'Institut National des Langues et Civilisations Orientales (Paris, France). Mes recherches se focalisent sur la simplification automatique de la parole dans des conditions à faibles ressources.

N'hésitez pas à prendre contact avec moi pour toute information complémentaire 😀



Données Personnelles

  • PrénomLucía
  • NomOrmaechea Grijalba
  • OriginePamplona, Espagne
  • RésidenceGenève, Suisse

Domaines de recherche

Reconnaissance de la parole

Simplification de textes

Systèmes multimodaux

Parcours.

Études

  • Doctorat, Traitement Informatique Multilingue (Bourse Candoc FNS)

    Université de Genève & Université Grenoble-Alpes | Genève, Suisse

    Je prépare actuellement une thèse en cotutelle entre le Département de Traitement Informatique Multilingue de l'Université de Genève, et l'équipe de recherche GETALP, rattaché à l'Université Grenoble-Alpes.

    Mon travail s'inscrit dans le cadre de du projet PROPICTO, visant à créer des systèmes de traduction parole-pictogrammes.


    Intitulé du projet de thèse : Exploring Automatic Spoken Language Simplification in Low-Resource Conditions.

    Présent 06.2022
  • Master en Traitement Automatique des Langues

    Inalco & Université Sorbonne-Nouvelle & Université Paris Nanterre | Paris, France

    Diplômée avec mention « très bien ».


    Cours suivis : Langages de script (Python, Bash, Perl) – Programmation orientée objet (C+, Java) – Méthodes statistiques pour l'exploitation des corpus – Réseaux neuronaux convolutifs pour l'identification des langues – Fouille de textes – Linguistique de corpus – Langages de balisage (XML, XSLT) – Bases de données (SQL, Neo4J).

    Mémoire de master : "Mise en place d'un système robuste de reconnaissance automatique de la parole appliqué au domaine médical". Note : 19/20.

    09.2020 09.2018
  • Licence en Philologie Hispanique

    Université de Navarre | Pamplona, Espagne

    Candidate au Prix Extraordinaire de Fin de Licence.


    Cours suivis : Phonétique et phonologie – Lexicologie et sémantique – Sociolinguistique et variation géolectale – Analyse du discours – Morphologie et syntaxe.

    06.2018 09.2014

Expériences

  • Assistant de recherche et d’enseignement

    Université de Genève | Genève, Suisse

    Contribution au projet BabelDr:
    • Développement d’un système spécialisé de Reconnaissance Automatique de la Parole (RAP).
    • Déploiement d’une application Docker pour effectuer la RAP au sein du dispositif de traduction médicale BabelDr.

    Participation au projet PROPICTO:
    • Compilation de paires de phrases complexes-simples à partir de corpus comparables.
    • Développement et maintenance du site web du projet.


    Travail en tant qu’assistant dans le cadre de Localisation (cours de Master) : préparation des supports de cours – correction des TPs – soutien aux étudiants lors des séances pratiques.

    Présent 12.2020
  • Stagiaire en ingénierie linguistique

    Lab. d'Informatique de Grenoble | Grenoble, France

    Participation au sein du projet BabelDr : développement d'un système de reconnaissance automatique de la parole pour le domaine médical.


    Tâches principales :
    • Conception d'un pipeline complet pour l'injection de modèles de langue basés sur des grammaires dans la boîte à outils Kaldi.
    • Création de conteneurs Docker pour la reconnaissance vocale.
    • Entraînement de modèles acoustiques HMM-DNN sur la base de corpus open source.
    • Développement d'une API web pour Kaldi.
    • Ajustement et évaluation des prototypes conçus.

    09.2020 02.2020
  • Stagiaire en traduction

    New York Habitat | Travail à distance

    Traduction ENG > ESP de textes commerciaux : Transcriptions de vidéos – Chroniques de voyages – Avis clients – Recommandations des clients.

    09.2018 07.2018
  • Assistant de recherche

    Université de Navarre | Pamplona, Espagne

    Participation en tant qu'étudiante chercheuse au sein du Département de Philologie.

    Tâches principales :
    • Création de matériaux didactiques visant à évaluer automatiquement le niveau des connaissances en langue espagnole chez les apprenants non-natifs.
    • Séminaires dispensés autour de la rédaction académique pour des étudiants allophones.
    • Cours destinés aux locuteurs non-natifs d'espagnol.
    • Relecture et correction d'articles scientifiques, classification des documents.

    06.2017 09.2016

Langues

Espagnol

100%

Anglais

95%

Français

95%

Italien

33%

Compétences

Programmation

  • Python
  • Bash
  • Perl
  • C++
  • Java
  • SQL

Librairies

  • OpenFST
  • Keras
  • Pandas
  • NLTK
  • SpaCy

Développement Web

  • HTML
  • CSS
  • Jekyll
  • Flask
  • XML
  • XSLT

Outils

  • Kaldi
  • Git
  • LaTeX
  • Docker
  • Praat
  • SRILM

Publications.



Articles de Conférence

TIM-UNIGE Translation into Low-Resource Languages of Spain for WMT24

Jonathan Mutal et Lucía Ormaechea.
In: Proceedings of the Ninth Conference on Machine Translation (WMT), Miami (États Unis).
Novembre 2024



Simplification Strategies in French Spontaneous Speech

Lucía Ormaechea, Nikos Tsourakis, Didier Schwab, Pierrette Bouillon et Benjamin Lecouteux.
In: Proceedings of the Workshop on DeTermIt! Evaluating Text Difficulty in a Multilingual Context, LREC-COLING 2024, Turin (Italie).
Mai 2024



Simple, Simpler and Beyond: A Fine-Tuning BERT-Based Approach to Enhance Sentence Complexity Assessment for Text Simplification

Lucía Ormaechea, Nikos Tsourakis, Didier Schwab, Pierrette Bouillon et Benjamin Lecouteux.
In: Proceedings of the 6th International Conference on Natural Language and Speech Processing (ICNSLP), Trento (Italie).
Décembre 2023



Extracting Sentence Simplification Pairs from French Comparable Corpora Using a Two-Step Filtering Method

Lucía Ormaechea et Nikos Tsourakis.
In: Proceedings of the 8th Swiss Text Analytics Conference 2023 (SwissText), Neuchâtel (Suisse).
Juin 2023



PROPICTO: Developing Speech-to-Pictograph Translation Systems to Enhance Communication Accessibility

Lucía Ormaechea, Pierrette Bouillon, Maximin Coavoux, Emmanuelle Esperança-Rodier, Johanna Gerlach, Jerôme Goulian, Benjamin Lecouteux, Cécile Macaire, Jonathan Mutal, Magali Norré, Adrien Pupier et Didier Schwab.
In: Proceedings of the 24th Annual Conference of The European Association for Machine Translation (EAMT), Tampere (Finlande).
Juin 2023



Une chaîne de traitements pour la simplification automatique de la parole et sa traduction automatique vers des pictogrammes

Cécile Macaire, Lucía Ormaechea Grijalba et Adrien Pupier.
In: 29ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Avignon (France).
Juin 2022



Présentations

Vers une simplification automatique de la parole en français : Les enjeux de l’extraction des données d’apprentissage pour la simplification linguistique

Lucía Ormaechea, Pierrette Bouillon, Benjamin Lecouteux et Didier Schwab.
In: Colloque de l'Association for French Language Studies (AFLS) — Le français et ses frontières, Lille (France).
Septembre 2023



PROPICTO : Développer des systèmes de traduction de la parole vers des séquences de pictogrammes pour améliorer l'accessibilité de la communication

Lucía Ormaechea, Pierrette Bouillon, Maximin Coavoux, Emmanuelle Esperança-Rodier, Johanna Gerlach, Jerôme Goulian, Benjamin Lecouteux, Cécile Macaire, Jonathan Mutal, Magali Norré, Adrien Pupier, Didier Schwab et Hervé Spechbach.
In: 30ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Paris (France).
June 2023



A Tool for Easily Integrating Grammars as Language Models into the Kaldi Speech Recognition Toolkit

Lucía Ormaechea Grijalba, Benjamin Lecouteux, Pierrette Bouillon et Didier Schwab.
In: Bridges and Gaps between Formal and Computational Linguistics (ESSLLI 2022 workshop), Galway (Irlande).
August 2022



Reconnaissance vocale du discours spontané pour le domaine médical

Lucía Ormaechea Grijalba, Pierrette Bouillon, Johanna Gerlach, Benjamin Lecouteux, Didier Schwab et Hervé Spechbach.
In: Journée Commune AFIA/TLH: Technologies du Langage Humain et Santé (en distanciel).
Février 2021



Posters

From Complex to Simpler Transcriptions: Simplifying Spontaneous French Speech

Lucía Ormaechea et Nikolaos Tsourakis
In: Journée d'échanges sur la recherche à la FTI, Genève (Suisse).
Septembre 2024



Integrating Grammar-Based Language Models into Domain-Specific Speech Recognition Systems

Lucía Ormaechea Grijalba
In: Second Advanced Language Processing School (ALPS), organisée par Univ. Grenoble-Alpes et Naver Labs Europe (en distantiel).
Janvier 2022



Mémoire de Master

Mise en place d'un système robuste de reconnaissance automatique de la parole appliqué au domaine médical

Lucía Ormaechea Grijalba
Septembre 2020


Terminal.