Marco Dinarelli avec sa première publication dans une revue IEEE Marco Dinarelli
Web site of Marco Dinarelli in English  Site web de Marco Dinarelli en français  Sito web di Marco Dinarelli in italiano 


LIG (UMR 5217)
Office 327
700 avenue Centrale
Campus de Saint-Martin-d’Hères, France


Email:
marco [dot] dinarelli [at] univ-grenoble-alpes [dot] fr
marco [dot] dinarelli [at] gmail [dot] com

                        Curriculum Vitae           Profile de Marco Dinarelli sur LinkedIn


Dernières actualités

09 / 04 / 2024:
Article accepté dans la Revue TAL : Explicabilité des modèles de TAL (64-3)

20 / 02 / 2024:
Article accepté à la conférence internationale LREC-COLING 2024

04 / 02 / 2024:
Article accepté dans la révue Computer Speech and Language, Volume 84, Elsevier

Thèmes de recherche

  • Apprentissage automatique et apprentissage profond
  • Traitement Automatique de Langues (TAL), en particulier modélisation de séquences
  • Reconnaissance et compréhension de la parole (ASRU)
  • Modèles probabilistes, notamment réseaux neuronaux, champs aléatoires conditionnels (CRF), méthodes stochastiques à états finis (FSM), machines à vecteurs de support (SVM), grammaires probabilistes
  • Apprentissage de représentations

Projets de recherche

Projets précedents
  • Multi-Task Sequence Prediction for NLP (Porteur), Janvier 2021 - Décembre 2021
    LIG local Emergence project
  • Neural Coreference Resolution (Porteur), Janvier 2019 - Décembre 2019
    LIG local Emergence project
  • ANR DEMOCRAT (Collaborateur), Janvier 2016 - Décembre 2019
    DEscription et MOdélisation des Chaïnes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique
  • Quaero (Collaborateur), Juin 2010 - Septembre 2013
  • TRACE (Collaborateur), Décembre 2011 - Novembre 2012
  • Live Memories (Collaborateur), Novembre 2009 - Mars 2010
  • LUNA (Collaborateur), Octobre 2006 - Octobre 2009

ActivitéŽs divers

Encadrement

Post doctorants

  1. Hand Le, 10/2023 - 12/2024, financé par Pantagruel
    Sujet : Multi-Modal SSL Models for Text, Speech and Image

  2. Gabriela Gonzales-Saez, 07/2023 - 09/2024, financé par Make-NMT Viz
    Sujet : NMT models visualisation and explainability

  3. Elisa Gugliotta, 06/2022 - 02/2023, financé par Chaire MIAI (Multidisciplinary Institute in Artificial Intelligence)
    Sujet : NLP for Arabish analysis

Doctorants

  1. Ryan Whetten, 2023 - 2026, doctorant/e à LIA, UGA, Samsung AI Center Cambridge
    avec Yannick Estève, Titouan Parcollet
    Sujet : Efficient SSL Models for Speech
    Thèse en cours

  2. Mariam Nakle, 2022 - 2025, doctorant/e CIFRE chez Lingua Custodia
    avec Emmanuelle Esperança-Rodier, Raheel Qader
    Sujet : Document-Level Machine Translation Evaluation
    Thèse en cours

  3. Fabien Lopez, 2022 - 2025, doctorant/e à UGA
    avec Didier Schwab, Emmanuelle Esperança-Rodier
    Sujet : Coreference Resolution and Machine Translation
    Thèse en cours

  4. Lorenzo Lupo, 2019 - 2022, doctorant/e à UGA
    avec Laurent Besacier
    Sujet : Document-Level Neural Machine Translation
    Thèse soutenue en Mars 2023

  5. Elisa Gugliotta, 2019 - 2022, doctorant/e à La Sapienza, UGA
    avec Giuliano Mion, Olivier Kraif
    Sujet : NLP for Arabish analysis
    Thèse soutenue en Mai 2022

  6. Loïc Grobol, 2016 - 2020, doctorant/e à Paris 3
    avec Isabelle Tellier/Frédéric Landragin, Eric De La Clergerie
    Sujet : Coreference Resolution
    Thèse soutenue en Juillet 2020

  7. Tian Tian, 2014 - 2019, doctorant/e CIFRE chez Synthesio
    avec Isabelle Tellier/Thierry Poibeau
    Sujet : NLP for User-Generated-Content analysis
    Thèse soutenue en Octobre 2019

  8. Yoann Dupont, 2013 - 2017, doctorant/e CIFRE chez Expert System (ex Temis)
    avec Isabelle Tellier
    Sujet : Named Entity Detection
    Thèse soutenue en Novembre 2017

Étudiants de master

  1. 2023 Dimitra Niaouri, Sujet : Context-Aware Machine Translation Evaluation
  2. 2022 Romaissa Kessi, Sujet : Classification of political adds
  3. 2021 Lyheang Ung, Sujet : Multi-task sequence-to-sequence learning
  4. 2021 Marco Naguib, Sujet : End-to-End Spoken Language Understanding
  5. 2021 Laura Alonzo Canul, Sujet : Document-Level Neural Machine Translation
  6. 2019 Julien Sfeir, Sujet : Neural Coreference Resolution
  7. 2019 Nikita Kapoor, Sujet : End-to-End Spoken Language Understanding
  8. 2017 Evann Cordier, Sujet : Entity-Aware Language Models
  9. 2016 Nour El Houda Belhaouane, Sujet : Mention detection for coreference resolution
  10. 2015 Abdelwahed Zaki, Sujet : Mention detection for coreference resolution
  11. 2015 Sina Ahmadi, Sujet : Entity detection for coreference resolution

Enseignement

Divers


Je suis régulièrement relecteur pour des revues nationales et internationales
Je suis régulièrement dans le programme scientifique (relecteur) de conférences comme IJCAI, AAAI, IJCNLP, TALN, ...

Projets pratiques précedents

Détection d'entités nommées étendues

La détection d'entités nommées est une tâche assez commune dans le traitement automatique des langues (TAL). Elle est souvent utilisée comme tâche préliminaire dans des tâches plus complexes pour l'extraction d'informations sémantiques. Au delà des tâches de détection d'entités nommées classiques comme la CoNLL shared task 2003, pendant les dernières années, des tâches de détection d'entités nommées plus complexes ont été définies, comme par exemple celle décrite dans (Sekine and Nobata, 2004). Malgré la complexité de l'ensemble d'entités utilisées, les tâches de détection d'entités nommées définies dans les dernières années peuvent être modélisées comme tâche d'étiquettage de séquences.
Pendant la première partie de mon post-doc au LIMSI-CNRS, j'ai travaillé sur un nouveau ensemble d'entités nommées défini dans le projet Quaero. Ce nouveau ensemble d'entités nommées est décrit dans (Grouin et Al., 2011), et la différence principale, par rapport aux ensembles d'entités précédents, est la structure arborée des entités, c'est à dire que des entités simples et plus spécifiques, appelées composants, peuvent être combinées pour former des entités complexes et plus génériques sous la forme d'un arbre.
Étant donnée que ces entités ont une structure en forme d'arbre, cette tâche ne peut pas être modélisée comme un étiquetage de séquences, ce qui rend la tâche plus difficile. Un autre aspect qui contribue à rendre cette tâche plus difficile, est le type de données utilisées: il s'agit en effet de transcriptions d'emissions radiophoniques, provenant de plusieurs chaînes radio françaises et nord-africaines.
Pour résoudre tous ces problèmes, après avoir essayé sans succès des approches issues de l'analyse syntaxique, j'ai proposé une approche qui combine la robustesse des champs aléatoires conditionnels (CRF) (Lafferty et Al.,2001) dans l'étiquettage de séquences, avec la capacité à traiter des structures en forme d'arbre des algorithmes pour l'analyse syntaxique (par exemple (Charniak, 1997)), cette combinaison ayant le but de pouvoir générer structures arborées à partir des séquences plates, de façon efficace et même sur des données bruitées.
Mon approche utilise les CRF pour étiqueter les mots de la phrase en entrée avec les composants des entités. Une fois que les composants ont été étiquetés, une grammaire probabiliste hors contexte (PCFG), avec un algorithme dit de chart-parsing, est utilisée pour reconstruire les arbres d'entités complets. L'avantage d'utiliser cette approche est que les CRF sont particulièrement efficace pour l'étiquettage de séquences, et ils sont très robustes à des données bruitées, ils peuvent donc produire un étiquetage précis des composants, même quand on utilise des données bruitées comme des transcriptions d'emissions radiophoniques. Une fois que les mots ont été étiquetés avec les composants des entités, les arbres d'entités nommées sont suffisamment simples pour pouvoir être reconstruits de façon efficace même avec un modèle simple comme une PCFG.
Cette approche a été évaluée dans la campagne d'évaluation pour les systèmes de détection d'entités nommées du projet Quaero, elle a été classée première avec une grande marge sur les autres participants.
Plus de détails sur cette approche sont décrits dans (Dinarelli Rosset, IJCNLP 2011). Récemment, cette approche a été améliorée en utilisant des représentations arborées différentes dans le modèle PCFG, ayant le but de coder le contexte des noeuds des arbres. Les détails sont publiés dans (Dinarelli Rosset, EACL 2012). La même approche a été également appliqué à des données OCR-isées datant de 1890, après un proces de pre-traitement décrit un détails dans (Dinarelli Rosset, LREC 2012).

Systèmes de dialogue oral homme-machines

Les systèmes de dialogue humain-machine sont des applications pour le traitement de la parole qui permettent aux personnes de parler avec une machine, avec le but de résoudre une tâche.
Pendant ma thèse, j'ai travaillé sur le système de dialogue humain-machine du projet européen LUNA, notamment j'ai conçu et développé le module de compréhension de la parole. Le but était le développement d'une évolution d'une application de transfert d'appels en italien, pour une tâche de résolution de problèmes avec logiciels et materiels informatiques. Le module de compréhension de l'application intègre des modèles pour la compréhension de la parole qui sont état-de-l'art et il est complété avec un classificateur de phrase.
Une fois que le système a associé le problème a une des dix classes possibles prévues pour la tâche, il transfert l'utilisateur sur un opérateur capable de lui offrir une assistance plus précise.
Plus de détails sur ce système sont disponibles dans l'article (Dinarelli et Al., ICASSP 2010).

Ontologies pour la compréhension de langues naturelles

D'un point de vue informatique, une ontologie est une taxonomie de classes liées par un type quelconque de rélations. Dans un contexte de compréhension de la parole, les classes sont semantique, autrement dits des concepts, et les rélations sont des rélations semantiques entre concepts.
De plus des rélations ontologiques traditionelles, comme "is-a" ou "part-of", nous avons définies des rélations entre concetps specifiques de la tâche, pris du corpus en italien des dialogues humain-machine decrit dans l'article (Dinarelli et Al., EACL 2009b)
. Le corpus couvre le domaine de la resolution de problèmes avec logiciels et materiels informatiques et il a été utilisé pour le developement et l'évaluation de systèmes de compréhension de la parole (regarder par exemple dans (Dinarelli et Al., EACL 2009a))
. Nous avons utilisé les relations semantiques definies dans l'ontologie pour evaluer les hypothèses d'interprétation, produites par un modèle de compréhension de la parole basé sur des automates à états finis, comme celui décrit dans (Dinarelli et Al., EACL 2009a).
Nous choisissons l'hypothèse plus correcte par rapport à une mesure de parenté ontologique definie dans l'article (Quarteroni et Al., ASRU 2009)
. Même si les resultats, en termes de précision, de cette solution n'ont pas amelioré l'état-de-l'art, cette idée a obtenu des très bonnes remarques à la conference Interspeech 2009 et au workshop ASRU 2009.

Thèse

Le sujet principal de ma thèse a été la compréhension automatique de la parole dans le contexte des systèmes de dialogue. Le but des mes traveux a été surtout l'étude de solutions pour l'integration de differents modèles probabilistes en utilisant des modèles de reordonnancement discriminants (Collins,2000).
Notamment j'ai utilisé deux modèles pour la generation d'hypotheses pour le reordonnancement: un modèle de language semantique (Raymond et Al.,2006), encodé dans des automates stochastiques à états finis (SFST), et des champs aleatoires conditionels (CRF) (Lafferty et Al.,2001). Les modèles de reordonnancement étaient basés sur des machines à vecteurs de support (SVM) (Vapnik,1998) avec des fonctions noyeaux conçues en particulier pour le traitement de langues naturelles, notamment des fonctions noyaux pour les chaines de caractères, ou "String Kernel" (Shawe-Taylor&Cristianini,2004), et des fonctions noyaux pour des structures arborées, ou "Tree Kernels" (Collins&Duffy,2001) (Moschitti,2006).
Des nouvelles structures sémantiques adaptées aux fonctions noyaux utilisées ont été conçues, avec le but de donner une representation efficace aux hypothèses semantiques dans le SVM, pour plus de détails regarder (Dinarelli et Al., EMNLP 2009).
Une contribution importante aux modèles de reordonnancement est le modèle de selection des hypothèses: une heuristique qui fournie une mesure de coherence semantiques des hypothèses et qui permet de selectionner les meilleures hypothèses, parmi celles generées par les SFST ou les CRF, pour les détails regarder dans (Dinarelli et Al., SLT 2010), (Dinarelli Rosset, EMNLP 2011), and (Dinarelli et Al., IEEE 2011).
Les modèles joints basés sur le reordonnancement ont été evalués sur quatre corpus differents en quatre langues differentes: ATIS (anglais), MEDIA (français), plus les corpus italien et polonais acquis pendant le projet européen LUNA (regarder dans (Dinarelli et Al., EACL 2009b) pour le corpus italien). Une evaluation exaustive et une comparaison avec les meilleurs modèles à l'état de l'art à été faite et montre la validité de cette approche, tous les détails sont dans mes mémoires de thèse (Dinarelli, Ph.D. Dissertation 2010).

Master

Pendant mon stage de master, dernière année, j'ai étudié, implementé et évalué un logiciel pour la clusterisation et la compression de données.
Les algorithmes de compression de données peuvent être pensés comme des fonctions qui transforment les données de façon à reduire la redondance locale. La redondance des données est detectée par l'algorithme dans une fenêtre de taille fixée sur le flux de données en entrée. La capacité et la possibilité de detection de la redondance est donc limitée à cette fenêtre, ce qui peut constituer une forte limitation à la compression quand on comprime des quantités de données importantes ou des données très redondantes. Les algorithmes de compression plus communs, comme les algorithmes de la famille Lempel-Ziv, utilisés par exemple dans les logiciels zip et gzip disponibles sous Linux, ou les algorithmes qui utilisent la transformation de Burrows-Wheeler (BWT), comme par exemple dans le logiciel bzip2 disponible sous Linux, utilisent une fenêtre de taille fixée à priori (par example les options -1,....,-9, utilisées en exclusion mutuelle, fixent la taille de la fenêtre à 100KB,...,900KB).
Une façon d'ameliorer la performance de compression est d'agrandir la taille de la fenêtre, afin de detecter dans les données de redondances à plus grande distance les unes par rapport aux autres. Malheureusement cette solution augmente aussi le temps necessaire pour la compression qui, dans le pire des cas, ne peut pas être connu et limité à priori.
La solution étudiée pendant mon stage fonctionne du point de vue opposé: au lieu d'agrandir la fenêtre arbitrarement pour detecter de redundances qui sont plus loin, j'ai utilisé un algorithme de clusterisation très rapide qui rapproche les portions de données similaires, en augmentant donc la redondance locale des données. Après l'étape de clusterisation les données sont comprimées avec un algorithme de compression basé sur la transformation de Burrows-Wheeler. Pour être encore plus efficace, en fait l'algorithme de compression peut utiliser une fenêtre de taille arbitraire, la taille utilisée en pratique est un parametre optimisé une fois pour toutes avec des données de validation. L'étape de clusterisation est realisée en plusieurs pas dont le premier est basé sur l'utilisation de "min-wise independent linear permutation" (Bohman, Cooper, Frieze 2000) pour convertir des portions de document en vecteurs de caractéristiques. Les vecteurs sont aprés projectés dans l'éspace des nombres réels en utilisant les "Locality Sensitive Hashing" (LSH) (Andoni, Indyk 2006). En exploitant les proprietés des LSH, c'est-à-dire que des vecteurs similaires, et donc des parties de documents similaires, sont projectés proches les uns des autres dans l'éspace des nombres réels, je reordonne les parties des documents selon l'ordre de leurs projections dans l'éspace réel, ce qui donne en sortie des données très redondantes et donc fortement compressibles. Après cette étape les données sont comprimées avec un logiciel basé sur la transformée de Burrows-Wheeler, fourni par mon directeur le professeur Paolo Ferragina

Bibliographie

(Dinarelli et Al., IEEE 2012)
Marco Dinarelli, A. Moschitti, G. Riccardi
Discriminative Reranking for Spoken Language Understanding
IEEE Journal of Transactions on Audio, Speech and Language Processing (TASLP), volume 20, issue 2, pages 526 - 539, 2012.

(Dinarelli Rosset, LREC 2012)
Marco Dinarelli, S. Rosset
Tree-Structured Named Entity Recognition on OCR Data: Analysis, Processing and Results
In Proceedings of the Language Resources and Evaluation Conference (LREC), Istanbul, Turkey, 2012.

(Dinarelli Rosset, EACL 2012)
Marco Dinarelli, S. Rosset
Tree Representations in Probabilistic Models for Extended Named Entity Detection
In Proceedings of the European chapter of the Association for Computational Linguistics (EACL), Avignon, France, 2012.

(Dinarelli Rosset, IJCNLP 2011)
Marco Dinarelli, S. Rosset
Models Cascade for Tree-Structured Named Entity Detection
In Proceedings of International Joint Conference on Natural Language Processing (IJCNLP), Chiang Mai, Thailand, 2011.

(Dinarelli Rosset, EMNLP 2011)
Marco Dinarelli, S. Rosset
Hypotheses Selection Criteria in a Reranking Framework for Spoken Language Understanding
In Proceedings of Empirical Methods for Natural Language Processing (EMNLP), Edinburgh, U.K., 2011.

(Dinarelli et Al., SLT 2010)
Marco Dinarelli, A. Moschitti, G. Riccardi
Hypotheses Selection For Re-ranking Semantic Annotations
IEEE Workshop on Spoken Language Technology (SLT), Berkeley, U.S.A., 2010.

(Dinarelli, Ph.D. Dissertation 2010)
Marco Dinarelli
Spoken Language Understanding: from Spoken Utterances to Semantic Structures
Ph.D. Dissertation, University of Trento
Department of Computer Science and Information Engineering (DISI), Italy, 2010.

(Dinarelli et Al., ICASSP 2010)
Marco Dinarelli, E. Stepanov, S. Varges, G. Riccardi
The LUNA Spoken Dialog System: Beyond Utterance Classification
In Proceedings of International Conference of Acoustics, Speech and Signal Processing (ICASSP), Dallas, USA, 2010.

(Dinarelli et Al., EMNLP 2009)
Marco Dinarelli, A. Moschitti, G. Riccardi
Reranking Models Based On Small Training Data For Spoken Language Understanding
In Proceedings of Empirical Methods for Natural Language Processing (EMNLP), Singapore, 2009.

(Dinarelli et Al., EACL 2009a)
Marco Dinarelli, A. Moschitti, G. Riccardi
Reranking Models for Spoken Language Understanding
In Proceedings of the European chapter of the Association for Computational Linguistics (EACL), Athens, Greece, 2009.

(Dinarelli et Al., EACL 2009b)
Marco Dinarelli, S. Quarteroni, S. Tonelli, A. Moschitti, G. Riccardi
Annotating Spoken Dialogs: from Speech Segments to Dialog Acts and Frame Semantics
EACL Workshop on Semantic Representation of Spoken Language, Athens, Greece, 2009.

(Quarteroni et Al., ASRU 2009)
S. Quarteroni, Marco Dinarelli, G. Riccardi
Ontology-Based Grounding Of Spoken Language Understanding
IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), Merano, Italy, 2009.