@inproceedings{segonne-etal-2024-jargon-modeles,
    title = "Jargon : Une suite de mod{\`e}les de langues et de r{\'e}f{\'e}rentiels d{'}{\'e}valuation pour les domaines sp{\'e}cialis{\'e}s du fran{\c{c}}ais",
    author = "Segonne, Vincent  and
      Mannion, Aidan  and
      Alonzo-Canul, Laura  and
      Alexandre, Audibert  and
      Liu, Xingyu  and
      Macaire, C{\'e}cile  and
      Pupier, Adrien  and
      Zhou, Yongxin  and
      Aguiar, Mathilde  and
      Herron, Felix  and
      Norr{\'e}, Magali  and
      Amini, Massih-Reza  and
      Bouillon, Pierrette  and
      Eshkol Taravella, Iris  and
      Esparan{\c{c}}a-Rodier, Emmanuelle  and
      Fran{\c{c}}ois, Thomas  and
      Goeuriot, Lorraine  and
      Goulian, J{\'e}r{\^o}me  and
      Lafourcade, Mathieu  and
      Lecouteux, Benjamin  and
      Portet, Fran{\c{c}}ois  and
      Ringeval, Fabien  and
      Vandeghinste, Vincent  and
      Coavoux, Maximin  and
      Dinarelli, Marco  and
      Schwab, Didier",
    editor = "Balaguer, Mathieu  and
      Bendahman, Nihed  and
      Ho-dac, Lydia-Mai  and
      Mauclair, Julie  and
      G Moreno, Jose  and
      Pinquier, Julien",
    booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publi{\`e}s",
    month = "7",
    year = "2024",
    address = "Toulouse, France",
    publisher = "ATALA and AFPC",
    url = "https://aclanthology.org/2024.jeptalnrecital-trad.6",
    pages = "9--10",
    abstract = "Les mod{\`e}les de langue pr{\'e}entra{\^\i}n{\'e}s (PLM) constituent aujourd{'}hui de facto l{'}{\'e}pine dorsale de la plupart des syst{\`e}mes de traitement automatique des langues. Dans cet article, nous pr{\'e}sentons Jargon, une famille de PLMs pour des domaines sp{\'e}cialis{\'e}s du fran{\c{c}}ais, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biom{\'e}dical, et le domaine juridique. Nous utilisons une architecture de transformeur bas{\'e}e sur des m{\'e}thodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous {\'e}valuons et comparons nos mod{\`e}les {\`a} des mod{\`e}les de l{'}{\'e}tat de l{'}art sur un ensemble vari{\'e} de t{\^a}ches et de corpus d{'}{\'e}valuation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de donn{\'e}es dans un nouveau r{\'e}f{\'e}rentiel d{'}{\'e}valuation en langue fran{\c{c}}aise pour ces trois domaines. Nous comparons {\'e}galement diverses configurations d{'}entra{\^\i}nement : pr{\'e}entra{\^\i}nement prolong{\'e} en apprentissage autosupervis{\'e} sur les donn{\'e}es sp{\'e}cialis{\'e}es, pr{\'e}entra{\^\i}nement {\`a} partir de z{\'e}ro, ainsi que pr{\'e}entra{\^\i}nement mono et multi-domaines. Nos exp{\'e}rimentations approfondies dans des domaines sp{\'e}cialis{\'e}s montrent qu{'}il est possible d{'}atteindre des performances comp{\'e}titives en aval, m{\^e}me lors d{'}un pr{\'e}entra{\^\i}nement avec le m{\'e}canisme d{'}attention approximatif de LinFormer. Pour une reproductibilit{\'e} totale, nous publions les mod{\`e}les et les donn{\'e}es de pr{\'e}entra{\^\i}nement, ainsi que les corpus utilis{\'e}s.",
    language = "French",
}