@inproceedings{segonne-etal-2024-jargon-modeles, title = "Jargon : Une suite de mod{\`e}les de langues et de r{\'e}f{\'e}rentiels d{'}{\'e}valuation pour les domaines sp{\'e}cialis{\'e}s du fran{\c{c}}ais", author = "Segonne, Vincent and Mannion, Aidan and Alonzo-Canul, Laura and Alexandre, Audibert and Liu, Xingyu and Macaire, C{\'e}cile and Pupier, Adrien and Zhou, Yongxin and Aguiar, Mathilde and Herron, Felix and Norr{\'e}, Magali and Amini, Massih-Reza and Bouillon, Pierrette and Eshkol Taravella, Iris and Esparan{\c{c}}a-Rodier, Emmanuelle and Fran{\c{c}}ois, Thomas and Goeuriot, Lorraine and Goulian, J{\'e}r{\^o}me and Lafourcade, Mathieu and Lecouteux, Benjamin and Portet, Fran{\c{c}}ois and Ringeval, Fabien and Vandeghinste, Vincent and Coavoux, Maximin and Dinarelli, Marco and Schwab, Didier", editor = "Balaguer, Mathieu and Bendahman, Nihed and Ho-dac, Lydia-Mai and Mauclair, Julie and G Moreno, Jose and Pinquier, Julien", booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publi{\`e}s", month = "7", year = "2024", address = "Toulouse, France", publisher = "ATALA and AFPC", url = "https://aclanthology.org/2024.jeptalnrecital-trad.6", pages = "9--10", abstract = "Les mod{\`e}les de langue pr{\'e}entra{\^\i}n{\'e}s (PLM) constituent aujourd{'}hui de facto l{'}{\'e}pine dorsale de la plupart des syst{\`e}mes de traitement automatique des langues. Dans cet article, nous pr{\'e}sentons Jargon, une famille de PLMs pour des domaines sp{\'e}cialis{\'e}s du fran{\c{c}}ais, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biom{\'e}dical, et le domaine juridique. Nous utilisons une architecture de transformeur bas{\'e}e sur des m{\'e}thodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous {\'e}valuons et comparons nos mod{\`e}les {\`a} des mod{\`e}les de l{'}{\'e}tat de l{'}art sur un ensemble vari{\'e} de t{\^a}ches et de corpus d{'}{\'e}valuation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de donn{\'e}es dans un nouveau r{\'e}f{\'e}rentiel d{'}{\'e}valuation en langue fran{\c{c}}aise pour ces trois domaines. Nous comparons {\'e}galement diverses configurations d{'}entra{\^\i}nement : pr{\'e}entra{\^\i}nement prolong{\'e} en apprentissage autosupervis{\'e} sur les donn{\'e}es sp{\'e}cialis{\'e}es, pr{\'e}entra{\^\i}nement {\`a} partir de z{\'e}ro, ainsi que pr{\'e}entra{\^\i}nement mono et multi-domaines. Nos exp{\'e}rimentations approfondies dans des domaines sp{\'e}cialis{\'e}s montrent qu{'}il est possible d{'}atteindre des performances comp{\'e}titives en aval, m{\^e}me lors d{'}un pr{\'e}entra{\^\i}nement avec le m{\'e}canisme d{'}attention approximatif de LinFormer. Pour une reproductibilit{\'e} totale, nous publions les mod{\`e}les et les donn{\'e}es de pr{\'e}entra{\^\i}nement, ainsi que les corpus utilis{\'e}s.", language = "French", }