@inproceedings{whetten-etal-2024-implementation,
    title = "Impl{\'e}mentation ouverte et {\'e}tude de {BEST}-{RQ} pour le traitement de la parole",
    author = "Whetten, Ryan  and
      Parcollet, Titouan  and
      Dinarelli, Marco  and
      Est{\`e}ve, Yannick",
    editor = "Balaguer, Mathieu  and
      Bendahman, Nihed  and
      Ho-dac, Lydia-Mai  and
      Mauclair, Julie  and
      G Moreno, Jose  and
      Pinquier, Julien",
    booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
    month = "7",
    year = "2024",
    address = "Toulouse, France",
    publisher = "ATALA and AFPC",
    url = "https://aclanthology.org/2024.jeptalnrecital-jep.42",
    pages = "412--420",
    abstract = "L{'}apprentissage auto-supervis{\'e} (SSL) a fait ses preuves pour le traitement automatique de la parole mais est g{\'e}n{\'e}ralement tr{\`e}s consommateur de donn{\'e}es, de m{\'e}moire et de ressources mat{\'e}rielles. L{'}approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L{'}article original de Google qui introduit BEST-RQ manque de d{\'e}tails, comme le nombre d{'}heures de GPU/TPU utilis{\'e}es pour le pr{\'e}-entra{\^\i}nement et il n{'}existe pas d{'}impl{\'e}mentation open-source facile {\`a} utiliser. De plus, BEST-RQ n{'}a pas {\'e}t{\'e} {\'e}valu{\'e} sur d{'}autres t{\^a}ches que la RAP et la traduction de la parole. Dans cet article, nous d{\'e}crivons notre impl{\'e}mentation open-source de BEST-RQ et r{\'e}alisons une premi{\`e}re {\'e}tude en le comparant {\`a} wav2vec 2.0 sur quatre t{\^a}ches. Nous montrons que BERT-RQ peut atteindre des performances similaires {\`a} celles de wav2vec 2.0 tout en r{\'e}duisant le temps d{'}apprentissage d{'}un facteur sup{\'e}rieur {\`a} deux.",
    language = "French",
}