@inproceedings{whetten-etal-2024-implementation, title = "Impl{\'e}mentation ouverte et {\'e}tude de {BEST}-{RQ} pour le traitement de la parole", author = "Whetten, Ryan and Parcollet, Titouan and Dinarelli, Marco and Est{\`e}ve, Yannick", editor = "Balaguer, Mathieu and Bendahman, Nihed and Ho-dac, Lydia-Mai and Mauclair, Julie and G Moreno, Jose and Pinquier, Julien", booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole", month = "7", year = "2024", address = "Toulouse, France", publisher = "ATALA and AFPC", url = "https://aclanthology.org/2024.jeptalnrecital-jep.42", pages = "412--420", abstract = "L{'}apprentissage auto-supervis{\'e} (SSL) a fait ses preuves pour le traitement automatique de la parole mais est g{\'e}n{\'e}ralement tr{\`e}s consommateur de donn{\'e}es, de m{\'e}moire et de ressources mat{\'e}rielles. L{'}approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L{'}article original de Google qui introduit BEST-RQ manque de d{\'e}tails, comme le nombre d{'}heures de GPU/TPU utilis{\'e}es pour le pr{\'e}-entra{\^\i}nement et il n{'}existe pas d{'}impl{\'e}mentation open-source facile {\`a} utiliser. De plus, BEST-RQ n{'}a pas {\'e}t{\'e} {\'e}valu{\'e} sur d{'}autres t{\^a}ches que la RAP et la traduction de la parole. Dans cet article, nous d{\'e}crivons notre impl{\'e}mentation open-source de BEST-RQ et r{\'e}alisons une premi{\`e}re {\'e}tude en le comparant {\`a} wav2vec 2.0 sur quatre t{\^a}ches. Nous montrons que BERT-RQ peut atteindre des performances similaires {\`a} celles de wav2vec 2.0 tout en r{\'e}duisant le temps d{'}apprentissage d{'}un facteur sup{\'e}rieur {\`a} deux.", language = "French", }