Modèles de langage étendus : amélioration des capacités avec l'encodeur audio

Les grands modèles linguistiques (LLM) sont devenus de plus en plus populaires depuis l'introduction de ChatGPT d'OpenAI. Ces modèles excellent dans diverses tâches telles que répondre à des questions, résumer du texte, traduire des langues, etc. Les LLM sont construits sur des sous-domaines de l'intelligence artificielle, notamment le traitement du langage naturel, la compréhension du langage naturel, la vision par ordinateur, etc.

Les LLM s'entraînent en prédisant le mot suivant dans de grandes quantités de données textuelles. Cette formation leur permet d’encoder une quantité importante de connaissances sur le monde au sein de leurs réseaux de neurones. En conséquence, les LLM sont utiles pour un large éventail de tâches.

Des recherches récentes ont poussé les capacités LLM encore plus loin en incorporant un encodeur audio dans le modèle. Cela permet au LLM d'effectuer des tâches de reconnaissance vocale automatique (ASR) et de traduire la communication orale en texte. En intégrant directement des représentations de données audio dans les intégrations de jetons de texte existantes, le LLM acquiert des capacités de reconnaissance vocale similaires à celles de son homologue textuel.

L'équipe de recherche a démontré l'efficacité de cette approche en analysant les sorties de l'encodeur audio et en confirmant la correspondance précise des intégrations audio avec les jetons de texte correspondants. L’équipe a utilisé l’ensemble de données Multilingual LibriSpeech (MLS) pour l’évaluation et a constaté que le LLM ajusté, connu sous le nom de LLaMA-7B, surpassait de 18 % les lignes de base monolingues dans les tâches de reconnaissance vocale.

En plus de l'évaluation des performances, la recherche a également exploré d'autres aspects du LLM augmenté. Les essais d'ablation ont montré que le LLM peut toujours être performant dans les tâches ASR multilingues, même lorsqu'il est gelé pendant l'entraînement, sans modifier ses paramètres.

L’équipe a également étudié les effets de la mise à l’échelle de l’encodeur audio et de l’ajustement des paramètres associés au fractionnement audio. Ces tests visaient à améliorer l’efficience et l’efficacité du système ASR. Les résultats ont montré que les LLM peuvent traiter des entrées audio de longue durée, même avec des encodeurs audio plus grands ou des foulées plus longues.

Dans l’ensemble, la recherche démontre la promesse de l’utilisation des LLM avec des encodeurs audio pour améliorer les capacités ASR multilingues. Grâce aux progrès du traitement audio, les LLM ont le potentiel de gérer un large éventail de tâches audio de manière efficace et efficiente.