Microsoft LASER élimine les inexactitudes du LLM

Durant le mois de janvier Forum de recherche MicrosoftDipendra Misra, chercheur principal au Microsoft Research Lab NYC et AI Frontiers, a expliqué comment la réduction de classement sélective par couche (ou LASER) peut rendre les grands modèles de langage plus précis.

Avec LASER, les chercheurs peuvent « intervenir » et remplacer une matrice de poids par une autre plus petite. Les poids sont les connexions contextuelles établies par les modèles. Plus le poids est lourd, plus le modèle en dépend. Alors, remplacer quelque chose par plus de corrélations et de contextes rend-il le modèle moins précis ? Sur la base des résultats de leurs tests, la réponse, étonnamment, est non.

« Nous effectuons des interventions en utilisant LASER sur le LLM, donc on pourrait s’attendre à ce que la perte du modèle augmente à mesure que nous faisons plus d’approximation, ce qui signifie que le modèle va mal fonctionner, n’est-ce pas, parce que nous rejetons les informations d’un LLM. , qui est formé sur de grandes quantités de données », a déclaré Misra. « Mais à notre grande surprise, nous constatons que si le bon type d’intervention LASER est effectué, la perte du modèle n’augmente pas mais diminue en fait. »

Misra a déclaré que son équipe a utilisé avec succès LASER sur trois modèles open source différents : RoBERTa, Llama 2 et GPT-J d’Eleuther. Il a dit que, parfois, l’amélioration du modèle augmentait de 20 à 30 points de pourcentage. Par exemple, les performances du GPT-J pour la prédiction du genre basée sur les biographies sont passées d’une précision de 70,9 % à 97,5 % après une intervention LASER.

source site-132