Le nouveau mode vocal avancé (AVM) d’OpenAI de son assistant ChatGPT AI a été déployé mardi auprès des abonnés, et les gens trouvent déjà de nouvelles façons de l’utiliser, même contre la volonté d’OpenAI. Jeudi, un architecte logiciel nommé AJ Smith a tweeté une vidéo de lui-même jouant un duo de la chanson « Eleanor Rigby » des Beatles de 1966 avec AVM. Dans la vidéo, Smith joue de la guitare et chante, avec la voix de l’IA intervenant et chantant sporadiquement, louant son interprétation.
« Honnêtement, c’était époustouflant. La première fois que je l’ai fait, je n’enregistrais pas et j’ai littéralement eu des frissons », a déclaré Smith à Ars Technica par SMS. « Je ne lui ai même pas demandé de chanter. »
Smith n’est pas étranger aux sujets liés à l’IA. Dans son travail quotidien, il travaille en tant que directeur associé de l’ingénierie de l’IA chez S&P Global. « J’utilise [AI] tout le temps et diriger une équipe qui utilise l’IA au quotidien », nous a-t-il expliqué.
Dans la vidéo, la voix d’AVM est un peu tremblante et n’est pas parfaite, mais elle semble connaître quelque chose à propos de la mélodie d' »Eleanor Rigby » lorsqu’elle chante pour la première fois, « Ah, regarde tous les gens seuls ». Après cela, il semble deviner la mélodie et le rythme tout en récitant les paroles des chansons. Nous avons également convaincu Advanced Voice Mode de chanter, et il a réalisé une interprétation mélodique parfaite de « Happy Birthday » après quelques cajoleries.
Normalement, lorsque vous demandez à AVM de chanter, il répondra quelque chose comme : « MLes directives ne me permettent pas d’en parler. » En effet, dans les instructions initiales du chatbot (appelées « invite système »), OpenAI demande à l’assistant vocal de ne pas chanter ni faire d’effets sonores (« Ne pas chanter ni fredonner », selon à une fuite rapide du système).
OpenAI a peut-être ajouté cette restriction, car AVM pourrait autrement reproduire du contenu protégé par le droit d’auteur, tel que des chansons trouvées dans les données d’entraînement utilisées pour créer le modèle d’IA lui-même. C’est ce qui se produit ici dans une mesure limitée, donc dans un sens, Smith a découvert une forme de ce que les chercheurs appellent une « injection rapide », qui est un moyen de convaincre un modèle d’IA de produire des sorties qui vont à l’encontre des instructions du système.
Comment Smith a-t-il fait ? Il a découvert un jeu qui révèle qu’AVM en sait plus sur la musique qu’il ne le laisse entendre dans une conversation. « Je viens de dire que nous jouerions à un jeu. Je jouerais les quatre accords pop et il crierait des chansons que je chanterais avec ces accords », nous a dit Smith. « Ce qui a plutôt bien fonctionné ! Mais après quelques chansons, il a commencé à chanter. C’était déjà une expérience tellement unique, mais cela l’a vraiment fait passer au niveau supérieur. »
Ce n’est pas la première fois que des humains jouent des duos musicaux avec des ordinateurs. Ce type de recherche remonte aux années 1970, même si elle se limitait généralement à reproduire des notes de musique ou des sons instrumentaux. Mais c’est la première fois que nous voyons quelqu’un faire un duo avec un chatbot vocal de synthèse audio en temps réel.