OpenAI offre une prime de bogue pour ChatGPT – mais aucune récompense pour le jailbreak de son chatbot

OpenAI a lancé un prime de bogue, encourageant les membres du public à trouver et à divulguer les vulnérabilités de ses services d’IA, y compris ChatGPT. Les récompenses vont de 200 $ pour les « découvertes peu graves » à 20 000 $ pour les « découvertes exceptionnelles », et les rapports peuvent être soumis via une plateforme de cybersécurité de crowdsourcing Foule d’insectes.

Notamment, la prime exclut les récompenses pour avoir jailbreaké ChatGPT ou l’avoir amené à générer du code ou du texte malveillant. « Les problèmes liés au contenu des invites et des réponses du modèle sont strictement hors de portée et ne seront pas récompensés », déclare OpenAI. Page de la foule de bogues.

Jailbreaking ChatGPT implique généralement la saisie de scénarios élaborés dans le système qui lui permettent de contourner ses propres filtres de sécurité. Il peut s’agir d’encourager le chatbot à jouer le rôle de son «jumeau maléfique», permettant à l’utilisateur d’obtenir des réponses autrement interdites, comme des discours de haine ou des instructions pour fabriquer des armes.

OpenAI dit que de tels « problèmes de sécurité des modèles ne s’intègrent pas bien dans un programme de primes de bogues, car ce ne sont pas des bogues individuels et discrets qui peuvent être directement corrigés ». L’entreprise note que « la résolution de ces problèmes implique souvent des recherches substantielles et une approche plus large » et que les rapports concernant de tels problèmes doivent être soumis via le service de l’entreprise. page de commentaires sur le modèle.

Bien que ces jailbreaks démontrent les vulnérabilités plus larges des systèmes d’IA, ils sont probablement moins problématiques directement pour OpenAI que les failles de sécurité traditionnelles. Par exemple, le mois dernier, un hacker connu sous le nom de rez0 a pu révéler 80 « plugins secrets » pour l’API ChatGPT – des modules complémentaires inédits ou expérimentaux pour le chatbot de l’entreprise. (Rez0 a noté que la vulnérabilité avait été corrigée un jour après l’avoir divulguée sur Twitter.)

En tant qu’utilisateur unique a répondu au fil de tweet : « S’ils avaient seulement un programme #BugBounty payant – je suis certain que la foule pourrait les aider à attraper ces cas extrêmes à l’avenir 🙂 »


source site-132