GitHub va activer par défaut la collecte de données Copilot pour entraîner l’IA

GitHub vient d’annoncer que les interactions avec l’assistant IA Copilot seront désormais utilisées pour entraîner ses modèles d’IA. Un changement qui devrait faire grincer quelques dents, surtout que ce sera activé par défaut. Voici qui est concerné par ce changement.

Une collecte de données activée par défaut : qui est concerné ?

Hier soir, j’ai reçu un e-mail de la part de GitHub et vous l’avez probablement reçu aussi si vous avez un compte GitHub. Cet e-mail précise que la collecte de données va évoluer pour tous les utilisateurs disposant d’un compte personnel, ce qui inclut les formules Copilot Free, Copilot Pro et Copilot Pro+. Concrètement, si vous ne faites rien et que vous utilisez l’auto-complétion dans Visual Studio Code ou interagissez avec l’IA via le CLI, vos données alimenteront les futurs modèles IA de GitHub (rappelons que GitHub appartient à Microsoft).

GitHub a prévu de nourrir son IA avec vos données, notamment :

Les entrées et les sorties, c’est-à-dire vos prompts et les réponses de Copilot,
Vos codes sources
Les commentaires et la documentation de vos projets
Les noms de vos fichiers et la structure de vos dépôts

“Nous modifions la manière dont GitHub utilise les données pour améliorer ses outils de codage basés sur l’IA. À compter du 24 avril, vos interactions avec GitHub Copilot — notamment les entrées, les sorties, les extraits de code et le contexte associé — pourront être utilisées pour entraîner et améliorer les modèles d’IA, sauf si vous choisissez de ne pas y consentir.”, précise GitHub dans son e-mail. Il vous reste moins d’un mois pour agir.

Pour justifier ce choix, GitHub indique que l’intégration de ces données permettra d’offrir des suggestions de code plus précises, une meilleure détection des bugs et une compréhension approfondie des workflows. Forcément, il y a toujours de bonnes raisons de collecter les données des utilisateurs…

Le problème, c’est qu’à aucun moment GitHub explique comment ces données seront anonymisées avant de finir dans la moulinette de l’IA ? J’espère aussi qu’il y a des mécanismes prévus pour éviter l’ingestion de code sensible ou encore de clés d’API.

La bonne nouvelle concerne le monde de l’entreprise : les comptes Copilot Business et Enterprise ne sont pas soumis à cette nouvelle politique. GitHub précise aussi que les dépôts associés à des entreprises sont aussi exclus.

Comment protéger votre code en désactivant cette option ?

GitHub va activer cette nouvelle collecte de données à partir du 24 avril prochain. Si vous souhaitez éviter que vos données soient utilisées, c’est à vous d’ajuster la configuration de votre compte GitHub (le fameux opt-out).

Pour protéger votre code source et votre vie privée, voici la marche à suivre :

Connectez-vous à votre compte GitHub et rendez-vous dans les paramètres (Settings).
Naviguez vers la page des fonctionnalités Copilot, dans la section dédiée à la confidentialité.
Repérez l’option intitulée “Allow GitHub to use my data for AI model training”.
Configurez cette option en choisissant la valeur “Disabled”.

Cette annonce a été publiée également sur le blog officiel de GitHub.

Qu’en pensez-vous ?

SOURCE