Impact éthique | Notre université

Exploitation du travail dans la formation des ensembles de données

Derrière les résultats raffinés de l’IA se cache une réalité troublante : le travail racisé et exploité. De nombreux ensembles de données d’IA sont améliorés par des travailleurs du Sud qui sont payés de faibles salaires pour passer en revue des contenus perturbants et traumatisants, en signalant les contenus racistes, sexistes et offensants afin de rendre l’IA « sûre » pour les utilisateurs. Ce travail invisible est essentiel, mais il est sous-évalué et souvent préjudiciable pour ceux qui l’effectuent.

De plus, les processus de formation de l’IA peuvent renforcer les préjugés sexistes. Comme le révèle le projet « Excavating AI » (Creuser l’IA) de Kate Crawford et Trevor Paglen, de nombreux ensembles de données partent du principe qu’il n’existe que des identités de genre binaires, effaçant ainsi les expériences vécues par les personnes non binaires et de genre divers.

Exploitation du travail des utilisateurs et de la propriété intellectuelle

Les systèmes d’IA tels que ChatGPT dépendent fortement des interactions des utilisateurs pour améliorer leurs performances. Les fonctionnalités telles que les évaluations positives/négatives constituent une forme de travail collaboratif non rémunéré, qui ajoute de la valeur commerciale sans compensation. Ce modèle d’exploitation profite aux entreprises, tandis que les utilisateurs contribuent sans le savoir au développement des produits.

Les préoccupations concernant la propriété intellectuelle et les droits d’auteur sont également de plus en plus nombreuses. Le contenu généré par l’IA est souvent construit à partir d’œuvres existantes (textes, images et idées) sans attribution ni consentements appropriés. Cela soulève des questions éthiques concernant la propriété, l’originalité et les droits des créateurs.

Vie privée menacée

Les modèles d’IA peuvent involontairement exposer des renseignements privés ou sensibles. Même lorsqu’ils ne sont pas recueillis intentionnellement, les renseignements personnels peuvent se retrouver dans les ensembles d’apprentissages à la suite de fuites de données ou de publications publiques. Comme le soulignent les chercheurs de DeepMind, cela peut entraîner des atteintes à la vie privée entraînant des conséquences dans le monde réel.

Les risques comprennent :

les violations de données provenant de plateformes d’hébergement vulnérables;
les divulgations involontaires en raison d’entrées mal interprétées;
l’accès par des parties tierces par le biais des services intégrés.

Conçus pour ceux qui sont privilégiés

Les systèmes d’IA sont souvent conçus pour servir ceux qui détiennent le plus de pouvoir et de privilèges. Des appareils sur lesquels ils fonctionnent aux langues qu’ils prennent en charge, les GML s’adressent à des utilisateurs aisés et technophiles. En revanche, les communautés les plus touchées par les conséquences environnementales et sociales négatives de l’IA sont rarement consultées ou prises en compte dans sa conception.

Discrimination en matière d’accès : qui est laissé pour compte?

L’accès à l’IA n’est pas universel. À mesure que les GML sont de plus en plus privatisés et commercialisés, l’accès est conditionné par :

les inégalités géopolitiques en matière d’accès à Internet et aux appareils;
les disparités entre les sexes, qui touchent particulièrement les femmes et les filles;
les obstacles pour les utilisateurs souffrant d’un handicap, en raison d’une conception peu accessible;
la censure dans les régimes autoritaires;
les modèles freemium, où la qualité dépend de la capacité à payer.

DeepMind, un groupe de réflexion de Google, a mis en garde contre « l’accès inégal aux avantages en raison des contraintes matérielles, logicielles et de compétences ». À mesure que l’IA devient une porte d’accès aux opportunités, ces divisions ne feront que s’accentuer.

Boucles de rétroaction de l’inégalité

Les GML apprennent de leurs utilisateurs — mais si les premiers utilisateurs sont majoritairement privilégiés, les modèles refléteront et renforceront ces perspectives. Cela crée une boucle de rétroaction où :

les voix marginalisées sont exclues;
les préjugés sont amplifiés;
les barrières d’accès sont reproduites.

Sans une conception intentionnelle axée sur l’équité, l’intelligence artificielle continuera de reproduire des préjudices validistes, genrés, génocidaires, racistes et classistes.

Données centrées sur l’Occident = Connaissances biaisées

La plupart des modèles de langage sont entraînés sur des ensembles de données occidentaux et en anglais, intégrant ainsi les normes culturelles dominantes dans leurs résultats. Cela entraîne :

l'effacement des histoires et des systèmes de connaissances non occidentaux;
le renforcement des idéologies coloniales, capitalistes et patriarcales;
la recolonisation des espaces numériques par la reproduction de savoirs biaisés.

Alors que l’IA devient un outil pour l’éducation, la gouvernance et la communication, ces préjugés ont des conséquences concrètes dans le monde réel.

Normes toxiques et usages malveillants

Les modèles de langage peuvent être utilisés pour diffuser de la désinformation, faciliter la fraude et amplifier des stéréotypes nocifs. DeepMind a identifié plusieurs risques, notamment :

l’exploitation de la confiance des utilisateurs;
la promotion de stéréotypes liés au genre et à l’origine ethnique;
le soutien à la surveillance, à la censure et aux cyberattaques.

Même les usages bien intentionnés peuvent causer du tort lorsque les modèles sont entraînés sur des normes culturelles toxiques.

Préjudices systémiques à travers la société

Les risques éthiques liés aux modèles de langage ne sont pas abstraits — ils se manifestent concrètement dans :

les politiques publiques façonnées par des données biaisées;
l'éducation qui efface les histoires marginalisées;
l'emploi qui automatise les postes à bas salaire;
les décisions en matière de logement et de soins de santé médiées par des algorithmes défaillants;
les plateformes de rencontres et sociales qui renforcent l’exclusion.

Ces préjudices sont cumulatifs, non isolés. À mesure que l’IA devient plus puissante, son potentiel à creuser les inégalités existantes augmente également.

Vers une IA éthique

L’impact éthique de l’intelligence artificielle reflète nos valeurs culturelles. Allons-nous :

Prioriser le profit au détriment des personnes?
Utiliser la surveillance et le contrôle pour gérer les préjudices?
Reporter la responsabilité sur les forces du marché?

Ou choisirons-nous de placer la justice, l’équité et le soin au cœur de la conception et du déploiement de l’IA?

Pour bâtir un avenir avec une IA plus juste, nous devons :

garantir un accès équitable par-delà la géographie, le genre et les capacités;
diversifier les données d’entraînement et mettre au centre les voix marginalisées;
protéger la vie privée et la propriété intellectuelle;
tenir les développeurs responsables des préjudices causés;
résister à la marchandisation du savoir et du travail.

L’IA ne doit pas être un outil d’oppression — elle doit se doit d’'être un outil de libération.

Considérations liées aux risques des grands modèles de langage

« Certaines considérations liées aux risques des grands modèles de langage (LLMs) » par Rebecca Sweetman est sous licence CC BY-NC-SA 4.0 International.