Une porte-parole générée par IA – un point de vue féministe

Le 1er mai 2024, le ministère des affaires étrangères ukrainien a publié une vidéo sur les réseaux sociaux, présentant leur nouvelle porte parole, Victoria Shi. Celle-ci possède toutefois une particularité : il s’agit d’une avatar générée par intelligence artificielle. D’après plusieurs articles, elle n’est toutefois pas entièrement le produit d’une génération, car elle serait inspirée d’une chanteuse et influenceuse ukrainienne, Rosalie Nombre. De plus, ses propos ne sont pas générés par des modèles de langue, mais ils sont prétendument rédigés par des membres (humains) du gouvernement.

Beaucoup de médias se sont emparés de cette information, qui relate d’une première mondiale, en questionnant ce choix. Néanmoins, nous ne nous attarderons pas sur l’aspect discutable d’utiliser une IA comme porte-parole (le terme anglais spokesPERSON révèle d’autant plus le paradoxe d’un tel choix). Nous souhaitons ici aborder le sujet avec une approche différente, discutant les implications du choix du genre féminin de cette avatar, qui amène une résonance différente que s’il s’agissait d’un homme virtuel.

En effet, cette avatar a l’apparence d’une femme et est présentée comme telle (et il est intéressant de noter qu’il n’est pas surprenant que cette IA soit une femme, c’était presque attendu). Le corps féminin est alors utilisé uniquement pour son visuel, son image. C’est d’ailleurs d’autant plus frappant qu’il s’agit du corps d’une femme réelle, mais qui n’a pas été embauchée. Seule son image a été retenue, qu’on utilise comme une façade, une coquille vide à laquelle on fait dire ce que l’on souhaite. Cette utilisation de la féminité n’est pas sans rappeler le cas d’assistants virtuels comme Alexa, Siri ou les voix par défaut de Google Maps et autres GPS, qui avaient déjà posé question [1]. L’apparence féminine est encore une fois utilisée dans sa superficialité, en mettant en avant son caractère rassurant et attrayant, ravivant ainsi des stéréotypes de genre. Cette avatar agit ainsi comme une poupée, littéralement contrôlée par d’autres individus, dont on peut supposer qu’ils sont majoritairement des hommes, atteignant ainsi le fantasme sexiste d’une femme complètement soumise et passive, sans personnalité, agentivité ou volonté propre, et entièrement manipulée par des hommes. La notion de « femme virtuelle » évoque d’ailleurs des associations avec des IA féminines sexualisées, conçues dans une optique de «séduction», voire d’objets sexuels. (Une simple recherche sur Internet confirme cette intuition – voir captures en fin d’article.)

On peut même mener la réflexion plus loin, en se demandant s’il s’agit là d’une stratégie pour mettre en avant une certaine diversité, puisqu’il s’agit d’une femme, qui plus est métisse. Cela pourrait remettre en question la notion de quota et de diversité, qui serait dès à présent atteinte par l’utilisation de physiques divers, et non d’individus. Cette observation est à relier au fait que, parmi les 10 précédents porte-paroles du ministère des affaires étrangères, on compte 8 hommes et seulement 2 femmes. Autrement dit, plutôt que d'embaucher une femme réelle, et plus encore, une femme métisse réelle, il a été décidé de la générer. Son apparence est donc utilisée comme un simple outil, pour attirer la sympathie, mais sans impliquer l’existence et l'embauche d’une femme noire réelle. On ne bénéficie ainsi que d’aspects bénéfiques superficiels de la médiatisation d’une femme de couleur, sans pour autant prendre en compte les opinions d’une membre de cette population, sans participer à une forme de progrès social. La diversité et le feminism-washing à leur paroxysme : on utilise l’apparence d’une femme pour se donner bonne image, sans mesurer l’intérêt d’avoir une porte-parole qui serait une femme de couleur réelle.

Résultat du moteur de recherche Google pour la requête « femme virtuelle »
Résultat du moteur de recherche Google pour la requête « homme virtuelle »
Résultat de Google Image pour la requête « virtual woman »
Résultat de Google Image pour la requête « virtual man »
https://twitter.com/yoongienthusias/status/1780166190817583150

Références

[1] Nóra Ni Loideain, Rachel Adams. From Alexa to Siri and the GDPR: The gendering of Virtual Personal Assistants and the role of Data Protection Impact Assessments. Computer Law & Security Review, Volume 36, 2020. https://doi.org/10.1016/j.clsr.2019.105366.

Désidentifier n’est pas anonymiser

Ce post a pour but de récapituler les informations réglementaires concernant les notions de désidentification et d’anonymisation dans le cadre du traitement automatique des langues, qui s’appuie sur des données issues de sujets humains sous la forme de textes.

L’anonymisation lève la nécessité de consentement

Les données personnelles sont dites sensibles si elles portent sur la santé (y compris données biométriques et génétiques), l’orientation sexuelle, l’appartenance religieuse, politique ou syndicale des personnes [1].

La réglementation européenne encadre de manière très stricte l’utilisation de ces données qui n’est permise qu’avec la validation d’un comité éthique et le consentement éclairé des personnes concernées. La qualification d’une base de données comme « anonyme » a un impact sur les personnes dont les données sont inclues dans la base: leur consentement n’est pas requis pour la diffusion et l’utilisation de données anonymisées.

Anonymiser, c’est rompre de façon irréversible le lien entre données et personnes

Anonymiser des données demande de garantir la conformité avec trois critères définis par la réglementation. Nous reprenons ici la formulation validée par des juristes proposée par le comité d’éthique de Sorbonne Université [2]:

  1. il ne doit pas être possible d’isoler un individu dans le jeu de données

  2. il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu

  3. il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.

Désidentifier, c’est brouiller les pistes pour cacher le lien entre données et personnes

Désidentifier permet de transformer des données personnelles de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire. Cela consiste à remplacer les données directement identifiantes (par exemple, nom, prénom) d’un jeu de données par des données indirectement identifiantes (substitut plausible, numéro séquentiel, désignation de la catégorie de données).

Comme l’explique la note du comité d’éthique de Sorbonne Université [2], la réglementation stipule que:

une correspondance avec l’identité des individus (par exemple, clé de chiffrement ou table de correspondance entre données identifiantes et substituts) doit être stockée dans un autre lieu que les données, et avec un accès contrôlé limité.

Cependant, même si cette correspondance venait à être perdue ou effacée, cela ne rend pas les données anonymes pour autant. En effet, si la possibilité de retrouver ou de reconstituer la correspondance individus/données existe, cela signifie que la ré-identification est possible. La ré-identification est considérée comme possible:

  • quels que soit les moyens à employer pour y parvenir (par exemple, l’accès à une base de donnée tierce)
  • même si la ré-identification ne concerne que certains individus

Il est important de noter que la législation relative à la protection des données personnelles reste applicable aux données désidentifiées, également appelées « données pseudonymisées ».

Et mon corpus dans tout ça?

En TAL typiquement, un corpus est considéré comme une base de données. Il est possible de désidentifier un texte en remplaçant dans le texte des données directement identifiantes, en utilisant différentes stratégies, comme présenté dans les exemples (fictifs) ci-dessous:

28 Juin 2022 – Ce jour, Mr. Martin, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Ecosse comme il nous l’avait annoncé la semaine dernière. (texte original)

<crypt_d=12056789> – Ce jour, Mr. <crypt_n=12cby567gt0987gt7h>, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Ecosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par chiffrement des données directement identifiantes)

DATE – Ce jour, Mr. X, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Écosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par remplacement des données directement identifiantes par des génériques)

14 Juin 2015 – Ce jour, Mr. Dupond, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Écosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par remplacement des données directement identifiantes par des substituts plausibles)

Dans l’ensemble de ces exemples, la connaissance externe de l’anecdote (non présentation d’un patient schizophrénique à un examen à cause d’une activité spécifique) permet la ré-identification du patient. Ce texte n’est donc pas anonyme, et n’est pas anonymisable par simple traitement des données directement identifiantes.

De manière générale, la désidentification d’un texte n’apporte aucune garantie d’anonymisation.

Références

[1] https://www.cnil.fr/fr/definition/donnee-sensible

[2] https://cer.sorbonne-universite.fr/ressources-ethiques