Désidentifier n’est pas anonymiser

Ce post a pour but de récapituler les informations réglementaires concernant les notions de désidentification et d’anonymisation dans le cadre du traitement automatique des langues, qui s’appuie sur des données issues de sujets humains sous la forme de textes.

L’anonymisation lève la nécessité de consentement

Les données personnelles sont dites sensibles si elles portent sur la santé (y compris données biométriques et génétiques), l’orientation sexuelle, l’appartenance religieuse, politique ou syndicale des personnes [1].

La réglementation européenne encadre de manière très stricte l’utilisation de ces données qui n’est permise qu’avec la validation d’un comité éthique et le consentement éclairé des personnes concernées. La qualification d’une base de données comme « anonyme » a un impact sur les personnes dont les données sont inclues dans la base: leur consentement n’est pas requis pour la diffusion et l’utilisation de données anonymisées.

Anonymiser, c’est rompre de façon irréversible le lien entre données et personnes

Anonymiser des données demande de garantir la conformité avec trois critères définis par la réglementation. Nous reprenons ici la formulation validée par des juristes proposée par le comité d’éthique de Sorbonne Université [2]:

  1. il ne doit pas être possible d’isoler un individu dans le jeu de données

  2. il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu

  3. il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.

Désidentifier, c’est brouiller les pistes pour cacher le lien entre données et personnes

Désidentifier permet de transformer des données personnelles de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire. Cela consiste à remplacer les données directement identifiantes (par exemple, nom, prénom) d’un jeu de données par des données indirectement identifiantes (substitut plausible, numéro séquentiel, désignation de la catégorie de données).

Comme l’explique la note du comité d’éthique de Sorbonne Université [2], la réglementation stipule que:

une correspondance avec l’identité des individus (par exemple, clé de chiffrement ou table de correspondance entre données identifiantes et substituts) doit être stockée dans un autre lieu que les données, et avec un accès contrôlé limité.

Cependant, même si cette correspondance venait à être perdue ou effacée, cela ne rend pas les données anonymes pour autant. En effet, si la possibilité de retrouver ou de reconstituer la correspondance individus/données existe, cela signifie que la ré-identification est possible. La ré-identification est considérée comme possible:

  • quels que soit les moyens à employer pour y parvenir (par exemple, l’accès à une base de donnée tierce)
  • même si la ré-identification ne concerne que certains individus

Il est important de noter que la législation relative à la protection des données personnelles reste applicable aux données désidentifiées, également appelées « données pseudonymisées ».

Et mon corpus dans tout ça?

En TAL typiquement, un corpus est considéré comme une base de données. Il est possible de désidentifier un texte en remplaçant dans le texte des données directement identifiantes, en utilisant différentes stratégies, comme présenté dans les exemples (fictifs) ci-dessous:

28 Juin 2022 – Ce jour, Mr. Martin, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Ecosse comme il nous l’avait annoncé la semaine dernière. (texte original)

<crypt_d=12056789> – Ce jour, Mr. <crypt_n=12cby567gt0987gt7h>, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Ecosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par chiffrement des données directement identifiantes)

DATE – Ce jour, Mr. X, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Écosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par remplacement des données directement identifiantes par des génériques)

14 Juin 2015 – Ce jour, Mr. Dupond, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Écosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par remplacement des données directement identifiantes par des substituts plausibles)

Dans l’ensemble de ces exemples, la connaissance externe de l’anecdote (non présentation d’un patient schizophrénique à un examen à cause d’une activité spécifique) permet la ré-identification du patient. Ce texte n’est donc pas anonyme, et n’est pas anonymisable par simple traitement des données directement identifiantes.

De manière générale, la désidentification d’un texte n’apporte aucune garantie d’anonymisation.

Références

[1] https://www.cnil.fr/fr/definition/donnee-sensible

[2] https://cer.sorbonne-universite.fr/ressources-ethiques

Le genre en recherche

Le 15 décembre, l’ANR et le CIRAD organisaient un colloque virtuel sur la thématique « le genre en recherche ». Le programme, très complet, comportait une partie « méta » sur l’évaluation de la recherche en fonction du genre de ses acteurs (le matin) et une autre partie « terrain » sur la prise en compte du genre dans des études et travaux de recherche (l’après-midi). Mon emploi du temps m’a permis d’assister aux présentations de la matinée, ainsi qu’à des bribes de l’après-midi. Ainsi, je ne manquerai pas de profiter des replays qui seront proposés sur la chaîne Youtube de l’ANR.

En attendant, voici quelques points forts que j’ai retenus de cette journée :

  • il y a une prise de conscience des organismes de la discrimination liée au genre envers les acteurs de la recherche (ANR, CIRAD, CNRS, équivalents en Suisse…)
  • il y a une mobilisation sur le plan RH avec une volonté de faire un état des lieux et de proposer des solutions. Cela se traduit notamment par le recueil de statistiques: on commence à compter sérieusement et systématiquement. La présentation de l’ANR offre notamment un retour sur la fameuse case « prise en compte du genre » remplie lors des soumissions de projets.
  • une présentation détaillée de l’étude de 2019 sur le biais dans les commissions CNRS [1] qui donne lieu à des préconisations pratiques. L’opportunité de réaliser une étude similaire avec les commissions ANR a été évoquée.
  • une moyen de corriger les biais de genre qui semble avoir fait ses preuves [1] consiste à proposer aux comités d’évaluation une formation sur les biais implicites et la problématique du genre. Il est néanmoins très important de comprendre qu’un impact positif n’est observé que si cette formation est suivie par l’ensemble des personnels et non sur la seule base du volontariat. En effet, la correction des biais n’est possible que s’il y a une véritable prise de conscience effective de leur existence.
  • les discussions lors des tables rondes ont été très riches et ont montré la problématique dans toute sa complexité, de la part d’intervenants investis. Une intervenante expose le fait que le constat des inégalités de genre donne lieu à des réactions « réflexe » de deux types: 1/ le « oui mais pas moi » (reconnaître qu’il y a un problème, mais qu’à titre individuel on n’y contribue pas) et 2/ le « oui, mais il y a pire » (reconnaître qu’il y a un problème, mais se complaire dans l’existence de statistiques ou constats plus mauvais dans d’autres disciplines, instituts, pays…). Il faut aller au delà de ça et agir sur les inégalités qui sont effectivement observées.
  • il y a beaucoup d’interrogations (pertinentes) sur « comment faire »?
  • le constat sur le déséquilibre entre compétence et confiance en soi pour les femmes suggère que les femmes bénéficieraient de participer à des réseaux permettant de leur donner confiance, de diminuer l’autocensure qu’elles s’infligent et d’être plus présentes dans des activités à responsabilité. Néanmoins, il est également salutaire de reconnaître qu’il ne faut pas exclusivement rejeter la responsabilité de la solution sur les femmes, car la présence des inégalités est systémique. Les études montrent qu’il y a une inégalité genrée de perception des personnes qui fait par exemple que des actions perçues positivement lorsqu’elles sont accomplies par des hommes sont perçues négativement lorsqu’elles sont le fait de femmes.
  • les intervenants membres de commissions d’évaluation soulignent également que la méthode des « quotas » pour imposer la diversité au sein des commissions pose un problème complexe. Un intérêt majeur de la mixité est de présenter aux candidat.e.s évalué.e.s par les commissions des « modèles » diversifiés qui leur permettent de se projeter dans ces rôles et de montrer que la communauté scientifique a vocation à être diverse. Cependant, il ne faut pas oublier que l’ensemble de la population est sujette aux mêmes biais genrés: la diversité de composition ne rend pas nécessairement une commission moins biaisée. Enfin, la sous représentation des femmes dans les postes permanents et à responsabilité fait qu’elles sont sur-sollicitées pour participer à des commissions. Le taux de réponse positive pour participer à une commission est de 1/2 pour les hommes contre 1/5 pour les femmes. D’une part il parait injuste d’imposer aux femmes de consacrer une partie plus importante de leur temps à des commissions au détriment d’autres activités comme la recherche, mais d’autre part, ne pas y participer renforce leur absence de rôles visibles et valorisés.

Sans remettre en cause l’intérêt de cette journée, très riche, on peut relever un petit bémol au niveau de l’organisation des interactions entre le public et les intervenants. Un chat permettait de faire des commentaires transmis aux seuls organisateurs (ni les intervenants ni les participants ne voyaient les commentaires). La gestion du temps a fait que ces commentaires/questions n’ont pu avoir qu’une place limitée. Il aurait été intéressant de pouvoir disposer d’un chat public dans lequel davantage d’interactions auraient été possibles. Par ailleurs, j’ai également été surprise de constater que toutes les études présentées le matin se placent (sans le dire) dans une représentation binaire du genre – ce qui correspond au cadre de la norme européenne, mais constitue un biais dont nous avons déjà parlé. Les études présentées l’après-midi, qui s’appuient sur des méthodologies de sociologie pour le recueil des données, semblent fournir des outils pour éviter cet écueil. Pour ce qui est du traitement automatique de la langue, des recommandations ont également été faites dans le cadre de l’atelier « Ethics in NLP » [2].

Références

[1] Régner I, Thinus-Blanc C, Netter A, Schmader T, Huguet P. Committees with implicit biases promote fewer women when they do not believe gender bias exists. Nat Hum Behav 3, 1171–1179 (2019).

[2] Larson B. Gender as a Variable in Natural-Language Processing: Ethical Considerations . 2017. Proc. « Ethics in NLP » EACL workshop.

Diversité dans la communauté du Traitement Automatique de la Langue

Il y a presque quatre ans, nous abordions sur ce blog le sujet de la diversité dans la communauté du traitement automatique de la langue. Il en ressortait que les données pour observer la diversité étaient difficiles à trouver et qu’une grande marge d’amélioration existait. Ces points restent d’actualité.

La question du genre en TAL

Cette année, la conférence ACL a sollicité des réflexions sur sur les progrès du domaine et sur les directions à prendre en tant que communauté. Dans ce cadre, Saif Mohammad du Conseil National de Recherches au Canada a réalisé une étude bibliographique sur les articles publiés dans l’anthologie ACL [1]. Les résultats suggèrent une disparité persistante dans la présence des femmes parmi les auteur·e·s d’articles (29,7 %) et dans les taux de citation : en moyenne, les articles ayant un homme comme premier auteur sont cités plus de 50 fois, contre 37 seulement pour les articles ayant une femme comme première autrice. Si l’article ne propose pas d’explication à ces observations, des commentaires observés sur Twitter suite à la deuxième présentation invitée de la conférence illustrent ce phénomène :

Les conversations autour de l’article font état de fortes réserves éthiques sur la méthodologie utilisée pour caractériser le genre. L’article distingue les genres homme/femme et s’appuie sur des listes issues du recensement et d’études précédentes pour distinguer les prénoms féminins masculins et épicène/inconnu. Les critiques font état de deux problèmes majeurs. Tout d’abord, l’utilisation d’une caractérisation binaire a pour conséquence une négation de l’existence des genres non binaires. Il en découle une atteinte à la représentation des personnes par l’utilisation d’une méthode automatique de classification en genre, qui repose sur l’hypothèse que le genre peut être déterminé par des caractéristiques observables plutôt que par le ressenti des personnes. Cette critique s’applique à toute méthode automatique de reconnaissance du genre, telle que la reconnaissance de la parole ou l’analyse d’image, qui a déjà fait l’objet d’une étude spécifique [2].

Il est suggéré dans la conversation que la seule méthode éthiquement acceptable pour déterminer le genre est de demander directement aux personnes concernées comment elles s’identifient. Cela peut s’avérer difficile à réaliser sur une large échelle, en particulier dans le temps (absence de réponse des personnes, décès…).

Ces réflexions incitent à prendre du recul pour envisager que si ce qui n’est pas compté ne compte pas, comment considérer ce qui ne peut pas être compté?

Biais implicite

L’utilisation inadéquate de méthodes de classification en genre peut s’expliquer par la prévalence dans la culture occidentale de la représentation binaire du genre. En effet, les individus sont sujets au biais implicite de l’absence de genre non binaire véhiculé culturellement.

Dans le cadre de l’atelier Ethique et TRaitemeNt Automatique des Langues (ETeRNAL) à Nancy en Juin, nous avons proposé une introduction à la notion de biais implicite avec la participation à un test d’association implicite élaboré par le collectif Project Implicit. Cette expérience a montré que la distribution des résultats des participants ETeRNAL au test d’association implicite « Gender and Science » reflète celle observée sur un grand nombre de participants du Project Implicit : le genre masculin est majoritairement associé avec la discipline scientifique alors que le genre féminin est majoritairement associé avec la discipline artistique (61 % des participants). Les participants d’ETeRNAL indiquent cependant que leur conviction consciente est qu’il n’y pas d’association entre genre et discipline (95 % des participants).

L’importance de la prise de conscience de l’existence de biais implicites, en particulier genrés, a été démontrée par une étude récente sur les pratiques des commissions de recrutement du CNRS [3]. Cette étude montre que les commissions ayant reçu une formation sur les biais implicites aboutissent à des recrutements moins biaisés que les commissions n’ayant pas bénéficié de la formation.

Ainsi, en tant que communauté scientifique, il convient de ne pas négliger ces questions et de continuer nos efforts pour favoriser et valoriser la diversité.

Références:

[1] Mohammad S. Gender Gap in Natural Language Processing Research: Disparities in Authorship and Citations. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7860–7870

[2] Keyes O. 2018. The Misgendering Machines: Trans/HCI Implications of Automatic Gender Recognition. Proc. ACM Hum.-Comput. Interact. 2, CSCW, Article 88 (November 2018), 22 pages.

[3] Régner I, Thinus-Blanc C, Netter A, Schmader T, Huguet P. Committees with implicit biases promote fewer women when they do not believe gender bias exists. Nat Hum Behav 3, 1171–1179 (2019).

Pour la valorisation de la diversité de notre communauté scientifique

Nous avons fait l’année dernière un état des lieux de la représentation des femmes dans les instances de la communauté TAL. Sans surprise, nous avions conclu à un déséquilibre: les femmes sont sous représentées, notamment dans des rôles à forte visibilité comme les conférences invitées ou les présidences diverses. Et s’il s’agissait au moins en partie d’une question de confiance?

Le décalage dans la confiance en soi des hommes et des femmes a des conséquences sur l’avancement de carrière des femmes [1]. Des études scientifiques montrent la différence de perception entre la compétence des femmes et des hommes par les individus concernés et par leurs pairs: à compétence égale, les femmes sont perçues comme moins compétentes que les hommes. Cet état d’esprit est une source d’auto-censure pour se présenter – et pour obtenir – une reconnaissance professionnelle sous forme de prix, de prime, d’avancement de carrière. Des données anecdotiques récentes abondent également dans ce sens: pour un prix national d’économie sélectionnant un lauréat.e parmi des candidat.e.s auto-proclamé.e.s, seuls 8 dossiers de candidature sur 42 (soit 19%)  ont été soumis par des femmes [2].

La bonne nouvelle, c’est qu’il ne tient qu’à nous de faire évoluer cette situation et d’être pro-actifs pour améliorer la diversité et l’égalité au sein de notre communauté.

L’association ELRA (European Language Resources Association) sollicite actuellement des nominations pour le prix Antonio Zampolli, qui récompense des travaux sur les ressources langagières et l’évaluation des technologies de la langue. La liste des lauréat.e.s comporte 9 collègues… dont 8 hommes  et 1 femme (en co-nomination). On peut également noter que 7 des lauréat.e.s sont rattachés à une institution américaine et 2 rattachés à une institution britannique.

La diversité des candidats examinés à chaque session en termes de géographie ou de genre n’est pas indiquée sur le site. Cependant, nous avons cette année l’opportunité  de faire en sorte que le comité puisse examiner des contributions reflétant la diversité de notre communauté.  Je vous invite donc à nominer et à faire nominer des collègues méritant.e.s. N’hésitez pas à laisser vos suggestions en commentaires si cela peut donner des idées à d’autres pour appuyer une nomination. La date limite de réception des candidatures par ELRA est le 1er février 2018.

Références:
[1] Kay K, Shipman C. The confidence Gap. The Atlantic. May 2014.
[2] La conférence des économistes. Le prix du meilleur jeune économiste 2017. Le Monde. 22 Mai 2017.