La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf