Relecture par les pairs : un état de l’art

Spread the love

Nous en discutons entre nous depuis presque un an, le sujet va et vient, la motivation pour écrire aussi… nous avons tant de choses à dire,
à contredire !

Je me lance, donc, en espérant de l’aide — Aurélie Névéol a répondu présente, ceci est donc un article à quatre mains — : quels sont les mécanismes possibles de relecture par les pairs ? ceux qui sont appliqués autour de nous ?  les options (auxquelles nous ne pensons même pas) ? leurs avantages ? leurs inconvénients ? y a-t-il des études menées sur le sujet ?
Bref, des données ! (#datalove)

Méthodes de relecture par les pairs

Il existe quatre principaux types de fonctionnement des relectures par les pairs, prenant en compte l’anonymat ou non des auteurs.trices et/ou des relecteurs.trices. On a ainsi :

  1. le double ouvert  : les auteurs.trices ne sont pas anonymes pour les relecteurs.trices et les relecteurs.trices signent leur relecture (les auteurs.trices savent qui les a relus). C’est le cas de certaines revues du groupe BMC, comme BMC Medical Informatics and Decision Making (qui comptait le 15/03/2017 186 articles publiés sur une thématique de TAL biomédical). Les revues signées ainsi que les réponses des auteurs.trices aux commentaires des relecteurs.trices sont disponibles publiquement dans la rubrique « pre-publication history » associée à chaque article publié.
  2. son pendant, le double aveugle : les auteurs.trices sont anonymisés lors de la soumission de l’article (les relecteurs.trices ne savent a priori pas qui ils/elles sont) et les relecteurs.trices ne signent pas leur relecture. C’est le cas pour TALN depuis quelques années, d’ACL, de COLING et de beaucoup d’autres conférences (il s’agit plus ou moins de la norme).
  3. le simple aveugle : les auteurs.trices ne sont pas anonymes, mais les relecteurs.trices oui. C’était le cas à TALN avant (quand ?) et c’est toujours le cas à LREC, et dans certaines revues comme BMC Bioinformatics (qui comptait le 16/03/2017 905 articles publiés sur une thématique de TAL biomédical).
  4. le cas, très rare et qui n’a pas de nom (si ?), où les auteurs.trices sont anonymes mais pas les relecteurs.trices. La revue DISCOURS, qui permet aux relecteurs.trices de signer leur relecture, permet ce cas de figure, puisque les auteurs.trices sont anonymes.

Enjeux de la méthode de relecture

Avant de rentrer dans le détail des avantages et inconvénients de chacune, il est important de noter qu’au-delà du choix principal, de nombreuses options existent, qui modifient plus ou moins la donne et qui sont tout aussi importantes.
C’est en particulier le cas des interactions entre relecteurs.trices, voire avec les auteurs.trices. Ainsi, dans la plupart des conférences, les relecteurs.trices peuvent voir leurs relectures respectives (une fois la leur entrée), voire leur nom (c’était le cas à TALN il y a quelques années, ce n’est plus possible aujourd’hui), voire, comme pour ACL, disposent de temps pour communiquer entre eux/elles et éventuellement modifier leur relecture et leur évaluation de l’article.

Par ailleurs, ACL propose une période (courte) de rebutal, pendant laquelle les auteurs.trices peuvent répondre aux remarques des relecteurs.trices, qui pourront être amenés à corriger leur évaluation. Cet échange entre auteurs.trices et relecteurs.trices est courant dans les revues, moins dans les conférences. Vue l’importance prise par les conférences dans le domaine du traitement automatique des langues, il semble logique que leur fonctionnement se rapproche de celui d’une revue.

Il faut ajouter à ces éléments le fait de savoir ou non qui est responsable de la track/area : si le processus est totalement décrit pour ACL (en particulier cette année, principalement via le blog des responsables), il ne l’est pas pour TALN. Les revues adoptent également des fonctionnements différents. Dans certains cas, l’éditeur.trice scientifique associé.e à un article ou un numéro sera clairement identifié.e auprès des auteurs.trices pendant la phase de relecture (c’est le cas pour les revues TAL ou BMC Bioinformatics, mais pas pour JAMIA) et cette information sera publiquement visible une fois l’article publié (c’est le cas pour la revue TAL, mais pas pour BMC Bioinformatics).

Pourquoi est-ce que tous ces points sont importants ? Tout simplement pour (tenter de) limiter les biais, les conflits d’intérêts et les relectures de mauvaise qualité. Un processus ouvert permet à plus d’yeux de vérifier si les auteurs.trices ne sont pas en conflit d’intérêt avec les relecteurs.trices (encore faut-il définir ce qu’est un conflit d’intérêt, là encore, ACL fournit des bases de réflexion). Il permet également de dénoncer les mauvaises relectures : un.e responsable de track/area est censé.e lire toutes les relectures, mais il est courant qu’il/elle passe à côté de certains problèmes, par ailleurs, des critiques émises par les co-relecteurs ET par le/la responsable ont un poids d’autant plus important.

Inciter les relecteurs.trices à écrire de bonnes relectures (constructives et respectueuses) peut également passer par des actions positives, comme le prix du/de la meilleur.e relecteur.trice (attribué à LTC ou à l’AMIA), ou la mise en valeur de leur travail par le biais d’un post de blog.

Avantages et inconvénients des méthodes de relecture par les pairs

Le principe de la relecture par les pairs est de permettre une évaluation scientifique des articles publiés, qui soit également indépendante des auteurs.trices.  Les différentes méthodes de relectures proposées ont donc pour but de maximiser les paramètres suivants :

garantie d’indépendance des relectures : l’anonymat des relecteurs.trices a été introduit pour s’assurer qu’ils puissent s’exprimer librement et indépendamment de leur rapport futur avec les auteurs.trices. De même, l’anonymat des auteurs.trices a été introduit afin de les protéger de tout biais (notamment genré) ou préjugé associé à leur identité (par exemple l’institution d’origine) et de focaliser la relecture sur le travail réalisé.

garantie de qualité des relectures : le principe de relecture ouverte est de s’assurer que les relecteurs.trices endossent bien la responsabilité de leur relectures. Il s’accompagne d’une hausse globale de la qualité des relectures [1] mais également d’une baisse de la sincérité des relecteurs.trices par crainte d’éventuelles futures représailles [2].

et, accessoirement :

facilité de gestion des relectures par l’éditeur de la revue : besoin éventuel de « caviarder » des relectures anonymes injurieuses [3], facilité de recrutement des relecteurs.trices (15 % de refus en plus pour le système ouvert d’après une comparaison des chiffres de deux revues d’informatique biomédicale ayant adopté un système différent : BMC Bioinformatics et BMC Biomedical Informatics and Decision Making [Daniel Shanahan communication personnelle]), facilité de mise en œuvre dans le cadre d’un comité éditorial [l’expérience de la revue TAL montre que le double aveugle induit des difficultés logistiques pour procéder à l’affectation des relecteurs.trices en préservant l’anonymat tout en gérant les conflits d’intérêt].

La gestion des revues par des systèmes informatisés permet de collecter un grand nombre d’informations sur les différentes étapes du processus, qui peuvent maintenant être exploitées pour prendre du recul et étudier l’influence des différents paramètres en jeu. Une étude réalisée avec les données issues de 14 conférences en informatique montre par exemple l’importance du dialogue entre relecteurs.trices et du facteur « chance » par rapport à d’autres leviers comme la réponse des auteurs.trices pour permettre la sélection d’articles de qualité [4].

ConclusionS

La transparence des processus génère (beaucoup) plus de travail, donc de temps, pour les organisateurs (y compris area/track chairs) et pour les relecteurs.trices (qui doivent être plus attentifs lors de l’écriture de leur relecture). Mais n’est-ce pas le prix à payer pour la qualité ?

J'(Karën Fort)étais personnellement pour le double ouvert, avant que je lise des papiers qui montrent les biais genrés [5], envers les institutions prestigieuses [6] et les auteurs.trices connus [7], bien que ces effets ne soient pas toujours constatés [8]. Je favoriserais maintenant davantage un système hybride de double aveugle dans un premier temps (avant relecture), puis d’ouverture : les relecteurs.trices voient leurs relectures (et leurs noms), les discutent entre eux, et les auteurs.trices voient les relectures, y répondent, et lorsque tout est terminé, tout le monde voit les noms de tout le monde.

En ce qui concerne l’anonymat ou non des relecteurs.trices (qui ne représente que la partie émergée de l’iceberg, vous l’aurez compris), une possibilité intermédiaire serait de donner le choix aux relecteurs.trices de signer ou non leur relecture (comme dans le cas de la revue DISCOURS). Cela aurait l’avantage de ne forcer personne et de permettre aux relecteurs.trices de s’habituer et de se tester dans cet « exercice ». Mon expérience personnelle est qu’il est beaucoup plus facile de signer une relecture positive ou dans sa langue maternelle qu’une négative ou en anglais (du fait de la finesse de vocabulaire nécessaire).

Je (Aurélie) pense qu’il faut certainement plus d’études comme [4] pour bien réfléchir aux avantages et inconvénients des différents systèmes, et ne pas sous-estimer la part de l’aléatoire qui ne peut être éliminée du processus d’évaluation.

Et vous, vous en pensez quoi (si vous avez des références, nous sommes preneuses) ?

Karën Fort et Aurélie Névéol

Références

[1] Kowalczuk, M. K., Dudbridge, F., Nanda, S., Harriman, S. L., & Moylan, E. C. (2013). A comparison of the quality of reviewer reports from author-suggested reviewers and editor-suggested reviewers in journals operating on open or closed peer review models. F1000 Posters, 4, 1252.

[2] Khan K. Is open peer review the fairest system? No. BMJ. 2010;341:c6425. doi: 10.1136/bmj.c6425.
[3] Groves T. Is open peer review the fairest system? Yes. BMJ. 2010;341:c6424. doi: 10.1136/bmj.c6424.
[4] Zhu J, Fung G, Wong WH, Li Z, Xu C. Evaluating the Pros and Cons of Different Peer Review Policies via Simulation. Sci Eng Ethics. 2016 Aug;22(4):1073-94.
[5] Kaatz A, Gutierrez B, Carnes M. Threats to objectivity in peer review: the case of gender. Trends in pharmacological sciences. 2014;35(8):371-373.
[6] Tomkins A, Zhang M, Heavlin W. Single vs. Double Blind Reviewing at WSDM,  https://arxiv.org/pdf/1702.00502.pdf
[7] Okike K, Hug KT, Kocher MS, Leopold SS. Single-blind vs Double-blind Peer Review in the Setting of Author Prestige. JAMA. 2016 Sep 27;316(12):1315-6.
[8] van Rooyen S, Godlee F, Evans S, Smith R, Black N. Effect of blinding and unmasking on the quality of peer review: a randomized trial. JAMA. 1998 Jul
15;280(3):234-7.

13 réflexions au sujet de « Relecture par les pairs : un état de l’art »

  1. Bonjour,
    Pour nourrir le débat, une discussion en ligne sur la tentative de brevet de la part d’un éditeur d’ouvrages scientifiques http://openarchiv.hypotheses.org/3966.

    La revue par les paires, effectuées par les chercheurs, n’est pas qu’une question scientifique, mais également un service mise en avant par les éditeurs et un moyen d’assurer une source de revenus pour ce dernier.

  2. Vaste débat, bonne idée d’en parler ici.

    Le double aveugle me semble assez souvent illusoire : pour certains articles, l’identité de l’auteur principal ne fait même aucun doute (c’est vrai aussi, dans une moindre mesure, pour les relecteurs). Du coup, on peut aboutir à l’effet inverse au but initial d’avoir des relectures non discrimatoires : certains articles restent réellement anonymes, d’autres non.

    Pour rappel, la revue Computational Linguistics est en simple aveugle.

    Pour ma part, j’apprécie le simple aveugle avec possibilité pour les relecteurs de dévoiler leur identité, que j’ai eu l’occasion de pratiquer, et la configuration consistant à lever le double anonymat au cours du processus, que je ne connaissais pas, me semble séduisante.

    1. Comme Aurélie, je pense qu’il serait important de mener d’autres études pour identifier les biais que peuvent procurer chaque type de modalité de relecture par les pairs. De mon expérience, je pourrais ainsi citer plusieurs arguments ou contre-arguments pour chaque type d’évaluation. Mathet (Yann ? encore du faux aveugle :-)) nous dit que l’on peut souvent identifier un auteur lorsqu’il est connu et que cela induit un biais entre chercheurs (ou laboratoires) connus ou inconnus. Cela semble indéniable. Dans le cadre de l’organisation de la conférence TALN’2017, nous avons justement décidé de sonder les relecteurs sur leur capacité (qui sera vérifiée) à déterminer l’identité d’un auteur, mais aussi sur le fait de savoir si révéler leur identité aurait modifié leur relecture… Ce sondage sera couplé avec un équivalent mené dans le cadre d’un atelier à ACL. Les résultats de ces sondages éclaireront peut-être un peu notre lanterne.

  3. Je m’excuse d’être obligé d’écrire en anglais—“du fait de la finesse de vocabulaire nécessaire,” comme Karën l’a si gentilement dit, et bien sûr, pour vous laisser d’éviter la peine de me lire en langue française écrite.

    A very interesting post—thank you for the taking the time to write it.

    I notice that in your list of four reviewing options, you did not include the post-publication review model, which seems to be becoming more and more popular these days. On that model, a submission gets only a check for scientific validity, and then is published; the hope is that “the crowd” comments on it, and that those comments constitute, in essence, the review. Do you see a role for that reviewing model?

    Reading the post, I didn’t see a definition of “relecture par les pairs.” I initially assumed, therefore—given that this is a blog about a computational science—that you were thinking in terms of an analogy to pair programming. But, on further reading, it seems unlikely that you’re thinking of that specific approach to writing code, in which programmers are literally sitting side-by-side and working simultaneously on the same code (or tests, or design, or whatever). So: what is, then, your definition?

    Working on the assumption that by “relecture par les pairs,” you mean some model in which reviewers work together: how do you see that interacting with the current publishing business model, in which it is still often the case that we are asked to (1) write for, (2) review for, and (3) serve as associate editors for, journals that do not pay us, and then charge us for access to our own articles? Doubling the reviewers seems like a way to double the exploitation of an already abused population.

    Finally, this was an interesting observation:

    des difficultés logistiques pour procéder à l’affectation des relecteurs.trices en préservant l’anonymat tout en gérant les conflits d’intérêt].

    Do you think that it’s possible that open review, specifically on the model where the entire world gets to see the reviews after publication, does away with the issue of conflict of interest ?

    1. Le « post-publication review model » évoqué par Kevin est effectivement une alternative, qui est en fait pratiqué en France depuis des lustres dans la communauté des sciences du langage (et plus généralement dans les Humanités). Pour une conférence, les auteurs soumettent en effet un résumé très bref, une sorte de déclaration d’intention, et ensuite sont acceptés simplement sur l’adéquation de leurs travaux avec la conférence. Ils affrontent ensuite le regard et les remarques (parfois acerbes) de leurs collègues. De ma propre expérience, la qualité des communications est alors très très variable, mais ce modèle a pour intérêt de laisser s’exprimer toutes les idées, et est bien plus stimulant que ces conférences TALN où l’on assiste à une reproduction des approches, des analyses, i.e. où visiblement (1) soit chacun s’est auto-censuré, reprenant les approches en vogue pour maximiser ses chances d’acceptation, soit (2) le comité de programme a privilégié ces approches visiblement à la mode.

      Le souci de ce « post-publication review model » est qu’il entraîne alors une inflation des travaux publiés, et donc un travail très lourd de lecture de tout ce qu’il se fait ailleurs, de recherche d’idées pépites etc… En médecine où il est bien plus facile de publier une étude, 50% du temps de recherche est donc consacré à l’étude (souvent en diagonale) de la littérature. Je ne suis pas sûr que j’arriverais à suivre un tel rythme. Pour moi, le peer-review est là pour m’aider à faire un filtre dans la masse de recherches en cours. Mais il faut que ce filtre soit le moins biaisé possible, avant tout au niveau des approches originales qui pourraient être écartées par conformisime ou même lutte d’influence (l’histoire des sciences regorge de tels exemples). C’est là à mon sens qu’est l’enjeu de ce post, plus que du point de vue de la question de l’impact sur le CV de chaque chercheur.

    2. Thank you for bringing up post-publication peer review, which we did not consider or discuss while writing the post. To me, this system can only be used in combination with a pre-publication review system; in practice, it’s already widely in place with the mecanism of letters to the editor and other less formal venues such as PubMed commons.

      I think there is significant value in pre-publication peer review for improving the quality of a manuscript in terms of clarity, articulation of ideas, sanity checks on results. While the level of selection required based on « impact » and « scientific interest » can (and should!) be discussed, I believe there must be some selection based on overall clarity and soundness.

  4. Pour rebondir sur la remarque de Kevin sur : « by “relecture par les pairs,” you mean some model in which reviewers work together », je veux partager ici une expérience récente.

    J’ai reçu mes relectures pour un article envoyé à une conférence. Parmi celles-ci, une est plus critique que les autres et contient d’une part des questions intéressantes, auxquelles j’aurais aimé pouvoir répondre avant que le relecteur ne prenne sa décision finale (ce qui n’est pas possible dans le cas présent) et d’autre part une évaluation de l’état de l’art à 4 (sur 5), ce qui signifie qu’il manque des références, SANS ajouter aucune référence dans l’article. Les autres relecteurs n’ont rien trouvé à redire à notre état de l’art (ce qui ne signifie pas qu’il est parfait). S’ils le voulaient, ils ne pourraient pas faire la remarque à ce relecteur que sa relecture manque de cohérence (ou qu’il a oublié qqch), car ce n’est pas prévu.

    Cela n’a rien à voir avec l’anonymat.

    Ce phénomène est assez classique, malheureusement, et peut être dû à plusieurs facteurs. Quoi qu’il en soit, à ACL, qui est aussi une conférence en double aveugle, mais dont le processus est plus itératif, les relecteurs se font remarquer ces incohérences entre eux et si elles sont remontées par les auteurs, les méta-relecteurs doivent les faire corriger. Le résultat est une amélioration de la qualité des relectures, qui sont plus constructives, plus étayées, car plus « remâchées ».

    Tout le monde gagne, à mon avis, à ce que les relecteurs travaillent aussi ensemble.

  5. Deux petits commentaires additionnels qui ne répondent pas vraiment à ce post intéressant.

    (1) Pour être membre cette année du comité de programme de la conférence TALN’2017, j’observe que la qualité des relectures est très très variable comme à l’accoutumée. Les CP gèrent ce type de variabilité en se transmettant, d’une édition de conférence à la suivante, la liste des brebis galeuses à ne pas reprendre. Il n’empêche que la publication (au auteurs ou même, publique !) non anonyme des revues aurait clairement un impact très positif sur la qualité de ces dernières, et permettrait même de lancer des débats publics en amont de la communication / publication de l’article. Ce que l’on retrouve, mais après publication dans le modèle « post-publication review » évoqué par Kevin.
    (2) Nous avons en France un modèle de revue en double-ouvert : les thèses. On en a vu les conséquences : acceptation à soutenance de travaux assez médiocres contrairement aux thèses étrangères. Je ne sais comment, à l’étranger, se passe cette évaluation.

    Au final, je me retrouve donc avec un argument favorable à la divulgation des expertises et de leur auteur (pour avoir des revues de meilleure qualité), mais l’exemple des thèse me semble suggérer au contraire une influence négative (peu de chercheurs arrivent à assumer une critique forte sur un travail en double ouvert)…

    Comment résoudre le dilemne. L’idée du prix du meilleure relecteur, évoqué par Aurélie lors d’une conversation orale, me séduit particulièrement. Reconnaissance du travail du relecteur, également : n’avez-vous jamais eu l’impression d’avoir passé plus de temps sur une relecture que l’auteur sur la rédaction de son papier :-).

    1. TALN : si les relecteurs pouvaient voir les noms des autres relecteurs, et s’ils pouvaient interagir, nul doute que les « brebis galeuses » seraient remises à leur place très vite (leur réputation serait très rapidement faite) ou corrigeraient leur comportement.

      Le processus à ACL est beaucoup plus abouti à mon avis. Pourquoi ne pas s’en inspirer ?

  6. Un autre article intéressant qui propose une revue des différentes méthodes et pratiques pour aborder l’anonymat des auteurs et des relecteurs:
    Nobarany, S. and Booth, K. S. (2017), Understanding and supporting anonymity policies in peer review. Journal of the Association for Information Science and Technology, 68: 957–971. http://syavash.nobarany.com/files/taxonomy.pdf

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *