C’est un truisme d’écrire que les systèmes de TAL ne sont pas fiables à 100%, qu’ils répondent rarement à tous les fantasmes qu’on leur fait porter. Parce qu’au bout du compte, il ne s’agit que de faire répéter à un tas de ferraille et de silicium les choses qu’on lui a tant bien que mal apprises et pourtant… pourtant c’est un message souvent bien compliqué à faire entendre.
Je prends un exemple personnel : la société dans laquelle je travaille commercialise (entre autres) des analyseurs de Curriculum Vitae. Il s’agit de programmes auxquels on soumet des CVs dans des formats divers (office, pdf, voire image) et qui en produisent une belle représentation structurée avec toutes les informations : nom, prénom, adresse, liste des postes occupés avec fonction, employeur, période de temps, etc. tout ça dans un joli XML bien propret. Ca sert pour automatiser les systèmes de recrutement, en ligne ou non, et et ça vous évite d’avoir à remplir des formulaires kilométriques lorsque vous postulez à un poste sur Internet.
Pourtant, parfois, malgré tout le mal que se sont donné nos linguistes et nos développeurs, les informations ne sont pas correctement restituées. Et là, le dialogue avec le client devient très complexe (il y a un client parce que oui, au bout du compte, on essaye de les vendre, ces analyseurs). Et j’ai fréquemment des réactions du type : « ben pourquoi il ressort pas le nom ? On le voit bien, là, c’est écrit en gras ! Il marche pas, votre système ». Le dialogue qui s’ensuit est souvent difficile. Je commence par expliquer que le gars du CV s’appelant Marin Martin, il a un prénom qui pourrait être un nom de fonction et un patronyme qui pourrait être un prénom, alors c’est compliqué pour une machine, que le gras est souvent signe de… n’importe quoi dans un CV, à tel point que les infolinguistes ont décidé, comme première étape du traitement de supprimer toutes les marques de mise en page, vu qu’on ne peut rien en déduire de fiable. Enfin que la mise en page de ce CV (en PDF, qui plus est !) est on ne peut plus pénible à décortiquer. Et là, j’aboutis à la réaction : « ah bon ? Vous transformez en texte et vous comparez à des listes ? Ben moi aussi je pourrais le faire ! ». La magie est cassée.
Pourtant non, je ne fais pas de la magie noire, je vends un programme informatique qui a été programmé par des humains, un programme qui rend des services et qui a ses faiblesses, comme tout autre système automatique. Et, oui, vous pourriez le faire, moyennant un peu de formation (quand même). C’est de la programmation, c’est tout.
Maintenant imaginons un cas de figure légèrement différent où le nom serait reconnu correctement mais tronqué. Je pourrais expliquer que c’est normal vu que le champ est limité à 15 caractères et j’aurais très probablement en retour la réaction « Ah ben oui, c’est normal, il y a une limite ». Les limites de l’outil informatique sont intégrées, il faut faire avec. Mais dès que l’on aborde un comportement anthropomorphe, comme le fait un système de TAL, les attentes deviennent démesurées. Et les désillusions de même. A mon sens pour une raison simple, c’est que chacun est expert de la tâche (ici la langue), puisqu’il la pratique en continu. Donc il peut sans effort projeter un humain à la place de la machine. Il voit bien qu’il pourrait tancer vertement un stagiaire qui remplirait des fiches au stylo-bille pour n’avoir pas trouvé le nom sur le CV (pourtant, il est écrit en gras) alors qu’il lui pardonnerait sans problème de ne pouvoir écrire ce nom en entier sur cette fiche bristol qui ne comporte que 15 cases pour ce faire.
Plus le système vise à remplacer un humain, moins il a droit à l’erreur, alors que la tâche n’en devient nécessairement que plus complexe. Et les gains en temps, en productivité que fournit l’outil sont vite masqués par cette « qualité perçue » qui n’est pas au rendez-vous. Même si 99% des CVs sont bien traités, celui-là ne l’est pas. Dès lors, c’est le seul qui compte, c’est la marque d’infamie qui révèle au grand jour ma tentative de vendre un produit qui ne marche pas alors que, quand même, c’est écrit en gras.
C’est dire la grande misère des vendeurs de produit de TAL. Mais au bout du compte, et même si ça ne facilite pas l’acte de vente, je ne suis pas mécontent qu’on se pose ces questions. Pourquoi le système ne marche pas dans ce cas-là ? Qu’est-ce qu’on pourrait faire pour qu’il marche mieux ? Ce sont des questions saines. Simplement, par souci d’équité, j’aimerais aussi qu’on se pose un peu plus souvent la question de savoir pourquoi « c’est la faute à l’informatique », pourquoi on ne peut pas avoir un patronyme de 16 caractères, qui a décidé ça, de quel droit et pour quelle raison on devrait s’y soumettre.
Si on considère la critique des systèmes de TAL comme l’embryon salutaire d’un regard critique envers la technologie en général, elle me fera moins mal, à moi, modeste artisan du TAL.
Alors qu’on se le dise, le TAL, ça ne marche pas. Mais ni plus, ni moins que n’importe quel système informatique. Les systèmes de TAL ont des limites qu’il faut connaître pour pouvoir décider en pleine conscience de les accepter ou de les refuser. Comme les autres.