Franceinfo - le mardi 26 février 2019

Algorithme, intelligence artificielle et données confidentielles : on est allé chez Qwam, la société chargée d'analyser les contributions en ligne au grand débat

Cette entreprise, spécialisée dans les données textuelles, a été chargée par l'institut OpinionWay d'analyser toutes les réponses aux questions ouvertes posées sur la plateforme du grand débat. Franceinfo a poussé ses portes

Un internaute consulte la plateforme du grand débat, à Nantes (Loire-Atlantique), en février 2019. (J?R?MIE LUSSEAU / HANS LUCAS)

Une plaque discrète. C'est la seule trace de la présence de Qwam. Créée en 2007, cette société, spécialisée dans les données textuelles, occupe des petits bureaux dans un immeuble de la rue de la Victoire, dans le 9e arrondissement de Paris, un quartier aisé. On jette un coup d'œil rapide à la quinzaine de salariés, tous affairés devant des écrans d'ordinateurs. On ne pourra ni leur poser de questions, ni les observer dans leur travail. Car depuis quinze jours, Qwam travaille sur un projet très confidentiel qui mobilise cinq à six employés : le traitement des questions ouvertes du grand débat national.

Si l'institut de sondage OpinionWay est chargé de traiter les questions fermées, c'est-à-dire celles auxquelles on ne peut répondre que par "oui" ou par "non", puis d'établir des statistiques à partir de ces réponses, Qwam a hérité d'une tâche autrement plus complexe : passer au crible toutes les réponses saisies sur internet par les participants au grand débat. Et il y a de quoi faire, puisqu'un million de contributions ont déjà été déposées sur la plateforme, selon l'un des ministres en charge du dossier, Sébastien Lecornu. Les citoyens ont jusqu'au 18 mars pour participer. OpinionWay se chargera ensuite de publier une synthèse et "une analyse exhaustive" de ces contributions, à partir de ces données de Qwam et des siennes.

"Sur le contenu, je ne peux rien vous dire"

Le sujet est donc très sensible politiquement. "Sur le contenu, je ne peux rien vous dire", répète plusieurs fois Christian Langevin, le directeur général de Qwam, qui a tenu à relire cet article pour en vérifier tous les points techniques. Le cofondateur de l'entreprise peut néanmoins nous expliquer le fonctionnement global de ses logiciels. Et pour rendre les choses concrètes, le dirigeant, taquin, prend l'exemple de cet article de franceinfo, sur un rassemblement de "gilets jaunes" français à Genève.

"Il a trouvé que 'gilets jaunes', c'est un thème, que 'Genève', c'est un lieu, et que l''ONU', c'est une organisation", détaille le patron de Qwam, le doigt pointé sur l'écran. "Il", c'est la plateforme logicielle de la société, dénommée "Qwam Text Analytics".

Pour analyser de gros volumes de données, on a une plateforme basée sur les technologies sémantiques, complétées par des modules d'intelligence artificielle. Christian Langevin, directeur général de Qwam à franceinfo

"Les textes sont constitués de ce qu'on appelle des entités nommées, qui sont des noms propres, des noms de lieux, d'entreprises, d'organisations, et des concepts qui sont des thèmes, comme 'développement durable', 'pouvoir d'achat' ou 'impôt sur le revenu'", explique Christian Langevin. Tous les jours, le logiciel de sa compagnie "crawle", ou passe au crible en français, 100 000 articles pour trouver des termes nouveaux et les injecter dans le référentiel de vocabulaire.

Le logiciel de Qwam appliqué à un article de franceinfo. (MARGAUX DUGUET / FRANCEINFO)

A cette première étape, vient se greffer un second outil, "qui est à proprement parler plus de l'intelligence artificielle". Le but : "Trouver ce qui est signifiant et ce qui n'a pas d'intérêt". "Des outils d'intelligence artificielle vont aussi regrouper ce qui est très proche. Par exemple 'hausse du carburant' et 'augmentation du prix à la pompe'. Sémantiquement, ce n'est pas la même chose mais en fait c'est le même concept", poursuit Christian Langevin. A cela s'ajoute bien évidemment "une phase humaine" de validation.

Des thèmes ou suggestions catégorisés

Pour le grand débat, Christian Langevin "ne peut pas nous montrer" concrètement comment cela fonctionne. On sait néanmoins une chose : "les notions citées par les répondants sont relevées, analysées, triées et classées en différentes catégories et sous-catégories", indique le communiqué d'OpinionWay. "Tout notre travail consiste à reprendre tout ce que les gens ont dit et à regrouper ces réponses en paquets, en catégories", explique Ivan Monnier, le directeur technique de Qwam.

"Les catégories sont à l'intérieur de chaque question et il y aura entre 10 et 25 sous-catégories par question", précise Christian Langevin. Quelque 82 questions ont été posées aux participants, réparties dans les quatre thèmes choisis par Emmanuel Macron : la transition écologique, la fiscalité et les dépenses publiques, l'organisation de l'Etat et des services publics et la démocratie et la citoyenneté.

La classification de ces catégories permet de regrouper des thèmes ou des suggestions. "Par exemple, en suggestion, il y a des personnes qui disent : 'il faut baisser l'impôt sur le revenu' mais il y a plusieurs dizaines de façons de le faire, donc notre algorithme permet de regrouper les suggestions qui disent la même chose", détaille Christian Langevin.

Le directeur général de Qwam, Christian Langevin, dans son bureau, à Paris, le 20 février 2019. (MARGAUX DUGUET / FRANCEINFO)

"Tout est analysé"

Cette masse de données peut donner le tournis. "Le problème, c'est que la masse génère la diversité, note Ivan Monnier. Les gens ont pris un soin extrême à remplir le questionnaire. Ils argumentent, ils développent. On se doit de respecter ça et de se donner autant de mal qu'eux".

Il y a une variété de thématiques énormes, c'est le reflet de la société. Ivan Monnier, directeur technique de Qwam à franceinfo

Pourtant, sourit Ivan Monnier, "en termes de masse de données, on est habitués". "Tout est analysé. Nos solutions permettent l'exhaustivité de l'analyse des textes", promet Christian Langevin. Non, le vrai problème, c'est le temps. "Les délais sont très courts", souffle le patron de Qwam. Le président de la République doit en effet rendre compte du grand débat un mois après la fin de celui-ci.

"Ce qui nous a sauvés, c'est que le grand débat, on en parle depuis un moment, les 'gilets jaunes', ça dure depuis un moment", souligne Ivan Monnier. "On a fait tourner nos modèles IA (Intelligence artificielle) et on a engrangé en masse un vocabulaire riche, sur des sujets proches du grand débat", ajoute-t-il. Les données collectées par Qwam sont accessibles en temps réel par OpinionWay, le prestataire, sous forme de tableaux de bord répartis par questions.

L'institut de sondage, où quinze personnes travaillent exclusivement sur le sujet, aura ensuite pour mission de synthétiser tout cela. "Nous classons des suggestions ou des thèmes et OpinionWay synthétisera", explique Christian Langevin. "Le métier de 'sondeur' est de restituer de manière intelligible pour tout le monde", conclut Ivan Monnier.

26/02/2019

0 J'aime 0 Poster un commentaire

A découvrir aussi

Retour aux articles de la catégorie FRANCE -

⨯

Inscrivez-vous au blog

Soyez prévenu par email des prochaines mises à jour

Rejoignez les 61 autres membres