Les ratés de la personnalisation en ligne et la faiblesse de l’approche algorithmique

C’est en lisant Why Websites Still Can’t Predict Exactly What You Want de Harvard Business Review que ça m’a frappé. Les entreprises numériques ont encore bien des croûtes à manger avant d’avoir une personnalisation en ligne, digne de ce nom. Je vous en avais déjà parlé dans mon billet Certains ratés de la personnalisation numérique.

Toujours est-il que dans l’article de HBR, l’auteur met le doigt sur une possible explication de ces lacunes de personnalisation.

All that data and still an underwhelming result. What’s happening here? It seems that it’s a matter of how the companies position personalization. They regard it as a tool for upselling–they want to push us out of our comfort zone, to buy new things, and to buy more things. To achieve that goal, the companies can’t just look at one’s historical browsing or purchase patterns. Instead, data scientists look for traits in similar customers. When you position personalization this way, you build algorithms that are based on finding variables.

En effet, depuis l’avènement de « la filtration collaborative » d’Amazon, (c’est-à-dire ceux qui ont aimé ce produit ont aussi aimé tel, tel et tel autre produit, ce qui représente tout de même plus de 50% des ventes d’Amazon) les entreprises se sont confinés à l’analyse prédictive. Il s’agit donc d’une tentative d’upselling (concrétiser la 2e vente). Par contre, très peu, voire aucun effort n’est encore mis sur l’historique de consommation, ce que l’on nomme les données invariables. Comme l’auteur le mentionne, sur Amazon, si ça fait déjà quelques achats que je fais pour acquérir des souliers de grandeur 13WW, il y a de fortes chances que si je magasine encore des chaussures sur Amazon, ce le sera pour la même grandeur de chaussure. Pourtant, cette simple donnée invariable, qui améliorerait très sensiblement mon expérience usager en ligne, n’est toujours pas utilisée.

Pourquoi faire simple lorsqu’on peut faire compliqué?

C’est un peu la conclusion de l’auteur de l’article. Ce n’est pas sexy de travailler sans algorithme et il n’y a pas de valorisation pour les geeks qui les développe. Ça faciliterait par contre grandement la vie des clients internautes et les fidéliserait aussi sans doute à la marque

In short, these kinds of easy wins aren’t sexy enough for data scientists. And maybe they fear their effort would go unnoticed if we can get better personalization without teams of PhD’s spending three years to create hundreds of algorithms.
Data scientists are vital to the future economy and advanced algorithms are an extremely important part of their work. But from a market-facing perspective, simplicity and quick wins should be part of the data science toolbox.

#Charte Analyse des sentiments exprimés sur les médias sociaux à propos de la Charte des valeurs

Mise en contexte :

Comme vous le savez déjà, je me suis exprimée pour La charte des valeurs québécoises et je faisais partie des 20 Janette qui ont signé la lettre de Madame Janette Bertrand, qui elle-même a généré un mouvement massif d’appui populaire.

Mais cela étant dit, ça ne m’empêche pas d’être « neutre » et « objective » lorsque vient le temps d’analyser ce qui s’est dit sur les médias sociaux. Par ailleurs, l’analyse que je vous partage plus bas a été réalisée par deux collaborateurs d’importance, qui n’ont aucun enjeu personnel ou corporatif avec les discussions autour de la Charte. Il s’agit de SAS Canada (client de longue date et SAS est le pionnier de l’analyse de données et de l’analyse prédictive) et de Inbox, entreprise française spécialiste de la connaissance clients et usagers et du big data également implantée au Canada et ayant développé un complexe algorithme sémantique francophone permettant de faire de l’analyse de sentiment en français (ce qui est très rare parce que la majorité des outils disponibles sont anglophones et n’ont pas la capacité d’analyse de sentiments et du prédictif).

SAS Canada et Inbox ont l’habitude de travailler entre-autres avec des grosses boîtes financières, d’assurances ou de commerce de détail, de médias internationaux et du secteur public. Ce sont eux entre autres qui font de la détection de fraude par l’analyse de très grands volumes de contenus (Big Data) pour les cartes de crédit ou les assurances. Grâce à sa technologie, Inbox a été la première source à identifier la fin de la récession en France, deux semaines avant tout le monde. Tout ça pour vous dire que lors d’une discussion avec SAS et Inbox sur la difficulté d’expliquer l’importance du « big data » à des clients potentiels (parce que ce n’est pas sexy) je leur propose d’utiliser leur technologie pour un sujet chaud de l’heure (comme la charte des valeurs québécoises). Ainsi, les gestionnaires pourront facilement comprendre en extrapolant, comment eux-mêmes pourraient bénéficier de la compréhension de ce qui se dit sur les médias sociaux, pour leur propre organisation. Voici donc le rapport d’analyse de SAS Canada/Inbox sur les discussions sur les médias sociaux à propos de la charte des valeurs.

Pour comprendre les graphiques

Voici une analyse de sentiment « Big Data » de différents thèmes discuté sur les médias sociaux (Facebook, Twitter, blogue) à propos de la Charte des valeurs québécoises. Remarquez en abscisse « LE VOLUME DES MESSAGES » et en ordonnée « L’INDICE DE POSITIVITÉ DU MESSAGE » qui est aussi appelé « analyse de sentiment. Ceci est une version préliminaire de l’analyse, qui est toujours en cour. Étant donné que le projet de loi du PQ risque d’être déposé dans les prochains jours, un grand volume de commentaires continuera d’alimenter les discussions médias sociales. Pour comprendre comment se fait l’analyse de sentiment, je vous dirai qu’avec l’algorithme d’Inbox un terme comme « crise » contiendra 1000 paramètres différents afin de déterminer le contexte de ce mot spécifique et de savoir si on parle par exemple « d’une crise économique » ou si plutôt « il a pété une crise ». Leur analyse de sentiment est donc fiable à 85% et la marge d’erreur est la même pour tous. Aussi, si par exemple un twitt parle de Dalila Awada et qu’il contient un hyperlien vidéo, comme l’hyperlien et le vidéo ne seront pas analysés, ce ne sera que le contenu de la mise en contexte précédant l’hyperlien qui sera pris en compte.

Le corpus

Les sources suivantes ont été analysées:
• Twitter
• Facebook
• Forum Yahoo
• JM : Journal du Montréal avec 3 sous-forums:
http://blogues.journaldemontreal.com/politique/,
http://blogues.journaldemontreal.com/droitdecite/,
http://www.journaldemontreal.com/auteur/richard-martineau )
• LP : LaPresse avec 3 sous-forums :
http://blogues.lapresse.ca/boisvert,
http://blogues.lapresse.ca/edito,
http://blogues.lapresse.ca/avenirmtl )

Mon analyse

J’attire votre attention sur les diapositives 3, 4 et 5. Vous remarquez qu’elles sont des portraits des discussions médias sociaux des 14, 21 et 31 novembre octobre. Vous remarquerez sans doute aussi qu’au 14 octobre, la majorité des mots clés, personnalités et organisations associés au débat de la charte sont perçus très négativement. Par contre, après le 21 octobre, ces mêmes termes (en plus de celui de # Janette qui commence à apparaitre), font passer plusieurs mots du côté positif. Vous remarquerez aussi qu’étrangement, Charles Taylor est vu plus négativement qu’Adil Charkaoui, mais que son collègue Gérard Bouchard jouit d’une négativité beaucoup moins grande. Vous observerez sans doute aussi que le Conseil du Statut de la femme est l’entité la plus méprisée et que la CQCI est l’organisation qui récolte la plus positive des mentions sur les médias sociaux, mais vous observerez que le volume des messages qui y est associé est somme toute insignifiant comparativement aux Janette par exemple. Observez aussi que Les Anti-Charte et les pro-charte sont tous deux du côté négatif des discussions, que le volume des discussions est somme toute équivalent, mais que les pro-charte sont beaucoup moins détestées que les anti-charte. Finalement, les inclusives ont 10 fois moins de mentions que les Janette, et elles sont à peine perçues plus positivement que les Janette et elles sont toutes deux du côté positif des discussions. Je pourrais continuer de vous faire mes observations, mais vous comprenez sans doute maintenant le principe et je ferai cette discussion de vive voix la semaine prochaine lors d’une conférence au Salon BI. Donc bonne lecture et bonne analyse ☺

 

MAJ

Ce billet a été repris intégralement par le HuffingtonPost