PL-14 sur la transformation numérique et les données personnelles, un pas en avant pour des km de retards

C’est la semaine dernière que Monsieur Éric Caire, ministre délégué à la transformation numérique gouvernementale, a déposé le projet de loi 14 (PL-14) Loi favorisant la transformation numérique de l’administration publique. Selon le communiqué de presse du gouvernement, ce projet de loi vise à :

(…) à faciliter la mise en place de services numériques plus conviviaux et mieux adaptés aux besoins des citoyens. Il rend possible le partage d’information entre les ministères et organismes, lorsque la situation le requiert, pour améliorer la fluidité des services et simplifier l’accès aux solutions numériques gouvernementales.
Le projet de loi garantit la protection des renseignements personnels à toutes les étapes de la réalisation des projets numériques. Seuls les organismes publics spécialement désignés par le gouvernement seront autorisés à partager des renseignements personnels entre eux. L’utilisation de ces données est strictement limitée à la réalisation d’un projet d’intérêt gouvernemental, et ce, pour une durée fixe que la loi vient préciser.

C’est une étape importante et essentielle pour le développement éventuel de services gouvernementaux numériques dignes de ce nom et pour une saine prestation de service interministérielle. J’applaudis le gouvernement d’avoir fait ce premier pas. Par contre, à la lecture des prochains paragraphes, vous conviendrez comme moi qu’il s’agit en fait du strict minimum. J’imagine et je souhaite sincèrement que ce ne soit QUE le premier pas et que d’autres projets de loi viendront combler ce qui m’apparaît comme des lacunes importantes.

Les manquements évidents du PL-14

Depuis quelques années déjà, les entreprises sont soumises à la Loi sur la protection des renseignements personnels et les documents électroniques (LPRPDE) qui touchent les organisations et entreprises fédérales. En gros, ils doivent colliger les informations personnelles des consommateurs dans des banques de données spécifiques, nommer une personne responsable à la face du public, maintenir l’intégrité de ces mêmes données, offrir la possibilité aux consommateurs de vérifier l’exactitude de ces données et de les faire modifier si besoin et même de les effacer si tel est son choix. De plus, les entreprises seront scrutées à l’externe et s’exposeront à des amendes pouvant être très salées, s’ils ne se conforment pas correctement à cette loi fédérale. Voici d’ailleurs les 10 principes de cette loi.

    1. Responsabilité
    2. Détermination des fins de la collecte des renseignements
    3. Consentement
    4. Limitation de la collecte
    5. Limitation de l’utilisation, de la communication et de la conservation
    6. Exactitude
    7. Mesures de sécurité
    8. Transparence
    9. Accès aux renseignements personnels
    10. Possibilité de porter plainte à l’égard du non-respect des principes

Disons qu’à la lecture du PL-14, nous constatons que le gouvernement du Québec sera vraiment très loin de ces principes qui doivent assurer une certaine pérennité du consentement du citoyen, de la vérification de l’exactitude, de la limitation de la collecte, de la sécurité, de la transparence, de l’accès, de la permission et des mécanismes de plaintes et des conséquences éventuelles de ces plaintes.

Sur mon LinkedIn dans lequel je partageais cette loi, un abonné écrivit à propos de celle-ci

Suis allé lire le projet de loi. Que dire? Épeurant de vacuité par rapport à ce qui se fait ailleurs dans les pays occidentaux en matière de collecte et partage de renseignements personnels au sein des organismes publics. Rien sur le consentement éclairé des citoyens, rien sur les nouveaux renseignements personnels (biométrie et génétique). Où est le pendant pour protéger les citoyens des dérives de l’industrie privée. Seul point positif, le CT est responsable de l’application.

Par ailleurs, je comprends un peu le bourbier dans lequel se retrouve notre gouvernement. Afin d’être capable de satisfaire aux principes que notre gouvernement fédéral demande pourtant aux entreprises canadiennes, le gouvernement devrait à tout le moins avoir une gestion centralisée de ces données, ce qu’il n’a pas, et de gérer convenablement ces mêmes données, ce qu’il ne semble pas faire non plus. Dans le plan numérique du PQ que j’avais proposé, on parlait entre autre de l’architecture X-Road pour permettre de régler certains des problèmes de partage des données gouvernementales, tout en respectant la vie privée et le choix des citoyens de partager ce qu’ils veulent bien.

On parle ici de l’architecture X-Road. Créée en Estonie, l’architecture X-Road permet aux services publics du pays de s’interconnecter afin d’échanger leurs données pour faciliter la vie des citoyens. Ce modèle a permis une coopération plus poussée entre les organisations publiques et a réduit l’utilisation du papier de façon importante. En prime, les employés de l’État peuvent désormais se concentrer sur les tâches qui nécessitent des interactions humaines. Il s’agira, pour nous, d’observer ce qui se fait partout sur la planète et de retenir les solutions qui s’appliquent le mieux chez nous.

D’ailleurs, récemment le gouvernement suggérait de migrer ces données dans le « cloud » d’une des multinationales américaines avec un appel d’offres. En plus d’être un aveu d’échec cuisant de l’infrastructure des données actuelles, ça permettrait de « pimper nos données ». Lorsque j’écris ça, je ne me réfère pas à l’expression qui a le sens d’amélioration, mais plutôt à celui qu’on prostituerait nos données sensibles à un pimp qui par la suite nous ferait chèrement payer pour l’accès granulaire et intelligent de ces mêmes données. Ce qui est tout à fait scandaleux.

Données ouvertes

Dans ce document on ne dit strictement rien sur les données ouvertes ni sur la protection des données personnelles dans les contextes municipaux. On n’y parle pas non plus de l’intelligence artificielle, de la biométrie et de toutes les avancées aussi spectaculaires qu’inquiétantes que ces mêmes données permettent désormais.

Prédation des données sur le domaine public

Saviez-vous que présentement, certaines entreprises canadiennes et québécoises offrent aux municipalités canadiennes des mobiliers urbains intelligents? Ces mobiliers permettent entre autres d’enregistrer vidéo-voix-données, des usagers qui s’en servent et des passants qui circulent autour. Moi j’ai pogné un méchant buzz en apprenant ça. D’ailleurs, je sais que certains dirigeants TI de municipalités ont été outrés de tels avancés et de réaliser que ces informations étaient retransmises, sans filtres, aux fournisseurs qui proposaient ces mobiliers. Il en est de même pour les feux de circulation intelligents qui scannent les adresses MAC qui se trouvent dans un rayon de 200 mètres de ces feux, puis revendent ses informations au plus offrant, sans que personne ne s’en inquiète. Il me semble qu’il y a là une méchante matière à légiférer. L’un des exemples éloquents des dérives possibles de ce laisser-aller législatif au profit de « bienfaiteurs intelligents et de fournisseurs de gugus de données » est l’exemple récent de Sidewalk Toronto. Un projet de ville intelligente parrainée par la bienfaitrice Alphabet, maison mère de Google. Ce projet est une « expérience » de l’établissement d’un quartier intelligent en bordure du Lac Ontario à Toronto. Il permettra à Google de recueillir et de gérer les données faciales, télémétriques, de circulation et de toutes autres données qu’il jugera importantes, sans l’autorisation des citoyens qui seront ainsi fichés, de la ville de Toronto ou du gouvernement. Vous pouvez d’ailleurs lire Bianca Wilie sauter une coche très documentée dans ses articles de Medium

Sidewalk Toronto: A Hubristic, Insulting, Incoherent Civic Tragedy Part I, Part II,
Sidewalk Toronto: It’s Time for Waterfront Toronto 3.0 — Onward and Upward
Sidewalk Toronto: Amnesia, Willful Ignorance, and the Beautiful Anti-Democratic Neighbourhood of the Future

L’innovation, la prévoyance et l’ignorance

Depuis des années, nos gouvernements se gargarisent du mot « innovation ». Depuis peu, à celui-ci s’ajoutent ceux de « intelligence artificielle », « villes intelligentes » et « données ». Je suis tout à fait enthousiaste à l’avancement de la science, à l’innovation, à l’invention et à l’adaptation aux réalités technologiques qui arrivent à grands pas. J’ai même donné de mon temps, depuis des années, à l’idée d’un plan numérique pour le Québec. J’y militais entre autres pour le principe de « prévoyance », d’adaptation de la force de travail, de réseaux adéquats, de centres de données, de bases de données ouvertes et de plusieurs autres concepts fondamentaux qui nous permettront d’entrer de plain-pied dans le XXIe siècle. J’aimerais « qu’on voit venir » avant de se mettre collectivement dans la marde. Il me semble que la légifération des données est l’une des étapes cruciales à la protection du citoyen face à des enjeux de plus en plus présents et potentiellement inquiétants. Malheureusement, j’observe qu’outre un cercle très restreint d’initiées, c’est l’ignorance de ces avantages, périls et enjeux qui nous guettent…

Presque tous les hommes, frappés par l’attrait d’un faux bien ou d’une vaine gloire, se laissent séduire, volontairement ou par ignorance, à l’éclat trompeur de ceux qui méritent le mépris plutôt que la louange.
Machiavel

Vous pourriez aussi aimer
The trouble with informed consent in smart cities
Eight smart cities that are restoring privacy and empowering citizens with data
CITIES FOR DIGITAL RIGHTS

X-Road Explainer from Tolm on Vimeo.

Les ratés de la personnalisation en ligne et la faiblesse de l’approche algorithmique

C’est en lisant Why Websites Still Can’t Predict Exactly What You Want de Harvard Business Review que ça m’a frappé. Les entreprises numériques ont encore bien des croûtes à manger avant d’avoir une personnalisation en ligne, digne de ce nom. Je vous en avais déjà parlé dans mon billet Certains ratés de la personnalisation numérique.

Toujours est-il que dans l’article de HBR, l’auteur met le doigt sur une possible explication de ces lacunes de personnalisation.

All that data and still an underwhelming result. What’s happening here? It seems that it’s a matter of how the companies position personalization. They regard it as a tool for upselling–they want to push us out of our comfort zone, to buy new things, and to buy more things. To achieve that goal, the companies can’t just look at one’s historical browsing or purchase patterns. Instead, data scientists look for traits in similar customers. When you position personalization this way, you build algorithms that are based on finding variables.

En effet, depuis l’avènement de « la filtration collaborative » d’Amazon, (c’est-à-dire ceux qui ont aimé ce produit ont aussi aimé tel, tel et tel autre produit, ce qui représente tout de même plus de 50% des ventes d’Amazon) les entreprises se sont confinés à l’analyse prédictive. Il s’agit donc d’une tentative d’upselling (concrétiser la 2e vente). Par contre, très peu, voire aucun effort n’est encore mis sur l’historique de consommation, ce que l’on nomme les données invariables. Comme l’auteur le mentionne, sur Amazon, si ça fait déjà quelques achats que je fais pour acquérir des souliers de grandeur 13WW, il y a de fortes chances que si je magasine encore des chaussures sur Amazon, ce le sera pour la même grandeur de chaussure. Pourtant, cette simple donnée invariable, qui améliorerait très sensiblement mon expérience usager en ligne, n’est toujours pas utilisée.

Pourquoi faire simple lorsqu’on peut faire compliqué?

C’est un peu la conclusion de l’auteur de l’article. Ce n’est pas sexy de travailler sans algorithme et il n’y a pas de valorisation pour les geeks qui les développe. Ça faciliterait par contre grandement la vie des clients internautes et les fidéliserait aussi sans doute à la marque

In short, these kinds of easy wins aren’t sexy enough for data scientists. And maybe they fear their effort would go unnoticed if we can get better personalization without teams of PhD’s spending three years to create hundreds of algorithms.
Data scientists are vital to the future economy and advanced algorithms are an extremely important part of their work. But from a market-facing perspective, simplicity and quick wins should be part of the data science toolbox.

#Charte Analyse des sentiments exprimés sur les médias sociaux à propos de la Charte des valeurs

Mise en contexte :

Comme vous le savez déjà, je me suis exprimée pour La charte des valeurs québécoises et je faisais partie des 20 Janette qui ont signé la lettre de Madame Janette Bertrand, qui elle-même a généré un mouvement massif d’appui populaire.

Mais cela étant dit, ça ne m’empêche pas d’être « neutre » et « objective » lorsque vient le temps d’analyser ce qui s’est dit sur les médias sociaux. Par ailleurs, l’analyse que je vous partage plus bas a été réalisée par deux collaborateurs d’importance, qui n’ont aucun enjeu personnel ou corporatif avec les discussions autour de la Charte. Il s’agit de SAS Canada (client de longue date et SAS est le pionnier de l’analyse de données et de l’analyse prédictive) et de Inbox, entreprise française spécialiste de la connaissance clients et usagers et du big data également implantée au Canada et ayant développé un complexe algorithme sémantique francophone permettant de faire de l’analyse de sentiment en français (ce qui est très rare parce que la majorité des outils disponibles sont anglophones et n’ont pas la capacité d’analyse de sentiments et du prédictif).

SAS Canada et Inbox ont l’habitude de travailler entre-autres avec des grosses boîtes financières, d’assurances ou de commerce de détail, de médias internationaux et du secteur public. Ce sont eux entre autres qui font de la détection de fraude par l’analyse de très grands volumes de contenus (Big Data) pour les cartes de crédit ou les assurances. Grâce à sa technologie, Inbox a été la première source à identifier la fin de la récession en France, deux semaines avant tout le monde. Tout ça pour vous dire que lors d’une discussion avec SAS et Inbox sur la difficulté d’expliquer l’importance du « big data » à des clients potentiels (parce que ce n’est pas sexy) je leur propose d’utiliser leur technologie pour un sujet chaud de l’heure (comme la charte des valeurs québécoises). Ainsi, les gestionnaires pourront facilement comprendre en extrapolant, comment eux-mêmes pourraient bénéficier de la compréhension de ce qui se dit sur les médias sociaux, pour leur propre organisation. Voici donc le rapport d’analyse de SAS Canada/Inbox sur les discussions sur les médias sociaux à propos de la charte des valeurs.

Pour comprendre les graphiques

Voici une analyse de sentiment “Big Data” de différents thèmes discuté sur les médias sociaux (Facebook, Twitter, blogue) à propos de la Charte des valeurs québécoises. Remarquez en abscisse “LE VOLUME DES MESSAGES” et en ordonnée “L’INDICE DE POSITIVITÉ DU MESSAGE” qui est aussi appelé “analyse de sentiment. Ceci est une version préliminaire de l’analyse, qui est toujours en cour. Étant donné que le projet de loi du PQ risque d’être déposé dans les prochains jours, un grand volume de commentaires continuera d’alimenter les discussions médias sociales. Pour comprendre comment se fait l’analyse de sentiment, je vous dirai qu’avec l’algorithme d’Inbox un terme comme « crise » contiendra 1000 paramètres différents afin de déterminer le contexte de ce mot spécifique et de savoir si on parle par exemple « d’une crise économique » ou si plutôt « il a pété une crise ». Leur analyse de sentiment est donc fiable à 85% et la marge d’erreur est la même pour tous. Aussi, si par exemple un twitt parle de Dalila Awada et qu’il contient un hyperlien vidéo, comme l’hyperlien et le vidéo ne seront pas analysés, ce ne sera que le contenu de la mise en contexte précédant l’hyperlien qui sera pris en compte.

Le corpus

Les sources suivantes ont été analysées:
• Twitter
• Facebook
• Forum Yahoo
• JM : Journal du Montréal avec 3 sous-forums:
http://blogues.journaldemontreal.com/politique/,
http://blogues.journaldemontreal.com/droitdecite/,
http://www.journaldemontreal.com/auteur/richard-martineau )
• LP : LaPresse avec 3 sous-forums :
http://blogues.lapresse.ca/boisvert,
http://blogues.lapresse.ca/edito,
http://blogues.lapresse.ca/avenirmtl )

Mon analyse

J’attire votre attention sur les diapositives 3, 4 et 5. Vous remarquez qu’elles sont des portraits des discussions médias sociaux des 14, 21 et 31 novembre octobre. Vous remarquerez sans doute aussi qu’au 14 octobre, la majorité des mots clés, personnalités et organisations associés au débat de la charte sont perçus très négativement. Par contre, après le 21 octobre, ces mêmes termes (en plus de celui de # Janette qui commence à apparaitre), font passer plusieurs mots du côté positif. Vous remarquerez aussi qu’étrangement, Charles Taylor est vu plus négativement qu’Adil Charkaoui, mais que son collègue Gérard Bouchard jouit d’une négativité beaucoup moins grande. Vous observerez sans doute aussi que le Conseil du Statut de la femme est l’entité la plus méprisée et que la CQCI est l’organisation qui récolte la plus positive des mentions sur les médias sociaux, mais vous observerez que le volume des messages qui y est associé est somme toute insignifiant comparativement aux Janette par exemple. Observez aussi que Les Anti-Charte et les pro-charte sont tous deux du côté négatif des discussions, que le volume des discussions est somme toute équivalent, mais que les pro-charte sont beaucoup moins détestées que les anti-charte. Finalement, les inclusives ont 10 fois moins de mentions que les Janette, et elles sont à peine perçues plus positivement que les Janette et elles sont toutes deux du côté positif des discussions. Je pourrais continuer de vous faire mes observations, mais vous comprenez sans doute maintenant le principe et je ferai cette discussion de vive voix la semaine prochaine lors d’une conférence au Salon BI. Donc bonne lecture et bonne analyse ☺

 

MAJ

Ce billet a été repris intégralement par le HuffingtonPost