CNIL. La base légale de l'intérêt légitime : fiche focus sur les mesures à prendre en cas de collecte des données par moissonnage (web scraping). 10 juin 2024. [en ligne] [Consulté le 22.10.2024]
Meyer, Pauline. Web scraping de profils publics sur Linkedin. 9 juin 2022 In : Swissprivacy Law/150 [en ligne] [Consulté le 22.10.2024]
PFPDT. Data scraping - Joint Statement. August 24 2023. [en ligne] [Consulté le 22.10.2024]
Le web scraping est une technique informatique qui permet d’extraire des données depuis des pages web, le plus souvent de manière automatisée avec des logiciels dédiés, dans un format structuré permettant des analyses.
Les principaux buts du web scraping sont la revente en masse des données ou l’utilisation des données à des fins de démarchage et de prospection. Le plus souvent les données collectées sont des données d’identification et de contact.
Cette opération s'apparente à un processus automatisé de "copier-coller" des informations provenant des sites ciblés. Il peut faire partie intégrante d'une stratégie de growth hacking. Ce dernier regroupe un ensemble de techniques marketing visant à accélérer la croissance d'une entreprise.
D’une manière générale, dans la plupart des juridictions toutefois, les données personnelles qui sont « disponibles ou accessibles publiquement » ou « de nature publique » sur internet sont soumises aux lois sur la protection des données.
Les personnes qui recueillent ces données sont tenues de s’assurer qu’elles respectent ces lois mais les entreprises de médias sociaux et les entreprises de sites web qui hébergent des données personnelles accessibles au public (ex Linkedin) ont également des obligations quant à la récupération de données par des tiers sur leurs sites.
Que dit la loi ?
Aux Etats-Unis, les Cours américaines ont statué en faveur de ces outils. Le principe est que les entreprises peuvent réaliser toute opération concernant des données du moment que la loi ne l’interdit pas. Une décision “Linkedin vs HIQ du 18 avril 2022” fait primer le droit des affaires et la nécessité pour les entreprises d’utiliser les données pour réaliser leurs objectifs commerciaux sur la protection de la vie privée des utilisateurs.
En Europe, l’approche est inversée : il faut une base légale avant de traiter les données, sinon le traitement est illicite. Si les données présentes sur des plateformes et des réseaux sociaux sont publiques, elles ne sont pas librement réutilisables et n’en demeurent pas moins des données personnelles soumises au RGPD.
De plus, les grands principes applicables à tout traitement de données sont à respecter : limitation de la collecte des données, information des personnes, consentement, respect du droit d’opposition, réalisation d’une analyse d’impact…
Avant de faire de l’emailing par exemple, il faut le consentement de la personne, ou être déjà en communication avec elle pour le même objet ou ne pas la contacter dans un but commercial (article 6.1.a du RGPD). Le droit d’opposition doit être respecté (article 21 du RGPD).
Il faut également respecter les obligations en matière de prospection commerciale directe (interdiction de prospection directe si absence de consentement et d’information). La seule exception serait que les personnes concernées qui ont mis leurs données sur des plateformes ou des réseaux sociaux peuvent s’attendre raisonnablement à la réutilisation de leurs données.
A ce titre, dans le cas de la réutilisation de données provenant de linkedin par une société, la CNIL (Commission Nationale de l'Informatique et des Libertés) a considéré dans une délibération du 8 décembre 2020 que la réutilisation de données sans réel lien avec l’activité professionnelle des personnes concernées, sans information et sans recueil de consentement n’était pas admissible et que la société en question ne pouvait pas se baser sur un intérêt légitime pour réaliser le traitement.
En cas de non-respect de ces obligations, une condamnation est possible pour violation des articles 5,12 et 13 du RGPD (principes du traitement et droits des personnes).
En Suisse, le data scraping peut aussi constituer une violation de la sécurité des données. Le 24 août 2023, le Préposé fédéral à la Protection des données a publié une déclaration commune sur le data scraping et la protection des données, élaborée avec 9 autres autorités nationales de protection des données pour garantir la protection des données personnelles contre le moissonnage ou data scraping par des mesures à adopter par les entreprises de réseaux sociaux et les exploitants de sites web.
Ils sont tenus d’informer la manière dont ils protègent leurs clients contre le web scraping de données et sur les mesures pour contribuer à la protection de leurs données (ex. contrôles techniques et contrôles de sécurité).
La déclaration énumère également les mesures que les particuliers peuvent prendre pour réduire au maximum le risque de data scraping de leurs données (lecture des informations données par les sites sur la manière dont ils partagent les données personnelles y.c la politique de confidentialité ; réflexions sur la quantité et le type de données partagées et gestion des paramètres de confidentialité/sécurité).
Les restrictions légales
L’utilisation du web scraping peut être soumise à des restrictions légales ou à des politiques spécifiques des sites web concernés. Il est donc essentiel de lire et de respecter les conditions générales d’utilisation et les politiques de chaque site avant de réaliser toute opération de web scraping.
A titre d’exemple, les CGU de Linkedin disposent que : “Vous vous engagez à ne pas [...] développer, prendre en charge ou utiliser des logiciels, des dispositifs, des scripts, des robots ou tout autre moyen ou processus (notamment des robots d’indexation, des modules d’extension de navigateur et compléments, ou toute autre technologie) visant à effectuer du web scraping des Services ou à copier par ailleurs des profils et d’autres données des Services”.
Les pratiques contestées
Il est reproché aux entreprises qui utilisent les données issues du web scraping pour contacter des personnes de ne pas les informer sur la source des données, de se passer de leur consentement et de ne pas respecter leur droit d’opposition.
Ces données, bien que publiques et accessibles sur internet librement, ne sont pas moins des données personnelles et ne peuvent pas être exploitées à l’insu de la personne concernée.
Les risques pour la vie privée
D’une manière générale, les personnes perdent le contrôle des données personnelles lorsque celles-ci sont récupérées à leur insu et sans leur accord.
Les cyberattaques ciblées peuvent survenir lorsque des informations telles que les identités et les coordonnées, publiées sur des forums de piratage, sont exploitées par des acteurs malveillants pour mener des attaques spécifiques.
La fraude à l'identité, la surveillance ou le profilage de personnes, du marketing ou spam non désiré sont également des risques potentiels.
Si Linkedin et d’autres sites interdisent le web scraping, pourquoi y-a-t-il autant d’outils spécialisés (y compris dans le webscraping de linkedin) qui le permettent ?
Parce que techniquement rien n’empêche de faire du web scraping et que même si c’est interdit, les informations récupérées sont en fait librement accessibles en ligne.
Toutefois, pour un responsable du traitement, faire du web scraping alors qu’il a été averti des risques que cela implique, relève de sa responsabilité.
En tant qu’utilisateur de linkedin comment se protéger du web scraping ?
En évaluant bien les données que vous voulez voir apparaître librement. Sinon, linkedin lui-même travaille sur des algorithmes qui détectent les profils qui servent à faire de la collecte massive de données. Les profils qui ont une activité suspecte (par exemple trop importante) prennent des avertissements et peuvent finir par être bloqués définitivement.
Les sanctions en cas de violation des règles du web scraping
Le web scraping peut être effectué dans le respect de certaines bonnes pratiques. Toutefois, lorsqu'il est pratiqué de manière illégale, il peut entraîner des sanctions fondées sur le droit pénal, le droit de la concurrence, le droit de la propriété intellectuelle et le RGPD.
La CNIL, dotée d'un pouvoir de contrôle et de sanction en matière de RGPD, peut punir les pratiques de web scraping illicites en raison du non-respect des règles relatives à la protection des données personnelles.
Les recommandations générales en matière de collecte et d’extraction de données personnelles sur internet
Pour les entreprises qui utilisent le web scraping, les recommandations sont de :