En avril 2021, la mise en vente d’une base contenant les données de 500 millions d’utilisateurs de LinkedIn faisait les gros titres. Ces informations ne venaient pas d’une faille du réseau social, mais d’un simple « scraping » massif, comme Cyberguerre le détaillait alors. Autrement dit, le vendeur avait rassemblé des données accessibles par une simple visite sur le profil des personnes concernées, et n’avait pas obtenu de données privées.
Deux mois après cette histoire, une nouvelle séquence médiatique émerge, cette fois avec la mise en vente des données de 700 millions d’utilisateurs de LinkedIn. Elle a été publiée sur le même forum… par le même utilisateur, un certain « TomLiner » qui a créé son compte en février 2021. Mais il ne s’agit pas réellement d’une seconde base, plutôt d’une version améliorée de la première.
Comme il est de coutume dans le milieu, le vendeur a attaché à son offre un échantillon gratuit d’1 million de profils, que Cyberguerre s’est procuré. Cet extrait fait office de garantie de l’existence de la marchandise, dans un marché sans régulation où les arnaques sont nombreuses. En revanche, pour s’offrir l’intégralité de la base de données, il faut contacter directement le vendeur par une app de messagerie, et débourser une somme d’argent conséquente. Les conclusions de cet article sont donc tirées sur la base de l’échantillon, censé être représentatif.
Pourquoi parle-t-on de cette mise en vente ?
L’annonce de vente des données de LinkedIn a été publiée le 22 juin, noyée parmi des dizaines d’annonces similaires publiées quotidiennement sur le forum. Cinq jours plus tard, deux entreprises, PrivacySharks et RestorePrivacy en ont fait un article sur leurs sites respectifs. Si la première titre son papier sur la vente des données, la seconde parle d’une « fuite de données ». Leurs informations ont été peu reprises dans la presse américaine, mais les médias français s’en sont emparés massivement.
Il faut dire que dans l’échantillon à disposition, on retrouve de nombreuses données personnelles :
- Des adresses email;
- Des noms;
- Des numéros de téléphone;
- Des adresses de physique (lieu de travail ou domicile);
- Le lien vers les profils LinkedIn;
- Des coordonnées GPS liées à plusieurs événements, comme la création du compte;
- Le genre des utilisateurs et utilisatrices;
- Les éventuelles expériences professionnelles et académiques;
- Une estimation du salaire, calculée par LinkedIn sous plusieurs conditions;
- Et d’autres…
Attention, chaque profil ne contient pas l’intégralité de ces informations, loin de là. Pour cause : ces données ont pour la plupart été renseignées par les utilisateurs, et bon nombre de ces informations ne sont pas obligatoires pour créer un compte. Ce n’est pas tout : en principe, les utilisateurs savent qu’ils affichent ces informations publiquement. Résultat, la base contient systématiquement le nom attaché au profil, mais beaucoup plus rarement son numéro de téléphone.
Face à l’ampleur prise par le sujet, LinkedIn a publié un premier communiqué: « Nous voulons qu’il soit clair que ce n’est pas une faille de données, et qu’aucune donnée privée de membre de LinkedIn n’a été exposée. Notre enquête initiale conclut que ces données ont été « scrapées » sur LinkedIn et d’autres sites variés, et que cela inclut les mêmes données que celles dont nous avions parlé en avril 2021 ».
Peut-on parler d’une « faille » de LinkedIn?
Non
, du moins pas sur la base de l’échantillon. On parle de « faille » pour désigner une vulnérabilité dans le système, qui aurait été exploitée pour accéder à des informations protégées. Ici, toutes les informations collectées semblent a priori publiques — soit renseignées par l’entreprise, soit par l’utilisateur.
RestorePrivacy précise que les cybercriminels auraient abusé des API de LinkedIn — les API sont des interfaces web qui permettent de récupérer plus simplement les informations du site pour les employer autre part. Autrement dit, ils auraient automatisé la collecte grâce aux propres outils du réseau social. LinkedIn pense quant à lui que les malfrats ont obtenu une partie des données par une autre source.
En principe, les sites mettent des limitations au nombre de requêtes qu’une seule personne peut envoyer à leurs API afin d’éviter ce genre d’abus.
Peut-on parler d’une « fuite » de données ?
Pas vraiment. Une fuite
impliquerait qu’un conteneur (une base de données par exemple) fermé ait été ouvert et vidé de son contenu. Ici, les données se trouvaient déjà à l’extérieur de tout conteneur, sur les profils publics des utilisateurs. Le vendeur se serait contenté de les aspirer grâce au « scraping ». Troy Hunt, responsable de HaveIBeenPwned, site de référence sur les fuites de données, insiste sur la distinction.
Reste que le scraping est contraire aux conditions d’utilisation du site et que plus généralement c’est une pratique aux frontières de la légalité. De plus, les données, même si elles sont affichées publiquement, ne doivent en principe pas être réunies dans un même fichier. Pour cause : grâce à l’agrégation, un malfrat pourra lancer des opérations de masse, comme l’envoi de phishing.
Les données sont-elles vendues sur le « dark web » ?
Non.
Communément, on parle du « dark web » pour désigner la partie d’internet qui n’est pas accessible depuis un navigateur traditionnel (Firefox, Edge, Chrome, Safari, Opera…). On y englobe par exemple les sites en .onion, accessibles uniquement depuis le réseau Tor. Ces pages web parviennent à échapper à certaines régulations de l’internet traditionnel, ce qui en fait un refuge idéal pour les activités illégales, mais aussi pour bien d’autres choses, comme l’organisation d’activistes voulant échapper à la censure.
Dans notre cas, l’annonce de vente a été publiée sur un forum de vente de données populaire, connu par l’intégralité des gens du milieu. Pas besoin de compétence ou de connaissances particulières pour y accéder, il suffit d’entrer l’URL ou de rentrer quelques mots-clés sur un moteur de recherche
Bref, si le forum peut être qualifié de « marché noir » puisqu’il permet l’organisation d’activités illicites, il ne se trouve pas sur le « dark web ».
« 92% des utilisateurs de LinkedIn » sont-ils vraiment touchés ?
C’est plus compliqué que cela.
Dans son article, RestorePrivacy fait un calcul simpliste qui a largement été repris : puisque la base contiendrait 700 millions de profils, et que LinkedIn affiche publiquement qu’il dispose de 756 millions d’utilisateurs, la base cumulerait les données de 92% des utilisateurs du réseau social.
Sauf que dans le détail, certaines données sont périmées puisqu’elles ont été récoltées avant 2020. De même, elles peuvent appartenir à des comptes inactifs. Et ce n’est pas tout : si la base cumule les données de plusieurs sources, elle pourrait compter des doublons. En conclusion, le pourcentage d’utilisateurs actifs de LinkedIn qui seraient concernés devrait être inférieur à cette estimation.
Est-ce aussi grave que ça en a l’air ?
En cybersécurité, la quantité de données impressionne toujours, mais c’est surtout la qualité des données qui compte.
Or, cette base de données est dépourvue d’informations à très haute valeur comme les identifiants (nom d’utilisateur et mot de passe) et les informations bancaires. Ces données sont recherchées, car elles peuvent être exploitées immédiatement pour voler un compte ou dérober de l’argent.
En revanche, le fichier contient d’autres données personnelles exploitables bien que moins intéressantes, comme les emails ou les numéros de téléphone. Ces informations sont d’autant plus utiles qu’elles sont attachées à d’autres comme le nom, l’employeur ou encore la ville du domicile des victimes.
Un malfrat pourrait donc se servir des informations de la base pour envoyer des emails de phishing plus ou moins personnalisés. Ces messages auraient pour but de dérober des informations de haute valeur grâce à de faux formulaires ou à des malwares. Par exemple, un cybercriminel pourrait envoyer un phishing à tous les employés qui travaillent dans le secteur bancaire. La manipulation aurait pour objectif de récupérer les identifiants des comptes d’entreprises dans le but de s’infiltrer sur le réseau et d’y déployer un rançongiciel.
Ces scénarios catastrophes sont à nuancer par l’originalité de la base : le monde cybercriminel y trouverait-il vraiment des informations qu’il n’a pas déjà ? Les attaques ne pourraient-elles pas déjà être lancés grâce à une simple visite sur les pages LinkedIn des utilisateurs ?
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !