Algorithme de détection : identifier les boîtes aux lettres via adresses multiples

28 juin 2025

Contexte et définition : qu’est-ce qu’une “boîte aux lettres” ?

Avant d’entrer dans les arcanes de l’analyse algorithmique, il est crucial de bien définir en quoi consiste une “boîte aux lettres” dans un cadre entrepreneurial. Le terme, quelque peu familier, recouvre deux réalités différentes. Premièrement, il y a la pratique tout à fait licite de domiciliation d’entreprise. En France, par exemple, des sociétés de domiciliation proposent légalement d’héberger votre entreprise à une adresse. Vous pouvez y recevoir du courrier, y tenir des réunions occasionnelles et bénéficier d’une image plus professionnelle qu’une simple adresse personnelle. Cette activité, parfaitement réglementée et fréquente, n’a rien de suspect.

Néanmoins, la notion de “société boîte aux lettres” recouvre, deuxièmement, un usage détourné de cette même domiciliation (ou de multiples adresses) dans le but de dissimuler tout ou partie de l’activité réelle. Les indices typiques d’une telle situation incluent la présence de dizaines d’entreprises différentes à la même adresse, sans qu’aucune ressource humaine ou matérielle ne s’y trouve véritablement. Dans certains cas, la boîte aux lettres peut même être uniquement un nom apposé à un boîtier communal, sans aucun local dédié. Au-delà de la dimension innocente de recherche de flexibilité, l’utilisation additionnelle d’adresses multiples peut signaler un schéma d’évasion fiscale, de blanchiment ou d’autres pratiques indésirables. Nous nous concentrerons donc sur l’aspect “suspect” ou “à risque” de ce phénomène.

Pour mener à bien une analyse permettant de discriminer les structures qui relèvent de la simple domiciliation légitime de celles qui trichent, on aura besoin de recouper plusieurs jeux d’informations. Les bases de données d’entreprises publiées par l’INSEE, les greffes des tribunaux de commerce, voire des fournisseurs d’adresses postales peuvent servir de fondations. Le but est de déterminer quelles entités déclarent des adresses multiples et surtout, quels signaux indiquent que l’une ou plusieurs de ces adresses sont fictives ou non-exploitées. Il est ainsi question de “drapeaux rouges” que l’algorithme cherchera à mettre en évidence.

Pourquoi détecter les boîtes aux lettres ?

Certains se demanderont : “Est-ce vraiment essentiel de déployer un tel algorithme de détection ?” La réponse est clairement oui, et voici trois raisons majeures. D’abord, il y a la question de la sécurité juridique et économique. Toutes les entités officielles – que ce soient les services fiscaux, les organismes de contrôle ou les banques – ont besoin de certitudes lorsqu’ils interagissent avec une entreprise. Une adresse douteuse peut susciter des litiges, des retards dans l’envoi de courriers importants et, par extension, fragiliser la gestion du quotidien.

Ensuite, il y a l’aspect financier. Lorsque les grandes sociétés et organismes gouvernementaux traitent avec un fournisseur qui affiche plusieurs adresses, dont certaines paraissent inactives, elles ont tout intérêt à vérifier la fiabilité de leurs partenaires. Cela leur évite de tomber dans le piège de fausses déclarations de TVA ou de factures fictives. Dans le secteur public, la lutte contre la fraude fiscale constitue un sujet sensible, et l’identification de boîtes aux lettres fictives permet de protéger les recettes de l’État et de consolider les bases d’une saine concurrence entre acteurs économiques honnêtes.

Enfin, on ne saurait passer sous silence l’enjeu d’image. Les grands groupes comme les PME veulent collaborer avec des prestataires et fournisseurs transparents. Les associations d’entrepreneurs elles-mêmes, soucieuses de l’éthique, vont préférer s’affilier à des partenaires qui ne soulèvent pas de soupçons. Détecter les boîtes aux lettres est donc également un moyen de maintenir un haut standard de crédibilité dans tout l’écosystème professionnel. Les entrepreneurs qui se lancent avec un nouveau projet ou tentent de convaincre des partenaires institutionnels ne veulent pas être pointés du doigt pour avoir collaboré, même involontairement, avec des entités fictives.

Principes fondamentaux de l’algorithme de détection

L’architecture d’un algorithme dédié à la détection des boîtes aux lettres repose généralement sur trois piliers : la collecte de l’information, l’analyse des signaux et la mise à jour en continu du modèle. Pour éclairer ce point, je vous propose d’entrer dans quelques détails méthodologiques utiles, à la fois pour les dirigeants d’entreprise qui souhaitent comprendre comment ces méthodes peuvent les toucher et pour ceux qui envisagent d’implémenter un tel mécanisme.

Collecte de l’information : La première étape consiste à rassembler les adresses et informations légales associées à chaque entité. Cette opération peut se fonder sur des données publiques (comme celles issues du fichier SIRENE) ou sur des informations propriétaires (par exemple, un ensemble d’adresses découvertes dans le cadre d’un audit interne). Les données indiquent, pour chaque entité, une ou plusieurs adresses déclarées, le code postal, la région, et potentiellement des éléments d’activité économique (code APE, historique d’immatriculation, nombre de salariés, etc.).

Analyse des signaux : Ensuite, l’algorithme applique une série de règles ou de calculs statistiques pour évaluer si ces adresses multiples sont cohérentes avec la réalité opérationnelle de l’entreprise. Quelques exemples de signaux révélateurs : un nombre inhabituellement élevé d’entités enregistrées à la même adresse, des codes postaux identiques pour des activités différentes ou des incongruités entre la localisation et la distance aux centres d’activité (ex. un prétendu entrepôt logistique localisé dans une zone résidentielle haut de gamme). Le croisement de ces signaux fournit un score de risque qui aide à classer les entités.

Mise à jour continue : Un algorithme de détection digne de ce nom ne se contente pas d’une analyse statique. Au contraire, il doit être évolutif et s’enrichir de nouvelles informations au fur et à mesure : changements d’adresse, fermeture d’un site, nouvelle déclaration d’activité, fusion ou acquisition, etc. Plus l’algorithme dispose de données pertinentes et récentes, plus il devient efficace pour repérer les boîtes aux lettres frauduleuses ou dormantes.

Bien sûr, la conception de l’algorithme inclut aussi une partie “nettoyage” de la donnée : enlever les doublons, vérifier que les nouveaux enregistrements ne sont pas confondus avec d’anciens, et harmoniser le format d’écriture des adresses (orthographe d’une rue, code postal avec ou sans espace, etc.). Cette qualité des données est cruciale pour limiter le bruit et obtenir des listes de suspects réellement actionnables. Une fois le score de risque établi, on peut passer à la phase de vérification manuelle pour les cas prioritaires ou critiques.

Approche pratique : comment les entreprises peuvent-elles mettre en place un tel algorithme ?

Il est courant de penser que seuls les organismes publics ou les banques ont les ressources pour concevoir et déployer un algorithme de détection pointu. En réalité, les entreprises de taille intermédiaire (ETI) et même certaines PME peuvent tout à fait mettre en place un dispositif plus ou moins sophistiqué selon leurs besoins. Voici quelques pistes à considérer :

  • Recenser les sources de données disponibles : Par exemple, accéder au Répertoire SIRENE pour toutes les informations de base sur les entreprises françaises. Si votre activité s’étend à l’international, vous pourriez vous tourner vers des bases de données étrangères officielles ou payantes. Des fournisseurs privés, spécialisés dans le data mining, peuvent également vous fournir des listings d’adresses déclarées.
  • Établir des critères de suspicion : Quelles sont les situations qui vous posent problème ? Si vous êtes un organisme bancaire, vous vous focaliserez sur la cohérence entre les adresses déclarées par vos clients et leur activité déclarée (agences, sièges sociaux, points de vente). Si vous êtes un groupe industriel, peut-être serez-vous plus sensible à la localisation de certains entrepôts ou antennes commerciales.

Après avoir défini ces critères, vous pourrez les traduire en règles logiques ou en algorithmes d’apprentissage automatique. Par exemple, on peut imaginer un score calculé à partir de la distance entre le siège social et l’adresse secondaire déclarée comme point de production. Si la distance est trop importante (disons plusieurs centaines de kilomètres) et qu’aucune entité de ressources humaines n’y est rattachée, on obtient un signal d’alerte. L’algorithme additionne différents indicateurs (distance, densité d’entités dans le même immeuble, cohérence de l’activité économique, etc.) pour produire un résultat final.

Ensuite, la mise en place opérationnelle passe par la phase de test. Sur un échantillon de données existantes, vous appliquez ces règles et voyez combien de “faux positifs” apparaissent (adresses suspectées à tort). Les entreprises ajustent alors leurs seuils et affinent leurs règles jusqu’à arriver à un taux d’erreur minimal. Enfin, la dernière étape consiste à former les équipes internes à l’usage de cet outil, pour comprendre ce que signifient les “notes de risque” ou quels documents demander en cas de doute.

Analyse statistique et indicateurs clés

Pour qu’un algorithme de détection soit véritablement efficace, il s’appuie le plus souvent sur des analyses statistiques dont la validité est vérifiée par des tests empiriques. Ces indicateurs clés mettent en perspective la distribution des adresses sur des axes multiples et aident à distinguer les anomalies. Les ingénieurs data ou les analystes s’appuieront sur des approches comme la classification par densité (pour repérer les regroupements d’entités inhabituels) ou des méthodes de clustering (par exemple, le fameux k-means) pour segmenter les adresses en groupes distincts.

Un exemple simplifié : imaginons un réseau d’environ 10 000 entreprises domicilées dans une zone urbaine. Sur cette base, nous analysons le ratio “nombre d’entités par immeuble” et découvrons qu’un immeuble particulier revendique pas moins de 500 domiciliations. Si la moyenne dans la zone est plutôt de 20 à 30 adresses par immeuble, cet écart attire immédiatement l’attention. L’algorithme va alors creuser d’autres variables : le secteur d’activité de ces 500 entreprises, leur chiffre d’affaires déclaré, le nombre de salariés, etc. Si l’on décèle une cohérence douteuse (par exemple, une proportion anormalement élevée de sociétés unipersonnelles, pas de dépôt de comptes depuis plusieurs années, etc.), la suspicion grimpe en flèche.

Par ailleurs, on peut intégrer des fonctions de scoring avancées pour classifier une entité en “faible risque”, “risque modéré” ou “risque élevé”. On attribue des coefficients : le coefficient 1,5 si plus de 100 adresses sont recensées à ce même numéro de rue ; le coefficient 2 si l’entreprise n’a pas déposé de comptes depuis plus de deux exercices ; le coefficient 1,2 si le représentant légal réside dans un pays tiers à l’Union européenne, etc. Le produit de ces coefficients aboutit à un score global. Par la suite, un analyste peut vérifier plus précisément les entreprises ayant un score dépassant un certain seuil (par exemple 8 ou 9).

Selon des études menées par diverses autorités fiscales et certains cabinets d’audit, l’utilisation de tels modèles peut réduire de 30 à 40% le temps passé en investigations manuelles. Et surtout, elle peut augmenter significativement la détection précoce de pratiques illicites ou de fraude. Bien sûr, un algorithme n’est pas infaillible, d’où l’importance de le compléter avec des retours terrain, des visites, ou des demandes de documents. L’objectif n’est pas de remplacer l’enquête humaine, mais de prioriser et d’aiguiller les efforts de vérification.

Études de cas et données concrètes

Pour illustrer la réalité de ces mécanismes, je me souviens d’un cas d’une PME française spécialisée dans la revente de pièces automobiles. Cette entreprise déclarait deux adresses : un siège social en région parisienne et un “entrepôt” dans le sud de la France. Or, en analysant la géolocalisation et certaines informations recueillies sur place, on découvre que “l’entrepôt” est en fait un simple appartement. Différents signes laissaient présager un souci : l’entreprise commandait des quantités de pièces a priori trop importantes au regard de son chiffre d’affaires déclaré, et les adresses figurant sur les factures ne correspondaient pas toujours à des lieux de stockage plausibles.

Un autre cas plus extrême : une adresse dans laquelle étaient enregistrées pas moins de 250 micro-entreprises. Au-delà d’une domiciliation collective licite, des suspicions ont émergé, car plusieurs de ces micro-entreprises semblaient appartenir à des individus liés entre eux (même patronyme de famille, mêmes coordonnées téléphoniques). L’algorithme avait repéré les recoupements dans les noms et dans les comptes bancaires renseignés. Contrôle sur place : aucune enseigne visible, aucune salle partagée, aucune trace d’activité. Résultat : il s’agissait d’un vaste mécanisme de fausses facturations destiné à produire des déclarations de TVA frauduleuses.

Dans chacun de ces scénarios, un algorithme de détection s’avère extrêmement précieux pour braquer les projecteurs sur les dossiers suspects. Sans un tel outil, la quantité d’adresses à vérifier manuellement aurait été colossale, et la fraude aurait pu perdurer plus longtemps. Son efficacité augmente encore lorsqu’on combine l’algorithme à un système d’alertes automatiques, lequel notifie un analyste dès qu’un critère déterminé est rempli (pourcentage d’associés en commun, multiplications d’adresses en un laps de temps court, etc.).

Points d’optimisation et limites de l’algorithme

Aussi performant soit-il, un algorithme de détection reste limité par la qualité et la complétude des données analysées. Si l’entreprise n’a accès qu’à des registres partiels ou obsolètes, l’algorithme risque de manquer des signaux critiques. Comme je l’ai déjà expliqué, pour éviter les ratés, le nettoyage et la mise à jour régulière des bases d’adresses sont indispensables. Il est donc utile de nouer des partenariats avec des organismes officiels, des bases de données fiables ou des tiers de confiance qui publient des informations régulièrement réactualisées (répertoire des entreprises, fichiers postaux, etc.).

En outre, un false positive trop élevé peut se révéler extrêmement chronophage. Les équipes internes risquent alors d’être submergées par un flot de signalements injustifiés. Autrement dit, un algorithme mal calibré pourrait générer plus de confusion que d’éclaircissements. Pour pallier ce problème, on procède à des phases de test et de recette logicielle, afin de trouver l’équilibre judicieux entre sensibilité (détecter un maximum de boîtes aux lettres réelles) et spécificité (ne pas trop alerter sur des cas légitimes). Il est fréquent que l’on commence par des réglages prudents, quitte à affiner au fur et à mesure que l’on obtient des retours concrets du terrain.

Par ailleurs, il faut se souvenir de l’aspect légal et éthique. Traquer des adresses fictives implique souvent de manipuler des données personnelles ou des informations confidentielles, par exemple l’adresse personnelle d’un entrepreneur, ou encore des éléments bancaires. Il est primordial de s’assurer de la conformité avec le RGPD (Règlement général sur la protection des données) et avec toutes les lois en vigueur sur la protection de la vie privée. De plus, l’objectif n’est pas de ficher ou de stigmatiser des entrepreneurs, mais bien de repérer les situations manifestement anormales. Sur le plan éthique, le paramétrage des algorithmes doit éviter les biais discriminatoires : par exemple, il ne serait pas souhaitable qu’un algorithme marque d’office tout entrepreneur étranger ou toute entreprise domiciliée en zone rurale comme suspect.

Pour finir, il arrive que certains entrepreneurs légitimes aient de bonnes raisons d’exploiter plusieurs adresses. Prenons l’exemple d’une start-up en forte croissance qui teste différents bureaux partagés, répartis sur plusieurs villes pour être proche de ses clients. Sans un examen contextualisé, un algorithme simpliste conclurait peut-être à une “boîte aux lettres”. D’où l’importance d’un suivi manuel, réalisé par des experts internes ou externes, pour clarifier les zones grises et valider les dossiers qui ne relèvent en fait d’aucune fraude.

Recommandations finales pour un usage éthique et sécurisé

La mise en place d’un dispositif algorithmique visant à identifier les boîtes aux lettres grâce à des adresses multiples ne doit jamais être conçue comme un dispositif purement répressif. Il s’agit plutôt de sécuriser son environnement professionnel et de s’assurer que toutes les initiatives entrepreneuriales se déploient dans un cadre équitable. Voici quelques derniers conseils pour optimiser cette démarche.

  1. Faites participer un collectif d’experts : Solliciter un avocat ou un expert-comptable familiarisé avec les obligations légales liées aux adresses d’entreprise est un atout précieux. Ils peuvent vous éclairer sur les limites à respecter et sur l’interprétation exacte des signaux détectés.
  2. Misez sur la transparence : Lorsque vous collecteZ des données auprès de vos partenaires ou fournisseurs, informez-les des raisons de ce recueil et de la finalité de l’analyse. Une communication claire dissuade déjà une partie de la fraude, et elle contribue à instaurer un climat de confiance.

Au-delà de ces recommandations, je précise qu’il est primordial de s’assurer de la mise à jour régulière des algorithmes. Le monde des affaires évolue rapidement, les règles fiscales changent, et les fraudeurs eux-mêmes affinent leurs méthodes. Rester vigilant via un outil évolutif permet de limiter les angles morts. Vous pouvez également envisager un partenariat avec d’autres entreprises de votre secteur ou avec des organismes professionnels pour partager les bonnes pratiques et vous tenir informé des nouvelles typologies de fraude.

Dans mon quotidien d’entrepreneure passionnée par la données économiques et le droit, j’ai pu voir combien ce type de solution peut devenir un atout concurrentiel. En effet, afficher et prouver que vous maîtrisez les points de sécurité et de conformité rassure vos clients, vos fournisseurs et vos partenaires financiers. Les entrepreneurs qui se préoccupent de la qualité de leurs relations et de la fiabilité de leurs opérations y trouvent un véritable avantage. Le commerce florissant repose sur la confiance, or rien ne détruit plus vite cette confiance que la découverte d’adresses fictives ou de montages suspects chez un tiers.

Au-delà du pur aspect technique, n’oublions jamais la dimension humaine de ces outils. Un algorithme reste un moyen d’accélérer et de fiabiliser des tâches complexes, mais l’expertise humaine demeure irremplaçable pour interpréter les résultats. Les collaborateurs, formés et sensibilisés, peuvent affiner le diagnostic, repérer des signaux faibles que l’algorithme n’aurait pas vus ou encore initier le dialogue avec l’entreprise concernée. De même, si vous êtes vous-même “côté domino” et que vous découvrez soudain que vos adresses, parfaitement justifiées, soulèvent des questions, veillez à préparer des pièces justificatives claires : baux commerciaux, factures de services, attestation de présence effective du personnel, etc.

En définitive, la détection de boîtes aux lettres via l’analyse d’adresses multiples est devenue un pilier incontournable de la lutte contre la fraude et de la sécurisation des transactions commerciales. Doté d’un algorithme robuste, d’une équipe sensibilisée et d’une gestion éthique de la donnée, chaque acteur – qu’il s’agisse d’une petite société, d’une administration ou d’un grand groupe – franchit un palier supplémentaire dans sa capacité à protéger ses intérêts et ceux de ses partenaires. Les exemples réels, ainsi que les retours d’expérience, confirment l’utilité de ces dispositifs, à condition de toujours garder en tête les principes de proportionnalité, de transparence et de respect de la vie privée.

Mise en place méthodique, usage prudent, amélioration continue : le triptyque pour un algorithme qui valide la solidité de vos échanges et renforce la confiance, aussi bien en interne qu’auprès de tiers. Que vous soyez une start-up, une ETI ou une multinationale, n’oubliez pas que cette démarche n’est pas un luxe, mais un élément-clé de votre stratégie de conformité.