Archives des intelligence artificielle

Le recours à l’Intelligence artificielle pour lutter contre la fraude fiscale

En France, les chiffres relatifs à la fraude fiscale ont de quoi impressionner. Après avoir estimé en janvier 2013, l’évitement illégal de l’impôt entre 60 et 80 milliards d’euros par an, le syndicat national Solidaires finances publiques a estimé en 2017[1], qu’il se situait dans la fourchette haute et qu’il était possible qu’il atteigne jusqu’à 100 milliards d’euros. Cette estimation du premier syndicat représentatif des agents du ministère chargé des impôts joue un grand rôle, car elle est très souvent reprise dans le débat politique et médiatique. Celle-ci, pour la Cour des comptes, se situerait aux alentours de 20 milliards d’euros par an (elle est probablement sous-estimée). En cumulant sur 10 années et prenant la fourchette basse de la Cour des Comptes, le coût de la fraude fiscale serait de 400 milliards d’euros (avec l’hypothèse haute du syndicat Solidaires finances publiques, deux fois plus). Combattre l’évitement illégal de l’impôt nécessite une stratégie globale. Cela passe en premier lieu par la législation fiscale et pénale. Le grand nombre de dispositifs dérogatoires par exemple nourrit le risque de fraude puisque les multiples conditions qui les assortissent ne sont pas toujours respectées. De ce point de vue, une revue de ces dispositifs ayant pour objectif d’en réduire le nombre et le coût s’impose. Cela passe également par la mobilisation de moyens humains (les personnels des services spécialisés en la matière), juridiques (les procédures de contrôle proprement dites par exemple) et techniques. C’est sur ce dernier point que nous revenons ici, tant il est vrai qu’ils ont constitué la priorité des pouvoirs publics, qui ont, hélas, surtout vu dans l’intelligence artificielle le moyen de poursuivre les suppressions d’emplois au sein de l’administration fiscale (voir sur ce sujet notamment la note de l’Institut Rousseau d’avril 2022[2]). I) Big Data et IA à la Direction générale des finances publiques (DGFiP) Plusieurs initiatives ont déjà été mises en place dans les pays européens : lutte contre l’escroquerie à la TVA en Belgique via la modélisation automatique des réseaux, dispositif Connect en Angleterre pour détecter les incohérences dans les déclarations fiscales, système nommé Redditometro en Italie pour comparer montants d’imposition et trains de vie constatés. La France s’inscrit dans ce sillage, et les premières applications de l’IA dans l’administration de la fraude fiscale apparaissent sporadiquement. L’une des difficultés au déploiement de l’IA est liée à la complexité des missions de ces administrations, étant précisé par ailleurs que l’administration fiscale, déjà très « numérisée » , utilise de longue date des applications prévoyant des possibilités de requêtage très utilisées par les personnels dans le cadre de leurs missions. Depuis 2014, Bercy dispose d’une cellule de data mining spécialisée, qui utilise un outil dédié au ciblage de la fraude et valorisation des requêtes (CFVR). Par l’analyse des comportements frauduleux constatés et la modélisation de ces derniers le but est d’identifier des critères caractérisant une personne ayant des comportements à risque de fraude. Le CFVR exploite les informations de 11 bases de données[3]. Précisons-le, initialement, ce traitement automatisé de données a porté sur la détection de la fraude en matière de TVA. En 2017, l’outil a été étendu aux personnes physiques, de façon expérimentale, par voie d’arrêté. Selon un rapport du Sénat déposé en 2020 par les sénateurs Thierry Carcenac et Claude Nougein[4], les techniques d’analyse de données utilisées « sont sans cesse étendues. En plus du data mining et du recours à l’IA, se développe le textmining, soit le traitement de données non structurées [textes ou images]. En parallèle, une expérimentation est menée dans plusieurs départements afin de croiser les déclarations des contribuables, les vues aériennes et les plans cadastraux pour traquer les erreurs, intentionnelles ou non, de déclaration des contribuables. Pour ce faire, la DGFiP s’appuie sur un logiciel développé par la société Accenture. » Les algorithmes permettent de faire du data mining, de l’exploration des données grâce à l’IA. Les algorithmes sont capables de détecter des incohérences dans les fichiers entre revenus, opérations financières ou trains de vie par rapport aux déclarations fiscales des ménages. Le décret publié le 13 février 2020 au Journal officiel, précisant les modalités de l’article 154 de la loi de finance 2020, a donné le coup d’envoi d’une expérimentation sur trois ans ne couvrant que trois types de fraudes : le trafic de marchandises prohibées, l’activité professionnelle non déclarée et la domiciliation fiscale frauduleuse. Le champ des données prospectées par cette IA dans le cyberespace est particulièrement étendu puisqu’il concerne les réseaux sociaux comme Facebook, les messageries comme Instagram ou encore les sites de commerce en ligne tels que LeBonCoin ou eBay. Ce programme doit permettre aux data scientists d’affiner leur méthode de profilage pour les personnes physiques. Il s’agit de renforcer les outils de détection des fraudes fiscales ou douanières particulièrement graves, pour lesquels les moyens d’investigation traditionnels des administrations sont insuffisants : fausse domiciliation fiscale à l’étranger, activité commerciale occulte, activités illicites telles que la contrebande de tabac ou le commerce de stupéfiants. L’affaire de la domiciliation fiscale de Johnny Hallyday illustre la démarche d’exploitation des réseaux sociaux à des fins de lutte contre la fraude pour déterminer la résidence fiscale effective (France ou États-Unis) au regard de la fiscalité applicable à la succession. L’analyse des contenus publiés par le défunt et sa famille (géolocalisation des photos) avait vocation à retracer ses déplacements et quantifier le nombre de jours passés dans chacun des pays, afin d’évaluer si les critères de résidence fiscale étaient démontrés ou non. Consultée en amont sur le projet de loi, compte tenu de l’impact du dispositif sur la vie privée et ses possibles effets sur la liberté d’expression en ligne, la Commission nationale de l’informatique et des libertés (CNIL) a mentionné expressément des réserves afin de préserver un équilibre entre l’objectif de lutte contre la fraude fiscale et le respect des droits et de la liberté des personnes[5] et a indiqué qu’un pareil test « doit s’accompagner de garanties fortes afin de préserver les droits et libertés des personnes concernées ». Une grande prudence dans l’utilisation des données personnelles est exigée aux administrations publiques. Seules

Par Briot-Hadar J., Drezet V.

11 octobre 2024

L’urgence d’une indépendance numérique révélée par l’urgence sanitaire

Dans la gestion de la crise actuelle, la place accordée aux technologies du numérique a été au cœur de nombreux débats. En particulier, la question de l’accès aux données personnelles est devenue centrale dans les échanges autour du traçage des contacts et du partage des données de santé. Mais la crise a également révélé des fragilités majeures dans notre politique de gestion de ces données, en questionnant notamment l’attribution de la plateforme des données de santé à l’entreprise Microsoft. En outre, la crise a accéléré le recueil et l’exploitation de ces données, sans prendre en compte les conséquences futures de cette captation. Il devient ainsi impératif de se poser la question des répercussions à long terme des décisions prises aujourd’hui. Il faut également nous interroger sur les grands enjeux qui se cachent derrière nos choix numériques afin de mieux lancer les chantiers de long terme que nous impose ou que devrait nous imposer aujourd’hui la géopolitique du numérique. Introduction Nos données numériques apportent quantité d’informations sur nous-mêmes, mais aussi sur l’état de notre société, sur ses atouts et ses fragilités. Derrière des applications anodines circulent en effet des données sur l’état de santé de la population, des indices sur sa réalité sociale, sur l’état de ses infrastructures routières ou encore des informations, parfois sensibles, sur ses activités économiques et politiques. Selon l’usage que l’on fait de ces informations, l’impact sur la société peut être bénéfique ou néfaste. La mathématicienne Cathy O’Neil nous alerte par exemple sur l’usage des données dans l’éducation, la justice en passant par le commerce ou la santé, les organismes sociaux ou les assurances[1]. Les données de santé sont par exemple un trésor pour les compagnies d’assurance qui, si elles y accèdent, peuvent définir des profils de clients à risque pour adapter leur proposition commerciale, accentuant ainsi certaines inégalités face à la santé. C’est pourquoi il ne faut pas prendre à la légère les enjeux qui se cachent derrière le numérique et la circulation des données. Par ailleurs, ces données sont aussi la matière première des technologies d’apprentissage automatique, souvent regroupées autour du terme « intelligence artificielle », et sur lesquelles reposent de nombreuses innovations technologiques telles que la reconnaissance faciale ou la voiture autonome. Les entreprises et les États trouvent un intérêt évident dans la course à ces données massives qu’ils peuvent utiliser pour développer des technologies de pointe dédiées à des secteurs variés, tels que le contrôle aux frontières, la sécurité, la santé, la justice ou le militaire. Dans le domaine de la santé, au cœur de cette note, les données sont nécessaires si l’on souhaite développer les technologies de machine learning qui permettent d’accompagner la recherche médicale et d’améliorer les outils des praticiens. À ce titre, elles sont déterminantes dans le développement de ce tissu industriel. Mais elles sont aussi éminemment stratégiques : la surveillance des données de santé à l’échelle d’un pays donne une carte d’identité précieuse qui révèle les fragilités d’un système de santé, celles des individus, et permet d’orienter des décisions économiques, politiques voire militaires. La Direction générale de la sécurité intérieure (DGSI) alertait d’ailleurs, dès 2018, sur l’acquisition par les entreprises américaines de plusieurs sociétés françaises expertes dans le traitement de ce type d’informations, et notamment la branche dédiée à la gestion des données clients et stratégiques de Cegedim, acquise par IMS Health en 2015. L’administration s’inquiétait alors de la captation, par « des entités tant publiques que privées », d’informations stratégiques et orientant la politique économique des États-Unis vis-à-vis des industries françaises[2]. Un an plus tard, Microsoft Azure fut désigné, sans passage par un appel d’offre, comme prestataire principal de la Plateforme des données de santé des Français, baptisée Health data hub[3]. Cet hébergeur, qui propose également des services d’analyse, accélère sa captation de données dans l’urgence de la crise sanitaire. En matière de géopolitique des données, la gestion de la crise actuelle agit ainsi comme un formidable révélateur de notre dépendance extérieure dans le domaine du numérique appliqué à la santé. Face aux enjeux d’indépendance numérique et de protection des données qui se posent, de grands et longs chantiers seront nécessaires. Cette note propose d’apporter quelques pistes de réponses sur la manière de les engager. 1. Penser le numérique relève d’une approche transversale qui s’applique à l’analyse de la gestion des données numériques en santé Penser le numérique, notamment dans un secteur aussi essentiel et structurant que la santé, nécessite une approche transversale qui prenne en compte plusieurs couches de l’activité numérique. En 2016, la politologue Frédérick Douzet proposait trois « couches du cyberespace » : la couche physique, logique et sémantique[3]. Le schéma ci-dessous s’inspire de ce modèle, mais propose un échelonnage à quatre niveaux des technologies, hiérarchisées selon leur rôle dans l’activité numérique : les socles matériels sans lesquels aucune activité numérique n’est possible, composés des infrastructures mais aussi du matériel informatique et mobile ; les applicatifs codés, c’est à dire les OS, les logiciels ou les algorithmes, les sites internet, les applications ; les données dont les flux circulent entre applicatifs et socles ; les usages, qui définissent les manières de vivre dans et avec le numérique. Cette approche transversale donne une place particulière à la dimension matérielle, dans un domaine où très souvent le virtuel et le vocabulaire qui l’accompagne, du cloud au data lake, fabrique un imaginaire qui donne l’impression d’un effacement des frontières physiques et géographiques. Comme l’énonce Amaël Cattaruzza, « les processus de datafication nous obligent à modifier nos approches et nos interprétations et à reconsidérer le concept clef de la géopolitique, à savoir le territoire »[4]. Ainsi, ce n’est pas parce que nos données sont numériques qu’elles ne suivent pas un parcours, qu’elles n’ont pas un lieu de production et de destination, et que les enjeux de leur captation ne renvoient pas à des réalités géopolitiques. Or, la stratégie numérique en matière de données de santé concerne chacune de ces couches. Elle pose d’abord la question des socles matériels, qui correspond à la « couche physique

Par Ophélie Coelho

20 mai 2020

intelligence artificielle

Le recours à l’Intelligence artificielle pour lutter contre la fraude fiscale

L’urgence d’une indépendance numérique révélée par l’urgence sanitaire

Tenez-vous informé

L’Institut Rousseau fête ses 5 ans ce samedi 12 avril, pour vous inscrire à notre après-midi de conférences, c’est ici