Village de la Justice www.village-justice.com

Preuve numérique et police prédictive : "la data au coeur de l’enquête".
Parution : mardi 24 août 2021
Adresse de l'article original :
https://www.village-justice.com/articles/preuve-numerique-police-predictive-data-coeur-enquete,37987.html
Reproduction interdite sans autorisation de l'auteur.

« Les données explosent et sont devenues les pépites du 21e siècle. Cette nouvelle dimension bouleverse le travail des forces de l’ordre et des services d’enquêtes » [1]. Les enjeux de l’utilisation des données numériques dans le cadre des enquêtes pénales, cet « or noir » qu’est la data, sont multiples et posent notamment la question de leur force probante.
Où en sommes-nous dans les techniques de recueil de preuves numériques ? Sommes-nous passés à une police 4.0 ? La police prédictive, mythe ou réalité ? Autant de questions à la formulation un peu provocatrice, auxquelles répond Laurent Cellier, délégué à la protection des données chez Deveryware, entreprise spécialisée dans les technologies d’investigation et des services pour la sécurité.

Village de la Justice : Est-ce que la preuve numérique est devenue la nouvelle « reine des preuves », pour reprendre l’expression souvent associée à la preuve ADN ? Quelle est aujourd’hui la place de la preuve numérique dans les enquêtes ?

Laurent Cellier : « Vous avez le sens de la formule, mais je ne me permettrais pas de dire ça ! D’une part parce que l’ADN a toujours cours et est toujours utile ; c’est un élément de preuve parmi d’autres. Sur une scène de crime, on a des éléments « purs et durs », physiques, matériels : de l’ADN, des empreintes, etc., plein d’indices qui ne sont pas forcément numériques. Mais il est vrai, a contrario, qu’aujourd’hui, il n’y a plus une enquête dans lesquelles il n’y a pas de matière numérique : il y a toujours au moins une bribe de numérique quelque part, ne serait-ce que le téléphone portable d’une victime, un site web, etc.

Il est donc possible de constater à la fois une omniprésence en petite quantité et surtout, dans beaucoup d’enquêtes, une omniprésence en quantité massive. La preuve numérique est un vrai sujet, mais n’est pas utilisée au détriment du reste ; elle vient s’y ajouter.

« La preuve numérique n’est pas utilisée au détriment du reste ; elle vient s’y ajouter. »

Plus spécifiquement pour la géolocalisation, il faut rappeler qu’elle repose sur des matériels qui sont géolocalisés. Il appartiendra à l’enquêteur de démontrer les éléments de preuve par ailleurs. Il est vrai que ce sont des indices et des outils précieux dans la conduite de l’enquête. Mais ça reste du domaine de l’indice, parce que typiquement, on localise un téléphone, un véhicule, mais on ne localise pas une personne. Et ce, même si, in fine, du point de vue des données personnelles, on considèrera qu’on est bien en train d’avoir une personne « au bout ». C’est toujours vrai, parce qu’il y a forcément quelqu’un qui tient un téléphone, il y a forcément quelqu’un qui conduit le véhicule ! Mais en ce qui concerne le lien entre la machine qui permet la localisation, et la personne, on n’a pas techniquement la preuve que c’est bien cet individu-là, spécifiquement, qui est en possession de l’objet en question.

À la différence de la biométrie, qui est caractéristique de l’individu et qui n’est donc pas coupée de l’individu, il y a, dans la géolocalisation, un support physique intermédiaire qui fait qu’il y a un espace libre qui explique que ça ne peut rester qu’une présomption. Il faut donc vraiment en rester à l’indice plutôt qu’à la preuve. »

Est-ce un « nouvel » outil à la disposition des enquêteurs ?

« En ce qui concerne la nouveauté, tout dépend de ce dont on parle. Par exemple, si on prend notre métier de base qui est la géolocalisation, c’est plus si nouveau que ça. Si on prend l’investigation numérique (le forensic dans le langage plus technique) et donc l’extraction de données numériques de tout type de support à des fins d’analyse, c’est pareil. Ce n’est pas non plus si nouveau que ça.

La nouveauté vient à la fois de l’évolution des technologies et du caractère de plus en plus massif. Si on se reporte dix ans en arrière, ce n’était ni les mêmes volumes de données, ni les mêmes usages. S’il y a une nouveauté aujourd’hui, c’est dans le sens de la dimension, c’est cette explosion dans la dimension et dans la variété de toutes les formes, de tous les formats, aussi bien les supports physiques tels que les téléphones mobiles, jusqu’aux objets connectés et intégrés dans différents systèmes (automobiles par exemple).

Ce n’est qu’émergent pour le moment, mais on sait que ça va continuer d’affluer : il existe aujourd’hui une multitude de supports différents, dans lesquels il est possible de capter et de collecter des données qui, elles-mêmes, sont extrêmement hétérogènes. On pourrait considérer donc que la nouveauté des années en cours, c’est cette multiplicité en trois dimensions : dans son volume et dans sa variété de sources et dans sa diversité de formats. »

La preuve numérique a-t-elle une fiabilité particulière ? Peut-on la contester ?

« Comme nous l’avons dit, dans un premier temps, on est sur des indices, qui doivent concourir à l’expression de la vérité et faire en sorte que l’enquête soit solutionnée, de quelque façon que ce soit. Mais il faut être assez prudent. De notre côté, nous travaillons pour les enquêteurs et ce qu’il faut, c’est que les techniques employées respectent toutes les règles de procédure pénale et que, dans la mesure du possible, toutes ces collectes, toute la façon dont l’enquêteur a pu travailler ne prêtent pas à des contestations ou des remises en cause.

« Ce qu’il faut, c’est que les techniques employées respectent toutes les règles de procédure pénale. »

Si l’on prend l’exemple de la géolocalisation, en regardant ce qui s’est passé au Danemark en 2019 : plus de 10 000 enquêtes, qui reposaient sur des informations de géolocalisation de téléphones portables, ont été remises en cause, parce qu’il avait été démontré qu’il y avait eu un problème dans la collecte de données (transformation de l’horodatage entre l’opérateur et un intermédiaire technique qui collectait les données) [2].

C’est donc compliqué de parler de « reine des preuves » parce que c’est un domaine d’une sensibilité particulière, lié à des chaînes de traitement complexes. Il ne n’agit pas d’une donnée collectée à un moment précis, qui arrive à l’instant d’après dans le bureau du juge. Ça passe par tout un tas d’étapes et c’est ce qui rend la chose ardue pour pouvoir assurer à la fois la traçabilité et l’intégrité de l’information, qu’effectivement, ça correspond bien à ce qui était et ce qui existait à un instant T.

En revanche, en ce qui concerne l’autre domaine de l’investigation numérique, la logique est différente. Quand nous sommes dans l’extraction de données d’un support physique, il y a toute une méthodologie qui permet d’assurer l’intégrité et la traçabilité des données. La clé USB, le disque dur, le téléphone portable, etc. sont des pièces sous scellés, mais ce que l’on va en extraire aussi : ce seront des éléments de preuves lisibles, tangibles. C’est une différence importante qu’il importe de souligner. »

Vous évoquiez tout à l’heure les objets connectés. Il semble qu’en Allemagne, des enregistrements issus d’enceintes connectées (assistant vocal) ont été utilisés dans une procédure pénale [3]. Est-ce envisageable aujourd’hui en France ?

« Quand je parlais de la variété des supports tout à l’heure, nous sommes en plein dedans ! Effectivement, on peut avoir des collectes d’informations sur tous les supports rencontrés sur une scène, récupérées lors d’une perquisition ou trouvées sur une personne. Donc pourquoi pas des boîtiers connectés, au même titre qu’un ordinateur. Quand vous avez un ordinateur, vous avez des espaces qui relèvent du cloud quelque part, donc on voit bien les ramifications que cela peut avoir, même si là, la collecte reste sur ce qui est en l’état, ce qui est existant sur le support. C’est d’ailleurs peut-être aussi une variation qui est intéressante à observer : nous sommes quelque part sur des données du passé, qui sont figées à l’instant T. C’est pour ça aussi que ça permet d’en faire des données de preuves tangibles parce que du coup, on a fait une collecte dans un cadre fermé et contenu.

Pour reprendre la comparaison avec la géolocalisation, où on est dans quelque chose qui évolue perpétuellement et où on est sur une notion de temps réel, qui continue jour après jour. Avec les boîtiers connectés, on va se connecter et récupérer les informations ; il pourra aussi y avoir une procédure d’autorisation pour récupérer des données sur un serveur distant. Dès lors, bien sûr, ça va devenir des éléments de preuve, au même titre que pourraient l’être des photos déposées sur un cloud quelconque et qu’on récupérerait dans le cadre d’une enquête judiciaire. »

L’évolution de la législation sur les techniques spéciales d’enquête, au-delà de celle des écoutes téléphoniques, favorise donc clairement cette captation de données « multi-dimension ». Votre entreprise est-elle, elle-aussi, concernée par ces cadres normatifs de collecte ?

« En tant qu’entreprise privée au service des forces de l’ordre, nous sommes restreints à ce que nous avons le droit de faire et contraints par ce que l’on nous demande de faire. En l’occurrence, nous n’avons donc pas des capacités tout azimut de collecter tout et n’importe quoi. En outre, ces opérations ne se font que dans le cadre prévu par la loi : nous sommes dans le cadre des réquisitions judiciaires, de l’appel à expert, jusqu’à la soutenance à la barre si elle a lieu. Cela se fait donc dans un contexte extrêmement contraint et très bordé, justement pour faire en sorte quand il y a une information qui existe à un moment donné, qu’on puisse l’amener au bout et qu’elle puisse servir à l’expression de la vérité.

Dans l’usage qui est fait aujourd’hui des technologies par les forces de l’ordre afin d’élucider des enquêtes judiciaires, ce n’est pas si simple que ça : à la fois pour les enquêteurs, qui sont très contraints dans le respect des procédures et pour nous, en tant qu’entreprise. Par exemple, pour rebondir sur l’incident au Danemark dont nous parlions tout à l’heure, le ministère de la Justice nous audite régulièrement sur la façon dont nous sécurisons les données, la façon dont on les traite, etc., notamment pour s’assurer que nous ne les transformons pas, que nous n’altérons pas la donnée qui est collectée en amont et qui est transmise en aval à l’enquêteur. Il n’y a donc pas de flou !

Il faut aussi avoir en tête l’évolution des délinquants eux-mêmes, qui se servent des technologies. On va penser assez facilement aux technologies de chiffrement, l’usage de la blockchain etc., qui donnent beaucoup de fil à retordre aux enquêteurs et aux services spécialisés. Ça, c’est aussi la course. Ça a toujours été le cas entre le gendarme et le voleur, mais il y a eu comme une sorte de transfert, cette course continue, s’est déportée sur le numérique avec des enjeux assez colossaux en termes de technologie.

On est bien confronté au cybercrime aujourd’hui et c’est le cœur du sujet, que de faire en sorte que, à la fois les forces de l’ordre disposent des technologies adéquates pour pouvoir contrer ou en tout cas réussir, à un moment donné, à élucider des actes malfaisants et à la fois la course qui se continue derrière, faire en sorte que les législateurs réussissent aussi à « attraper le train en route ». C’est un juste équilibre de contraintes entre le respect des libertés fondamentales du plus grand nombre d’une part et d’autre part, réussir in fine à empêcher de nuire cette minorité de personnes délinquantes. C’est un équilibre sensible et complexe, à la fois pour le législateur et pour tous les intervenants. »

Un dernier point peut-être sur la « police prédictive ». Est-ce que c’est un mythe complètement hollywoodien ? Où en sommes-nous dans l’utilisation de l’intelligence artificielle dans le cadre des enquêtes pénales en France ?

« Il y a eu dès le départ une sorte d’« envolée lyrique » sur l’idée qu’on allait pouvoir prédire le crime. C’était la promesse, mais il y a eu un peu de désenchantement par la suite, même Outre-Atlantique. Les enquêteurs là-bas se sont vite rendu compte que la prédiction correspondait, peu ou prou, à leurs habitudes élémentaires et donc, que ça ne leur apprenait pas grand-chose.

Pour revenir en France, il y a eu pas mal de choses qui ont été mises en œuvre et expérimentées, par exemple, même si ça remonte à quelques années, « Predvol » [4], réalisé par Etalab avec la Gendarmerie nationale, au sujet des vols de véhicules. Ça n’avait pas forcément abouti à quelque chose de très concluant à ce moment-là, mais c’était le début d’une démarche qui, progressivement, amène à avoir une meilleure compréhension à la fois de ce que ces outils dits d’intelligence artificielle peuvent permettre et, en même temps, de rester raisonnables et humbles quant aux résultats qu’on pourra en retirer. Donc, effectivement, on est très, très loin de Minority Report [5] !

Mais on a aussi des résultats probants. Pour continuer avec la Gendarmerie nationale, sur la question des cambriolages cette fois, un système a été mis en place pour collecter des données et avoir une représentation sous forme de carte de chaleur, des zones où il y a eu plus de cambriolages et donc, à partir de là, dispatcher les patrouilles au bon endroit. Et les résultats sont assez probants, puisque les tests qui ont été effectués dans plus d’une dizaine de départements montrent à la fois des diminutions significatives des faits commis et, grâce à une alimentation du système par les enquêteurs au fil de l’eau, une meilleure répartition des patrouilles. Donc non seulement, tout ce qui, pour schématiser, était en zone rouge devient zone verte en quelque sorte, et ça apporte en plus aux enquêteurs une meilleure compréhension des comportements.

« On est là dans une démarche qui est celle de la prévention et non de la prédiction. »

Mais on est là dans une démarche qui est celle de la prévention et non de la prédiction. Le format de l’anticipation change : on ne cherche pas à anticiper ce qui va se passer. On est plutôt sur l’idée de réussir à comprendre ce qui se passe par rapport à ce qui s’est passé. Plus exactement, on utilise les données du passé pour essayer de mieux comprendre le présent, de telle sorte à avoir une influence sur le futur, en termes de prévention, mais on ne va pas chercher à deviner le futur. De toute façon, anticiper un cambriolage, c’est quasiment mission impossible ou ça repose sur des moyens qui sont très différents de ce que permet l’intelligence artificielle ! Je dirais que là, si on devait réorienter le prédictif, ce serait pour réussir justement à trouver des mécanismes qui permettent de révéler des comportements, de révéler des habitudes. Et ça, ça peut beaucoup aider dans une enquête. »

Donc, pour que ce soit parfaitement clair, ce que l’on peut considérer aujourd’hui comme de la police prédictive, c’est en réalité la mise en œuvre d’outils d’analyse de la délinquance (ou du phénomène de délinquance) pour orienter la réponse, mais non de la prédiction de passage à l’acte ?

« On peut voir ça comme ça en effet et même aller un tout petit peu plus loin. Il faut bien comprendre la notion de « modèle ». Typiquement, les systèmes dits d’intelligence artificielle reposent sur une façon de modéliser les choses. Ils dépendent donc de la capacité à pouvoir modéliser des comportements dans une masse de données, pour en revenir à ce que nous disions au début de l’entretien, dans une masse de données plus conséquente, plus hétérogène.

Au sein d’une même affaire, on peut se retrouver avec énormément de données qui « dépassent » la compréhension d’un groupe d’enquêteurs ou, plus exactement, des informations qui leur échappent dans le volume des données à analyser. L’idée est donc de faire en sorte que ces systèmes puissent révéler des comportements : soit parce que la nature de ces comportements n’est décelable que dans des bribes d’information que l’on réussit techniquement à corréler, soit parce qu’on peut progressivement, au fil des affaires, enrichir des profils qui sont nourris sans données personnelles, qui peuvent donc être ensuite transférés et agrégés facilement. Il est alors possible de comparer des situations avec ces profils, pour se dire « tiens, là, on est plutôt dans quelque chose qui s’oriente comme ça, qui correspondrait à tel type de criminalité, à tel type d’action ou à telle typologie caractéristique ». Il est alors question d’aider l’enquêteur, à orienter ses investigations d’une certaine façon, en se reposant sur une expérience acquise au fil du temps, sur un certain nombre d’enquêtes.

C’est une problématique intéressante : on sait tous que l’on ne peut pas agréger des données d’enquête, mais si on peut réussir, au moment d’une enquête, à avoir un système « frontal », qui viendrait juste récupérer les profils anonymes par rapport à des situations données, sans en avoir le détail, la situation en cause pourrait être caractérisée avec ces critères, qui correspond à un profil donné. Que ces profils puissent être enrichis au fil de l’eau, au fil des différentes affaires. Tout l’enjeu serait donc d’apporter un éclairage dans un temps très court. Mais ceci est complètement prospectif bien sûr !

« Pour le moment, on sait diminuer certaines formes de délinquance, on commence à imaginer que l’on va pouvoir révéler des comportements. »

Pour le moment, on sait diminuer certaines formes de délinquance, on commence à imaginer que l’on va pouvoir révéler des comportements. Demain, cela peut devenir autre chose. Mais c’est important de rappeler que l’usage des algorithmes et de tous ces outils dits d’intelligence artificielle doivent rester le plus le plus transparent possible. La « boîte noire » technique, on ne cherche pas à la décortiquer dans les moindres de ses entrailles, parce que ça n’a aucun intérêt, mais on s’assure, d’une part, que les données rentrées en amont sont valides (elles n’emportent pas de biais par elles-mêmes) et, d’autre part, qu’à la sortie, on a suffisamment éprouvé le système pour avoir une bonne certitude de la qualité du résultat. La transparence doit être sur la façon dont les travaux ont été menés et l’assurance que le résultat obtenu a une valeur tangible.

Ensuite, il est essentiel que l’humain reste au centre des dispositifs et qu’il s’agisse bien d’aide à la décision : aucun des systèmes sur lesquels nous travaillons aujourd’hui n’emporte la décision. C’est toujours l’enquêteur qui va considérer les éléments qui sortent du système comme pouvant lui être utiles, comme pouvant l’aider dans son enquête et il lui appartient d’en distinguer la pertinence finale. Ça doit toujours rester vrai, parce que ce sont des domaines sensibles. »

Laurent Cellier :
Depuis plus de quinze ans au service de Deveryware, Laurent Cellier supervise actuellement la conformité légale en matière de protection des données personnelles et de droit des affaires. Il est désigné délégué à la protection des données (CIL depuis 2009). Auparavant, il s’est investi dans les domaines de la communication, de la relation client et de l’expérience utilisateur. Il est titulaire d’un executive master Digital Humanities à Sciences Po.
Expert des technologies d’investigation et des services pour la sécurité globale, l’offre du groupe Deveryware couvre l’investigation judiciaire, l’analyse de données, la géolocalisation en temps réel, la cybersécurité, la lutte contre la fraude, la gestion de crise et l’appel d’urgence nouvelle génération.

Interview de Laurent Cellier réalisée par Aude Dorange Rédaction du Village de la Justice

[1Deveryware, « La data au cœur de l’enquête », Livre blanc, oct. 2020

[4Le blog d’Etalab, « Prédire les vols de voitures ? », janv. 2018.

[5Film de science-fiction réalisé en 2020 par Steven Spielberg, adaptation de la nouvelle de Philip K. Dick (1956). L’histoire se déroule en 2054. Trois êtres humains mutants (les « précogs »), peuvent prédire les crimes à venir et l’organisation gouvernementale « Précrime » peut les arrêter juste avant le passage à l’acte.