Que faites-vous lorsque vos données sont si volumineuses qu’elles deviennent impossibles à exploiter efficacement ?
Comment faire tenir des millions de données dans un espace raisonnable, sans perdre l’information principale ?
En ce qui concerne les trajectoires des navires, chaque bateau transmet sa position toutes les quelques secondes.
Résultat : une précision de la trajectoire parfaite… et des serveurs saturés.
Notre solution : le clustering, pour regrouper les points redondants et ne garder que l’essentiel du mouvement.
Une approche pensée d’abord pour alléger le stockage, mais qui a révélé bien plus :
en analysant les positions GPS des navires le long de la Seine, nous avons découvert de nouvelles zones d’appontement, absentes des bases officielles.
En cherchant à compresser, nous avons fini par montrer l’invisible.
Comprimer sans perdre la trajectoire
Tout a commencé par un problème très concret : le stockage.
Chaque navire transmet sa position toutes les quelques secondes via l’AIS (Automatic Identification System).
Résultat : des millions de points pour une seule trajectoire. Parfait pour la précision, catastrophique pour les serveurs.
Notre mission était simple : réduire le volume de données sans déformer la trajectoire.
Autrement dit, compresser sans trahir.
Nous avons donc exploré une approche de clustering, non pas pour “faire de la data science”, mais pour alléger intelligemment les flux.
L’idée était de regrouper les points proches — spatialement et dynamiquement — et de ne conserver que ceux qui racontent vraiment le mouvement.
En différenciant les phases de croisière (mouvement régulier) et de manœuvre (approche, accostage), et en exprimant les positions non plus en latitude et longitude, mais en coordonnées polaires (distance + angle), nous avons pu garder l’essence du déplacement.
Le résultat ?
- 30 % de données en moins,
- 90 % de précision conservée sur la forme des trajectoires.
Un compromis efficace entre performance, fidélité et coûts de stockage.
Quand réduire les données fait émerger l’invisible
Mais ce n’est pas là que se trouve la vraie histoire.
Car en appliquant la même approche au clustering des points d’arrêt, quelque chose d’inattendu est apparu.
Des regroupements… là où les bases de données officielles ne les répertorient pas. (RIS index)
Certaines d’entre elles, comme les regroupements détectés autour des terminaux industriels, suggèrent des comportements récurrents de stationnement ou de déchargement non documentés. Ces résultats ouvrent des perspectives nouvelles pour la cartographie dynamique du réseau fluvial, là où la donnée révèle plus que ce qu’on lui demandait.
Le vrai enjeu n’est pas de collecter plus, mais de comprendre mieux.
Ce travail souligne une idée importante : le clustering n’est pas seulement un outil de simplification. Il peut devenir un outil d’analyse, un moyen de faire émerger des structures ou des zones que les modèles explicites ne décriraient pas.
Pour les entreprises, le message est clair : mieux exploiter vos données existantes peut souvent apporter plus de valeur qu’en collecter de nouvelles.
Avant d’investir dans de nouveaux capteurs ou systèmes, il vaut la peine d’explorer ce que vos historiques renferment déjà.
Un clustering intelligent peut, par exemple :
- dans l’industrie, regrouper les cycles de production similaires permet d’identifier les configurations machines les plus performantes, donc de réduire les coûts et d’augmenter le rendement ;
- en maintenance, détecter des schémas de panne récurrents permet d’anticiper les interventions, de limiter les arrêts et d’optimiser les contrats de service ;
- en logistique, repérer des zones d’attente ou de congestion invisibles aide à fluidifier les flux, améliorer les délais et réduire les coûts d’exploitation.
Ces analyses ne nécessitent pas forcément de nouvelles sources de données : elles reposent sur une lecture différente de l’existant.
Et c’est souvent cette relecture — mathématique, statistique, algorithmique — qui fait apparaître les vraies opportunités d’optimisation.
Réduire, révéler, comprendre
Ce travail rappelle une chose essentielle : le clustering n’est pas qu’un outil de simplification.
C’est une méthode d’exploration — et un formidable outil de décision.
Il ne réduit pas seulement les volumes : il met en lumière les leviers de performance cachés dans les données.
Et dans un monde où les organisations croulent sous l’information, apprendre à en faire moins, mais mieux, devient peut-être la plus rentable des optimisations.