Industrialisation des flux data

4 déc. 2023
2 min de lecture

Dernière mise à jour : 3 avr. 2024

Vous faites de la finance donc vous manipulez énormément de données. Même si vous considérez que ce n’est pas une quantité astronomique de data; cette quantité est en réalité trois fois supérieure à la grande majorité des autres secteurs.

Pour ce faire, vous avez sûrement mis en place des process, des routines pour automatiser vos traitements data. Les plus technophiles ont conçu des scripts qui lancent des fichiers Excel ou bien, ont une centaine de traitements dans le planificateur de tâches Windows.

Vous n’avez pas à rougir car, sans être de la haute technologie, il s'agit souvent du fruit d’une certaine expertise métier et d’une grande ingéniosité.

https://vimeo.com/890979806

Aujourd’hui, nous vous expliquons la différence entre une automatisation et une industrialisation de vos data flows en 5 points.

1. Les formats de fichier

Il faut savoir faire le grand écart entre les systèmes historiques et les solutions modernes. Cela va du fichier AS400 au JSON en passant par Excel et l’XML. Tous les fournisseurs ou outils ne sont pas en mesure de vous fournir le format de fichier de votre choix.

2. Les canaux d’acquisition des données

Dans certains cas, c’est à vous d’aller les chercher, d’autres fois on vous les envoie et généralement nous parlons de FTP, de SFTP, de mail ou d’API.

Il est nécessaire de maîtriser tous ces protocoles mais aussi toutes les manières de s’authentifier sans pour autant avoir un fichier listant l’ensemble des mots de passe.

3. L’ordonnancement des traitements

Ici, il n’est pas uniquement question de prévoir que certains traitements se lancent à une heure précise. Il s’agit également de la capacité à gérer des calendriers de jours ouvrés et jours fermés ainsi qu’à enchaîner des traitements ou bien, à les traiter en parallèle.

4. Le monitoring des flux

Savoir si un traitement a échoué ou pas est réducteur. Le monitoring comporte également la détection d’un traitement qui aurait dû tourner mais qui ne l’a pas fait. Ou encore, se rendre compte qu’un traitement dure 30 secondes de plus chaque jour et que cela deviendra problématique dans 2 mois quand le traitement prendra 30 minutes de plus.

5. La reprise sur erreur

Ce concept englobe le fait de pouvoir relancer quelque chose qui s’est arrêté et idéalement qu’il reprenne là où il s’est arrêté et pas nécessairement devoir recommencer à zéro.

Donc quelque soit l’étape qui pose problème, il faut que le système soit capable de surpasser la majorité des erreurs courantes : une coupure réseau, un téléchargement de fichier inachevé etc.

Comme nous le disions en préambule, tout cela n’est accessible qu’à des organisations technophiles. Sans être libéré des contraintes techniques et organisationnelles il est difficile d’appréhender ce qu’est une Data Factory.

Et vous, où en êtes-vous ?

Toutes les deux semaines, nous démystifions une notion tech, data ou innovation. Une sorte de guide de survie de l'Asset Manager en milieu tech hostile.

Abonnez-vous sur LinkedIn afin de ne rien louper de shots d’expertise : https://www.linkedin.com/company/asset-sagacity