CF-Décisions est la plateforme de gestion des données utilisée par ComputableFacts. L'idée maîtresse est de fournir aux utilisateurs métiers un accès aux informations contenues dans leur système d'information par le biais d'une architecture à trois niveaux constituée de sources de données, d'une ou plusieurs ontologies, et de concepts décrivant l'association entre les deux.

Préambule

CF-Décisions est un Data Lake permettant à ses utilisateurs de créer rapidement des systèmes d'aide à la décision.

CF-Décisions offre toutes les fonctionnalités d'un Data Lake traditionnel telles que le stockage et le traitement de quantités massives de données hétérogènes, à la fois structurées et non structurées. Cependant, CF-Décisions est unique : au lieu de stocker les données sous formes de blobs ou de fichiers, CF-Décisions inspecte et extrait automatiquement le contenu de plus d'une quarantaine de formats de fichiers (dont PDF, Word, PowerPoint, CSV, etc.) Les données extraites sont ensuite sauvegardées sous forme d'enregistrements individuels regroupés logiquement en jeux de données.

CF-Décisions a été spécialement conçu pour se conformer aux exigences de confidentialité du GDPR et du CCPA.

Fonctionnement du Data Lake

Capture & Stockage

Les données provenant de sources internes et/ou externes sont capturées puis stockées dans des systèmes appropriés pour un traitement ultérieur. L'objectif est d'identifier, d'acquérir et de stocker les données pertinentes issues du système d'information de l'organisation, de bases de données opérationnelles ou de sources externes.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/9d4d9e7e-9836-4206-a3c1-277329382408/Untitled.png

Aperçu du processus de capture, structuration et stockage des données.

  1. Environ 30 formats de fichiers reconnus dont : PDF, Word, Excel, CSV, JSON, JPG, PST, etc. Voir ici pour plus de détails.
  2. Dont : date de création du document, date de dernière modification, auteur, outil de création, etc.
  3. Dont : OCR, extraction des feuilles Excel, etc.
  4. Par exemple : extraction d’entités nommées, désambiguïsation en utilisant des référentiels métiers spécifiques, etc.
  5. Création d’un document enrichi contenant des champs textes non-structurés (ex. le corps du document), des champs textes structurés (ex. des entités extraites du corps du document), des champs structurés (ex. catégorie du document, latitudes/longitudes, etc.)
  6. Ajout d’étiquettes de visibilité i.e. autorisations : permet de restreindre la visibilité d’un type de données. Attention : à ne pas confondre avec les permissions qui gouvernent l’accès à des fonctionnalités de l’interface utilisateur ! Voir ici pour plus de détails.
  7. Configuré par défaut pour de la recherche par préfixe et par suffixe à l’aide des caractères génériques * et ?
  8. Stockage des données dans Apache Accumulo : https://accumulo.apache.org

Structuration & Matérialisation

Les données passent par une série d'opérations de prétraitement afin d'être qualifiées, nettoyées et structurées de manière à en faciliter la réutilisation. L'objectif est de mettre en relations les données d'une part et les concepts métiers d'autre part afin de fournir à tous les utilisateurs une compréhension unifiée des données. Cette mise en relation constitue un atout important pour l'organisation en établissant un vocabulaire commun garantissant sa cohésion.