Data Lake cosa sono e come sfruttarli in azienda!

In qualsiasi realtà aziendale moderna, si generano quantità di dati che spesso non vengono sfruttati o vengono sfruttati solo in minima parte. Ultimamente le tecnologie disponibili nell’universo dei big data e degli analytics offrono la possibilità di portare a valore l’intero patrimonio informativo di un’azienda. Attraverso tali tecnologie, come ad esempio i Data Lake possiamo storicizzare fin da subito queste quantità di dati strutturati, semi-strutturati e non strutturati per un futuro utilizzo.

Inoltre tramite gli analytics, attraverso i dati e applicando opportuni modelli statistici, è possibile rispondere a domande di business strategiche che possono supportare le attività decisionali del management aziendale. Secondo uno studio di Gartner, più di ¾ delle compagnie nel mondo oggi stanno investendo o pianificano di investire nei Big Data nei prossimi 2 anni.

L’approccio tradizionale all’analisi dei dati a fini decisionali avviene tramite tecnologia data warehouse.

Le tipiche peculiarità dei data warehouse:

  • Organizzano i dati esclusivamente in maniera
    strutturata, rappresentati in colonne e righe
  • Il formato del dato è stabilito a priori
  • I dati vengono caricati solo una volta stabilito il
    loro scopo
  • In un architettura che usa DW sono previste lunghe elaborazioni di ETL per preparare il dato

Ci sono situazioni nelle quali per la peculiarità dei dati o perché li si vuole raccogliere tutti, o perché non si può non raccoglierli tutti e non si ha il tempo di filtrarli mentre questi vengono generati, è consigliabile creare strutture IT atte alla raccolta di dati grezzi, provenienti da fonti disparate, con velocità differenti, per poi estrarli con determinate logiche e renderli disponibili all’analisi.

Queste strutture prendono genericamente il nome di data lake. Un data lake non ha solo il compito di archiviare e rendere disponibile il dato ma consente o deve consentire di esplorarlo, correlarlo e analizzarlo.

Le peculiarità di un data lake tipicamente sono:

  • Architettura piatta
    • velocità di caricamento del dato
    • riduzione dei costi di storage
  • Schema-on-read
  • Struttura agile, scalabile
  • Predisposto per elaborazioni
    • Batch
    • Real-time

Omigrade propone una propria architettura (ODL) strutturata a livelli in grado di:

Mantenere i dati al massimo dettaglio.

Mantenere la storicità del dato invariante nel tempo.

Mantenere i metadati dei dati strutturati e semi-strutturati.

Elaborare dati storici in modalità batch e dati streaming in real-time.

Raccordare il dato e riconciliare diverse fonti.

Elaborare e aggregare i dati secondo le regole di business.

Fornire i dati conformi e aggregati in modalità sicura per le esigenze del business.

Fornire strumenti di analisi che accedono al dato in modalità sicura.

Reply