L’espressione ETL, sigla composta delle parole inglesi Extract, Transform, Load, si riferisce al processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi come ad esempio un DW o un Data Mart. Più nello specifico:
EXTRACT perché i dati vengono estratti da sistemi sorgenti quali database transazionali, comuni file di testo o da altri sistemi informatici (si pensi ai diffusi sistemi di CRM).
TRANSFORM perché, una volta estratti, i dati subiscono un processo di trasformazione che consiste nella selezione, normalizzazione, codifica e accoppiamento di quei dati che realmente interessano al sistema. Tutto ciò con lo scopo di consolidare i dati, ovvero di far divenire omogenei quelli che sono dati provenienti da sorgenti diverse, e di fare in modo che questi risultino anche più conformi alla logica di business del sistema di analisi sviluppato.
LOAD perché i dati, consolidati rispetto alle logiche di business, vengono infine memorizzati nelle tabelle del sistema di sintesi.
Dunque per ETL si intende lo strumento, o l’insieme di strumenti, con il quale è p
ossibile sviluppare una particolare architettura di alimentazione tra dati reperibili a diversi livelli di un’azienda. Tali dati, riprendendo il concetto di Piramide della Conoscenza elaborata dal Knowledge Management e descritta nei precedenti post, senza questa rielaborazione rimarrebbero bloccati al livello di semplici dati o al massimo potrebbero assurgere al rango di mera informazione, perdendo però l’opportunità di divenire conoscenza critica e competitiva a vantaggio di tutta l’azienda. Una tale architettura a rigore, però, potrebbe anche essere implementata con strumenti standard. Ma allora...
2. ...Perché investire in strumenti di ETL?
Valorizzare il Know-How interno, quello che è il saper fare che caratterizza significativamente un'organizzazione, significa gestire la complessità dell’ambiente esterno ponendosi in maniera proattiva. Le aziende, che intendono far ciò oggi, infatti, si trovano a dover fronteggiare diverse sfide tra le quali: volumi di dati che crescono in maniera esponenziale; un'aumentata disparità delle sorgenti, determinata dall'aumento della complessità dei sistemi informatici; trasformazioni di dati che diventano sempre più complesse; la necessità di realizzare un sistema di business intelligence che tenda al real-time anche per quei procedimenti che solitamente necessitano maggiori tempi di caricamento e analisi(DataWarehose e Data Mart).
Più nello specifico i vantaggi degli strumenti di ETL risiedono nelle caratteristiche di una tecnologia che si caratterizza per:
- interfaccia grafica: gli strumenti di ETL sono pensati per persone che hanno esperienza con le basi di dati, pur non essendo necessariamente dei programmatori: sono stati, infatti, implementati per rendere più semplice e visuale lo sviluppo di trasformazioni complesse sui dati;
- manutenibilità: la semplicità e visualità evidenziate nel punto precedente consentono chiaramente non solo una più facile realizzazione di progetti, ma anche e soprattutto una loro manutenzione molto più rapida e immediata, evitando i lunghi periodi di analisi spesso necessari per comprendere gli impatti di una modifica al codice, anche se di lieve entità;
- analisi degli impatti: molti degli strumenti presenti sul mercato mettono a disposizione diverse interfacce per l'analisi delle trasformazioni già realizzate che consentono di comprendere con pochi click quali passaggi della trasformazione usino determinate informazioni, e dove si propaghino a cascata eventuali modifiche in corso di realizzazione;
- integrazione con gli strumenti di reporting: alcuni vendor di ETL propongono all’interno del loro catalogo anche strumenti di analisi dei dati e reportistica; in questi casi si può sfruttare una tale integrazione fra strumenti per visualizzare graficamente quali report siano impattati da una modifica al sistema gestionale o viceversa;
- auto-documentazione: gli strumenti di ETL offrono tipicamente molte opzioni tramite le quali commentare le trasformazioni sviluppate a diversi livelli di dettaglio; tutte queste informazioni qualitative vengono poi messe a disposizione dell'utente tramite apposite interfacce che costruiscono della documentazione tecnica automaticamente generata. Ciò consente di documentare i diversi passi che trasformano i dati aziendali in preziose informazioni per il management ma anche e soprattutto di avere la sicurezza di una documentazione sempre aggiornata;
- indipendenza dalla base dati: gli ETL consentono di far dialogare basi di dati eterogenee in modo completamente trasparente. Ecco che da un'unica interfaccia, con un unico software visuale, si riesce a far realmente dialogare le diverse fonti informative dislocate nell'azienda, integrando e consolidando il patrimonio informativo dell'azienda;
- ambiente di debug: gli strumenti di ETL forniscono un ambiente di debug, in cui cioè è possibile testare le operazioni eseguite, verificando step by step se le trasformazioni effettuate sono effettivamente efficaci nella comprensione di qualsiasi problematica;
- schedulatore e monitor interni: ogni prodotto viene tipicamente fornito con uno schedulatore interno e con un relativo strumento di monitoraggio che consentono in modo del tutto integrato di gestire la pianificazione e la verifica dei caricamenti.
Le caratteristiche fin qui evidenziate permettono facilmente di capire come in molte realtà aziendali l'acquisto di un prodotto di questo genere sia velocemente ammortizzabile tramite un aumento di efficienza ed efficacia dell'ufficio IT, naturalmente una volta che sia trascorso un seppur breve periodo di apprendimento.
Questa tipologia di strumenti viene spesso introdotta all’interno delle aziende in occasione di grandi progetti di Business Intelligence, spesso di DataWarehouse. Questo perché le loro potenzialità li rendono uno strumento ottimo per la realizzazione di questi sistemi.
Per sfruttare appieno l'investimento, però, questi strumenti devono essere considerati come: non un mero "programma per caricare il DataWarehouse", bensì lo strumento tramite cui far passare le grandi movimentazioni di informazioni sempre più presenti all'interno delle aziende.
In quest'ottica l'ETL non è più solo un software che velocizza il lavoro dell'ufficio IT, ma diventa parte integrante della Business Intelligence aziendale, facendo sì che venga reso esplicito del know-how spesso isolato all'interno di poche persone, conoscenza questa difficilmente documentabile e tramandabile senza degli strumenti adeguati a causa del suo evolversi spesso frammentato e sedimentato negli anni.
3. I principali tool software ETL
I principali tool software di ETL presenti sul mercato sono:
- SmartDB Workbench
- DataStudio
- Integrator
- Informatica PowerCenter
- Datastage IBM
- SSIS Microsoft
- I-service IngeniumTechnology
- Scriptella ETL
- Benetl
- Oracle Data Integration Suite
- Kettle Pentaho Data Integration.


Nessun commento:
Posta un commento