mercoledì 5 novembre 2008

Terminologia statistica e informatica: due universi a confronto

Oggi risulta sempre più evidente che una corretta gestione della conoscenza rappresenta una concreta risorsa strategica per l'organizzazione. Chi all'interno di quest'ultima si occupa di tale gestione deve essere una figura sui generis che, in realtà, si colloca a cavallo tra due mondi, dovendo avere dimistichezza sia con termini e strumenti statistici che informatici: con i primi, in virtù del fatto che si trova sostanzialmente ad avere a che fare con la conoscenza quantitativa di fenomeni collettivi; con i secondi per il fatto che una gestione ottimale di questa conoscenza passa necessariamente per un trattamento informatizzato dei dati.

Tornerà pertanto utile un glossario che possa tener conto dei termini maggiormente importanti afferenti all'uno e all'altro campo.


Campione. Parte di una totalità di elementi (popolazione) scelta in modo che sia rappresentativa dell’insieme del fenomeno, al fine di studiare il fenomeno stesso.

Campo. Ambito della rilevazione definito dal "caso statistico", ossia dalla categoria di enti che hanno lo stesso nome ("nome comune"). Gli enti rientranti nel campo e sottoposti a rilevazione si chiamano unità statistiche. Da esse si distinguono le unità di rilevazione, unità prescelte per effettuarla nel modo più soddisfacente. Unità statistiche sono, ad esempio, i censiti, unità di rilevazione le famiglie di censimento, le convivenze, gli individui singoli nei casi speciali, o altro..

Carattere o Variabile Statistica. Per carattere si intende qualsiasi fenomeno (o particolare aspetto di un fenomeno) che ha rilevanza nell'ambito di un particolare obiettivo. Le modalità del carattere sono, invece, i diversi modi con i quali il carattere può manifestarsi sulle varie unità statistiche. Le diverse possibilità di rappresentare le modalità dei caratteri portano alla seguente classificazione:
  1. caratteri misurabili su scala nominale qualora non esista un ordine naturale (es. tipo azienda o stato civile);
  2. caratteri misurabili su scala ordinale laddove esista un ordine in senso naturale o meno (titolo di studio, grado in un organizzazione di tipo gerarchico);
  3. caratteri misurabili su scala ad intevalli quando le modalità sono esprimibili con numeri che hanno il significato di una vera e propria misura, nella scala di misura utililzzata si può però scegliere l'origine in modo arbitrario (es. le temperature);
  4. caratteri misurabili su scala di rapporto quando le unità sono esprimibili con numeri che hanno l'ordinario significato di misura però l'origine delle misure è unica e non fissata in modo arbitrario (es. statura, reddito).
La natura dei caratteri ha implicazioni molto importanti sui metodi utilizzabili per l’elaborazione degli stessi.

Classificazione. In statistica è identificabile come l’ operazione che che permette di passare dalle proprietà alle variabili. In questo caso le categorie nelle quali vengono classificati gli stati della proprietà studiata devono rispettare tre condizioni:
  • esaustività: ogni caso deve cioè essere collocato in una delle categorie previste;
  • mutua esclusività: un caso non può essere classificato in più di una categoria;
  • unicità del fundamentum divisionis: per cui il principio che regola la scelta delle categorie deve essere quello della unidimensionalità.

Conoscenza quantitativa
. Conoscenza non basata su impressioni o giudizi ma dati e numeri "obiettivi".


DataBase Management System (DBMS). Si tratta di un sistema software progettato per consentire la creazione e la manipolazione efficiente di database. I DBMS rivestono una funzione di fondamentale importanza in numerosi campi, dalla contabilità, alla gestione delle risorse umane, alla finanza, ecc.. Un tempo, a causa degli ingenti costi di gestione, questi software erano a disposizione unicamente di grandi aziende ed istituzioni, mentre oggi il loro utilizzo ha una diffusione estremamente capillare in funzione della crescente necessità di creare report statistici aziendali.

Dato. Dal latino datum che significa letteralmente fatto, in informatica, esso indica una descrizione elementare, spesso codificata, di una cosa, di una transazione, di un avvenimento o altro. L'elaborazione dei dati può portare all'acquisizione di un'informazione. In statistica, invece, esso indica il vettore di modalità X rilevato su una unità statistica. Esso, detto anche microdato, è l'elemento di base di ogni ricerca statistica ed è della massima importanza che sia "buono" ovvero non affetto da errori.

Dimensione. Numero dei parametri in base ai quali si determinano gli elementi di un insieme.

Fenomeni Collettivi. Manifastazioni individuali osservate su una parte o su tutti i soggetti.

Funzioni di aggregazione (o di colonna). Identificano quelle funzioni che elaborano un insieme di righe ma restituiscono sempre un risultato.

Metadato. Informazione relativa alla struttura di un dato. Essi costituiscono la spina dorsale dei DataWarehouse. Senza di questi sarebbe, infatti, impossibile sapere come siano stati fabbricati gli innumerevoli dati memorizzati nei magazzini di informazioni decisionali, da quale DBMS di produzione provengano, come siano stati trasformati. Al momento, le tecniche di scambio di questi metadati da uno strumento verso un altro (tool di estrazione verso strumenti frontali d'analisi, per esempio) non rivelano alcuno standard universale. E ciò malgrado tentativi come quelli di MetaData Coalition. Un problema che potrebbe, in futuro, essere risolto grazie a un metalinguaggio come Xml.

Matrice di dati. Per poter analizzare i dati con tecniche statistiche è necessario che questi vengano organizzati in base ad uno schema di classificazione comune. A tal scopo si ricorre appunto ad una matrice rettangolare di numeri, la cosiddetta matrice "Casi per Variabili" (C x V), in cui in riga sono presenti i casi, in colonna le variabili ed in ogni cella (incrocio tra riga e colonna) un dato, ossia il valore assunto da una variabile su di un particolare caso.

Popolazione. In statistica per popolazione (universo, aggregato o insieme) si intende l'isieme delle unità statistiche che hanno rilevanza per l'indagine statistica e che sono portatrici dei caratteri su cui viene fissata l'attenzione. Esse possono essere distinte in popolazioni finite, cioè con un numero finito di unità statistiche e popolazioni infinite. Le popolazioni reali sono sempre finite.

Record. In informatica indica un oggetto di un database che contiene un insieme di campi o elementi, ciascuno dei quali possiede nome e tipo propri. La sua è una struttura dati eterogenea, contenente una combinazione di elementi di diverso tipo, ad esempio un intero, un numero in virgola mobile e un carattere testuale. Gli elementi di un record sono detti anche campi, e sono identificati da un nome. Solitamente un record è formato nei database (ad esempio in Microsoft Access) dalla riga nella tabella. Si può considerare un insieme di due dati: un puntatore e il dato vero. Il puntatore è l'informazione che deve avere il dato.

Report. Documento generalmente costituito da visualizzazioni tabellari e grafiche esposte sinotticamente.

Statistica. Insieme di metodologie per la conoscenza quantitativa di fenomenti colletivi.

Statistica Descrittiva. Branca della statistica che studia i criteri di rilevazione, classificazione e sintesi delle informazioni relative a una popolazione oggetto di studio. Essa raccoglie le informazioni sulla popolazione o su una parte di essa (campione) in distribuzioni, semplici o complesse, e le sintetizza attraverso famiglie di indici: valori medi, indici di variabilità, indici di forma, rapporti statistici, relazioni statistiche.

Statistica Inferenziale o Induttiva. Branca della statistica che si occupa di estendere, attraverso gli strumenti propri del calcolo delle probabilità, le proprietà rilevate su un campione all'universo d'indagine, ovvero la popolazione dalla quale proviene il campione, e/o di convalidare delle ipotesi formulate sulla base di precedenti analisi di tipo esplorativo.

Tabella di Contengenza. Con riferimento a due variabili qualitative, è la tabella a due entrate (righe, colonne) nella quale sono classificabili le osservazioni di un aggregato statistico. Nella tabella, l’elemento "nij", all’incrocio della riga "i" e della colonna "j", è il numero di unità statistiche che possiedono congiuntamente la modalità i-esima della variabile posta nel senso delle righe e la caratteristica j-esima di quella posta nel senso delle colonne.

Unità di Rilevazione. Unità empirica su cui si basa la rilevazione. Non coincide necessariamente né con l'unità che fornisce le informazioni (unità d'informazione), né con l'unità statistica cui, in ultima analisi, si è interessati, ogni volta che essa ne raggruppa più d'una ("unità di analisi", "unità di tabulazione"). Nel censimento della popolazione, la famiglia di censimento è una delle unità di rilevazione; se la famiglia è composta di un solo membro, l'unità di rilevazione coincide con l'unità statistica di analisi, altrimenti si hanno tante unità di analisi quanti sono i membri della famiglia, in corrispondenza di una sola unità di informazione (il capofamiglia).

Unità Statistica. Unità elementare della popolazione statistica. Si tratta di ogni ente portatore del carattere (o dei caratteri) che può avere rilevanza nell'ambito di uno specifico obiettivo di ricerca. Può trattarsi di una persona fisica, di una persona giuridica (l'impresa), di un'istituzione (un istituto scolastico), di un evento (un matrimonio, una nevicata), ecc.. Si possono individuare vari tipi di unità statistiche: in relazione alla completezza della rilevazione, si hanno unità campionarie e unità della popolazione, in relazione alla fase dell'indagine, si hanno unità di campionamento, unità di rilevazione, unità d'informazione, unità di analisi, unità di tabulazione etc..

Unità di tabulazione
. Unità di cui, in una tabella, si presenta la classificazione secondo un assortimento di modalità di caratteri. Il nucleo familiare, in un censimento demografico, non è l’unità statistica (il censito), né una di quelle di rilevazione, ma una derivazione da una di queste (la famiglia di censimento) attraverso il carattere "relazione col capofamiglia", e costituisce oggetto di classificazione e pubblicazione in tavole specifiche.

Nessun commento: