A. Azzalini - B. Scarpa
DATI UTILIZZATI NEGLI ESEMPI
Alcuni dei dati utilizzati sono stati ottenuti mediante simulazione di numeri pseudo-casuali; questi sono come segue. Tutti i "file" sono in formato testo.
I dati delle auto (formato testo, 23907 byte) sono stati ottenuti da una semplice manipolazione di dati originari che si riferiscono a caratteristiche di 203 modelli di automobili importati negli USA nel 1985. I dati originari sono disponibili da
ftp://ftp.ics.uci.edu/pub/machine-learning-databases/autose la loro elaborazione da parte nostra consiste semplicemente nella traduzione dei termini, nella conversione delle unità di misura, nella eliminazione di alcune delle variabili originarie, e nella correzione di alcuni nomi di marche.Le nuove variabili sono descritte nel file auto.nomi
I dati relativi alla banca brasiliana (formato testo/csv, 50019 byte) sono stati ottenuti da una semplice manipolazione di dati originari che si riferiscono ad una indagine di rilevazione della soddisfazione dei clienti di una banca brasiliana. Per 500 soggetti, selezionati casualmente tra i clienti della banca, sono disponibili alcune informazioni ottenute tramite una ricerca di mercato.
La descrizione delle variabili è descritta nel file brazil.nomi.
I dati relativi ai clienti della telefonia (formato zip, 4454819 byte) sono stati ottenuti da una semplice manipolazione di dati originari che si riferiscono a caratteristiche di 30.619 clienti di una compagnia telefonica europea con contratto post-pagato. I dati sono organizzati in due file compressi in formato ZIP, già suddivisi in modo casuale in un insieme di stima ed uno di verifica.
I clienti per entrare nell'insieme dovevano essere attivi nei 10 mesi consecutivi a cui si riferiscono i dati e convenzionalmente indicati con i numeri da 1 a 10 (nn=01, …, 10).
La elaborazione dai dati originali consiste semplicemente nella traduzione dei termini e nella eliminazione di alcune delle variabili originarie. Per questi clienti sono a disposizione le variabili descritte nel file telekom.nomi
I dati sugli acquisti di succhi di frutta
(formato testo, 69623 byte)
sono stati ottenuti partendo da quelli presentati al Capitolo 11 del
libro di Foster, Stine and Waterman "Business Analysis Using
Regression" (pubblicato da Springer-Verlag, 1998), che sono disponibili
attraverso il sistema di distribuzione di informazione statistica
StatLib, seguendo il percorso
Main >> Data Archive >> Datasets Archive >>
business.
I dati si riferiscono a 1070 acquisti di succhi di frutta di due marche alternative (MM e CH) in alcuni supermercati USA, corredati da alcune variabili concomitanti. I dati utilizzati nel Capitolo 5 sono stati leggermente rielaborati, nel senso che i nomi delle variabili sono stati tradotti e sono state escluse alcune caratteristiche poco rilevanti.
La tabella dei dati risultanti è presentata nel file succo.nomi.
La variabile fedeleMM viene costruita partendo dal valore 0,5 e aggiornandola ad ogni acquisto del medesimo cliente, con valore che aumenta del 20% della corrente differenza tra il valore corrente e 1 se la sua scelta è stata MM, e cala del 20% della corrente differenza tra il valore corrente e 0 nel caso contrario. La corrispondente variabile fedeleCH è data da 1– fedeleMM.
I negozi in esame sono cinque, numerati da 0 a 4.