Analisi di dati altamente dimensionati per la previsione

Скачать презентацию Analisi di dati altamente dimensionati per la previsione

529ea517177946b3d614c0602f69dc94.ppt

Количество слайдов: 26

Analisi di dati altamente dimensionati per la previsione dell’ascolto televisivo Daniele Imparato Mauro Gasparini Dipartimento di Matematica del Politecnico di Torino Sco 2005 – Bressanone, 16 Settembre 2005

Una collaborazione n n n RAI sede di Torino, Divisione ICTeam, una software house con sedi a Bergamo e a Torino Dipartimento di Matematica del Politecnico di Torino

Scopo del progetto n n Data warehouse dei dati sull’audience televisiva ormai assodato Prevedere lo share a breve e medio termine Supporto alla costruzione strategica del palinsesto (no contenuti, solo contenitori) Costruzione di un applicativo software snello Gasparini-Imparato 16/09/05

Database management n n n Dati prelevati database RAI tramite SQL acronimo per Structured Query Language n Iinguaggio di interrogazione per basi di dati relazionali: es. DBMS commerciali: Oracle, Informix. n Linguaggio non procedurale (facile accesso ai dati) n Semplice sintassi per operazioni di algebra relazionale: es. select, join di tabelle interfaccia SQL e R: interrogazioni con query in SQL forniscono dati in un dataframe R Gasparini-Imparato 16/09/05

Misurazione dell’ascolto televisivo n n n Rilevazione effettuata da Auditel panel Auditel: campione casuale, stratificato, in parte variabile nel tempo Misure d’ascolto: ü copertura lorda CL: numero di contatti al lordo delle duplicazioni ü ascolto medio Am su un intervallo T: Am: = CL /T ü share su un intervallo T: proporzione di ascolto medio normalizzato rispetto alla platea, in percentuale Misure già riportate alla popolazione totale (ascolto esteso) Gasparini-Imparato 16/09/05

Previsione dell’ascolto televisivo n n Previsione in un contesto di regressione Scelta della variabile risposta: share o ascolto? (share. RAI 1, share. RAI 2, share. RAI 3, sharealtro) (ascolto. RAI 1, ascolto. RAI 2, ascolto. RAI 3, ascoltoaltro) n n n share è una composizione nel simplesso tridimensionale mentre ascolto è una risposta in +3 Una risposta trivariata o tre risposte univariate? Scelta delle variabili predittori: ü minuto: fattore di 24 livelli (ore) o predittore quantitativo? ü giorno della settimana: fattore di 7 livelli ü genere trasmesso e controprogrammazione: fattori di 17 livelli Gasparini-Imparato 16/09/05 ü ? ? mese / stagione

Trasformazione dello share n Alla generica osservazione n, poni n si dice che Y è una trasformazione logit additivo n n il vettore share vive nel simplesso, la trasformazione Y vive in tutto lo spazio 3 trasformazione usata da Consonni e Giudici (1998) Gasparini-Imparato 16/09/05

Distribuzioni normali logistiche n Trasformazione logistica additiva: La sua inversa è detta logit additivo: n n Una composizione x ha distribuzione normale logistica additiva se Lavorando su Y si possono trattare i dati trasformati come normali multivariate Gasparini-Imparato 16/09/05

Trasformazione dell’ascolto n Alla generica osservazione n, poni semplicemente y in= log (ascoltoin) i=1, 2, 3 n n n la trasformazione Y vive in tutto lo spazio 3 utile quando la platea (il normalizzante dello share) è variabile noi useremo questa trasformazione e la supporremo normale platea diventerà un predittore, o osservato ( variabile baseline) oppure ipotizzato dalla stima dell’ascolto ricostruiremo una stima dello share Gasparini-Imparato 16/09/05

Modello previsivo finale Implementazione di un modello ibrido parametrico - non parametrico ü ü parametrico modello di regressione lineare: utile in presenza di “buchi” e di scarsa numerosità di occorrenze passate non parametrico media opportuna dei valori di share attraverso proiezioni di un cubo multidimensionale dei predittori: utile in presenza di molti dati, quando le assunzioni del modello lineare diventano forzate Gasparini-Imparato 16/09/05

Modello parametrico finale n n Tre modelli di regressione univariati, uno per ciascuna rete: consideriamo il modello previsivo per lo share di RAI 1 Scelta della risposta: Y=log (ascolto. RAI 1) n Scelta e codifica dei predittori: ü minuto: fattore di 24 livelli (ore del giorno) ü giorno della settimana: fattore di 7 livelli ü genere di RAI 1: fattore di 17 livelli ü genere di Can 5: fattore di 17 livelli (controprogrammazione) ü log (platea): dato quantitativo inputato Gasparini-Imparato 16/09/05

Controprogrammazione e platea n L’effetto della contro-programmazione dipende dalla rete: RAI 1 vs. Canale 5 n RAI 2 vs. Italia 1 RAI 3 vs. Rete 4 Attenzione: il valore della platea non è noto in fase di previsione media pesata delle platee degli anni passati: [platea 2005]i = (0. 3) *[platea 2004]i + (0. 25) *[platea 2003]i + 0. 25) + (0. 25) *[platea 2002]i + (0. 2) *[platea 2001]i Gasparini-Imparato 16/09/05

Scelta delle interazioni n Testati modelli con più interazioni con il test F: ü interazione giorno - minuto: significativa ü interazione giorno - genere: non significativa ü interazione genere RAI 1 - genere CANALE 5: significativa n n Problema: l’interazione gen 1 -gen 5 necessita di uno sconto della matrice dei dati. Il database è stato sottocampionato. Osservazione: oggigiorno il problema di avere troppi dati è sempre più frequente. . . Gasparini-Imparato 16/09/05

Formulazione del modello Modello con interazione giorno-minuto e genere 1 -genere 5: [log(asc_individui)]ijkpm = a 0 + [min]m + [giorno]j + [genere 1 k [min]m [genere 1] + [genere 5]p + aplatea log(platea) + + [min: giorno]mj + [genere 1: genere 5]kp + errore i=1, …, njkpm (variabile a seconda del campionamento) j=1, …, 6 , k, p=1, …, 16, m=1, …, 23 Gasparini-Imparato 16/09/05

Prelevamento dei dati n n Prese in esame fasce di garanzia di ottobre-novembre e marzo-maggio da marzo 2000 a maggio 2004. sotto-campionamento casuale del DB: ü 2004: un dato/15 min. 2001: un dato/1 h n prove di sensitività al variare del sotto-campionamento casuale ü 2003 -2002: un dato/30 min 2000: un dato/2 h Gasparini-Imparato 16/09/05

Analisi dei residui n Andamento dei box-plot dell’errore per fascia oraria n n possibilità di eteroschedascticità omogeneità alternata durante il mattino Grande omogeneità nel pomeriggio e di notte out-liers in tarda mattinata, prime-time e second-time Gasparini-Imparato 16/09/05

Validazione del modello n n n Metodo di cross-validation: stimato lo share su RAI 1 per i giorni 4 -9 marzo 2005 e confrontato con i valori reali ad una granularità del quarto d’ora Attenzione: 4 -5 marzo è andato in onda SANREMO !! è possibile testare i limiti di validità del modello l’ “evento” Sanremo ha reso necessaria un’analisi separata per i due periodi 4 -6 e 7 -9 marzo 2005 Gasparini-Imparato 16/09/05

Risultati 7 -9 marzo 2005 n Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : share stimato share reale ü il trend stimato corrisponde grosso modo a quello reale ! Gasparini-Imparato 16/09/05

Errore e intervalli previsivi n n Andamento dell’errore: ü In media l’errore è pari a 4. 5 % ü nel 75% dei casi inferiore a 5 % Intervallo previsivo per la stima dello share: ü ü n _ Intervallo previsivo al 68% ~ media + dev. standard ~ 68% delle volte lo share reale è compreso nell’intervallo previsivo I risultati confermano l’efficacia del modello statistico di regressione per la previsione dello share Gasparini-Imparato 16/09/05

Risultati 4 -6 marzo 2005 n Confronto dell’andamento dello share reale con quello stimato per il modello parametrico : share stimato share reale valori anomali in prime time e second time dovuti a Sanremo Il modello cade in difetto ! Gasparini-Imparato 16/09/05

Il modello non parametrico n n n media dei valori di share attraverso proiezioni del cubo multidimensionale dei predittori l’operazione di media risulta tanto più significativa quanto maggiore è il numero di occorrenze passate anche il modello non parametrico ha mostrato un trend molto soddisfacente dello share previsto per i giorni 7 -9 marzo ed è caduto in difetto durante Sanremo Gasparini-Imparato 16/09/05

Scelta del modello ibrido n n Riusciamo a ridurre ulteriormente l’entità degli errori presenti coi due modelli ? Modello parametrico: minimizza gli errori in presenza di scarse osservazioni del passato Modello non parametrico: ottimale quando il numero di occorrenze passate risulta elevato Creiamo un modello ibrido che prenda il meglio di ognuno dei due! Gasparini-Imparato 16/09/05

Calibrazione empirica del modello n Il numero N di occorrenze passate su cui si media viene preso come fattore discriminante nella scelta dei due modelli ü modello parametrico ü modello non parametrico n n se N < N 0 altrimenti analisi 7 -9 marzo 2005 e ottobre-novembre 2004: Le analisi congiunte sui due modelli suggeriscono la scelta di N 0 ~ 50 come parametro ottimale ulteriore riduzione degli errori: ü ü In media l’errore è pari a 0. 035 nel 75% dei casi inferiore a 0. 04 Gasparini-Imparato 16/09/05

Front-end grafico del sistema prototipale Fascia oraria 16. 00 – 17. . 00 TUTTI Esporta Genere in programmazione SHARE medio 22, 75 Numero di occorrenze Variazione % SHARE atteso

Front-end grafico nel sistema prototipale Fascia fascia oraria Esporta Risultati SPERIMENTALI Numero occorrenze 1312 SHARE medio 25, 77 Varianza % 3, 83

Lavoro futuro n Il modello ibrido va in crisi in presenza di programmi dal contenuto di particolare rilievo (vd. Sanremo) n Analisi centrate alla modellizzazione del contenuto di una trasmissione (analisi dei testi, codifica dei contenuti e dei protagonisti) n Analisi suddivisa per target n Satellitare + digitale terrestre: cambierà tutto. Gasparini-Imparato 16/09/05