Econometria Applicata - Facoltà di Scienze Statistiche
Transcription
Econometria Applicata - Facoltà di Scienze Statistiche
Econometria Applicata Tommaso Proietti Dipartimento di Scienze Statistiche Università di Udine Indice 1 Descrizione e Previsione di Serie Temporali 1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Analisi esplorativa delle serie temporali . . . . . . . . . . . . . . . 1.2.1 La trasformazione logaritmica e le differenze della serie . . 1.2.2 Le sintesi della distribuzione del fenomeno . . . . . . . . . 1.2.3 Autocorrelazione . . . . . . . . . . . . . . . . . . . . . . . 1.3 Il modello classico di scomposizione di una serie temporale . . . . 1.4 Stima del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Test di ipotesi e di significatività su un singolo coefficiente 1.4.2 Misura della bontà dell’adattamento . . . . . . . . . . . . 1.5 Previsione mediante modelli deterministici . . . . . . . . . . . . . 1.6 Previsione mediante livellamento esponenziale . . . . . . . . . . . 1.7 Previsione mediante il metodo di Holt-Winters . . . . . . . . . . . 1.8 Procedura di Holt-Winters stagionale . . . . . . . . . . . . . . . . 2 I modelli ARIMA 2.1 Premessa . . . . . . . . . . . . . 2.2 Generalità sui processi stocastici 2.3 Momenti campionari . . . . . . 2.4 Il teorema di Wold . . . . . . . 2.5 Autocorrelazione parziale . . . . 2.6 L’algebra dell’operatore L . . . 2.7 Processi Autoregressivi . . . . . 2.7.1 Processo AR(1) . . . . . 2.7.2 Processo AR(2) . . . . . 2.7.3 Processo AR(p) . . . . . 2.8 Processi media mobile . . . . . 2.8.1 Processo MA(1) . . . . . 2.8.2 Processo MA(q) . . . . . 2.9 Processi misti . . . . . . . . . . 2.10 Non stazionarietà . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 8 10 13 13 18 20 21 21 22 23 25 . . . . . . . . . . . . . . . 26 26 26 27 28 28 30 30 31 32 33 34 34 35 35 36 2.11 Stagionalità . . . . . . . . . 2.12 L’approccio di Box e Jenkins 2.12.1 Identificazione . . . . 2.12.2 Stima . . . . . . . . 2.12.3 Verifica . . . . . . . 2.13 Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 38 38 38 39 40 3 Analisi non parametrica delle serie temporali 3.1 Le medie mobili . . . . . . . . . . . . . . . . . . 3.2 Effetto fase ed effetto ampiezza . . . . . . . . . 3.3 L’effetto di Slutzky-Yule . . . . . . . . . . . . . 3.4 Polinomi locali; filtri di Macaulay . . . . . . . . 3.4.1 Varianza e distorsione . . . . . . . . . . 3.5 Medie mobili aritmetiche semplici . . . . . . . . 3.5.1 Componente stagionale di periodo s pari 3.6 Composizione di mm aritmetiche . . . . . . . . 3.7 Lisciamento e filtri di Henderson . . . . . . . . . 3.8 Il trattamento delle estremità della serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 44 45 46 47 49 49 50 50 51 51 . . . . . . . . . . . 52 52 54 55 56 57 59 59 61 62 63 63 . . . . 64 64 65 65 4 La destagionalizzazione delle serie temporali 4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 La procedura X-12-ARIMA . . . . . . . . . . . . . . . . . . 4.3 Il filtro di destagionalizzazione (Enhanced X-11) . . . . . . . 4.3.1 Prima fase: stime iniziali . . . . . . . . . . . . . . . . 4.3.2 Seconda fase: fattori stagionali e destagionalizzazione 4.3.3 Terza fase: stima finale delle componenti . . . . . . . 4.4 Le proprietà teoriche del filtro . . . . . . . . . . . . . . . . . 4.5 Correzione dei valori anomali nell’X-11 . . . . . . . . . . . . 4.6 Le componenti di calendario . . . . . . . . . . . . . . . . . . 4.7 Diagnostica . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.1 Test di stagionalità . . . . . . . . . . . . . . . . . . . 4.7.2 Nuova diagnostica su stagionalità residua e l’effetto giorni lavorativi . . . . . . . . . . . . . . . . . . . . . (3) 4.7.3 Test di casualità dei residui It . . . . . . . . . . . . 4.7.4 Bontà della destagionalizzazione . . . . . . . . . . . . 4.7.5 Diagnostiche basate sulla stabilità delle stime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . del n. . . . . . . . . . . . . . . . . 5 Analisi Econometrica di Dati non Stazionari 71 5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.2 Stazionarietà ed integrazione . . . . . . . . . . . . . . . . . . . . . . . 72 5.3 Il test di Dickey e Fuller . . . . . . . . . . . . . . . . . . . . . . . . . 75 2 5.4 5.5 5.6 5.7 5.8 5.9 5.10 Il test ADF . . . . . . . . . . . . . . . . . . . . . . Trend e RW nelle serie economiche . . . . . . . . . Persistenza . . . . . . . . . . . . . . . . . . . . . . Integrazione stagionale . . . . . . . . . . . . . . . . Test di integrazione stagionale . . . . . . . . . . . . Critiche all’applicazione dei test per radici unitarie Le implicazioni econometriche . . . . . . . . . . . . 5.10.1 Modello nei livelli . . . . . . . . . . . . . . . 5.10.2 Modello nelle differenze . . . . . . . . . . . . 5.10.3 Regressione tra serie detrendizzate . . . . . 5.11 Modelli con meccanismo a correzione dell’errore . . 5.12 Cointegrazione . . . . . . . . . . . . . . . . . . . . 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 78 82 83 86 87 88 89 89 90 91 92 I Modelli Strutturali per l’Analisi delle Serie Temporali 99 6.1 6.2 6.3 6.4 6.5 L’approccio modellistico e la classe dei modelli strutturali . . . . Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La modellazione del ciclo economico . . . . . . . . . . . . . . . . Componente stagionale . . . . . . . . . . . . . . . . . . . . . . . Il trattamento statistico del modello e la stima delle componenti 6.5.1 La rappresentazione nello spazio degli stati . . . . . . . . 6.5.2 Il filtro di Kalman . . . . . . . . . . . . . . . . . . . . . 6.5.3 Verosimiglianza e inizializzazione del filtro . . . . . . . . 6.5.4 Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.5 Diagnostica . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 Componenti di calendario . . . . . . . . . . . . . . . . . . . . . 6.7 Altre specificazioni della componente stagionale . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 101 102 103 103 104 105 106 107 107 108 108 Elenco delle tabelle 4.1 Filtro di Henderson: pesi hj per le m.m a 9, 13, 17 e 23 termini . . . 58 4 Elenco delle figure 1.1 1.2 1.3 Grafico di quattro serie temporali. . . . . . . . . . . . . . . . . . . . 9 Distribuzione dei rendimenti sul mercato azionario di Londra (FTSE). 12 Correlogramma della trasformazione ∆12 ln yt della serie delle vendite (variazioni relative su base annua). . . . . . . . . . . . . . . . . . . . 14 4.1 4.2 4.3 . 53 . 68 Destagionalizzazione della serie Airline. . . . . . . . . . . . . . . Pesi e funzioni di trasferimento per il filtro X-11 default . . . . . . Pesi e funzioni di trasferimento per il filtro X-11 con filtro di Henderson a 17 termini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Serie BDIGENGS: livello degli ordini e della domanda dall’interno per il totale industria (saldi), ISCO. . . . . . . . . . . . . . . . . . 5 . 69 . 70 Capitolo 1 Descrizione e Previsione di Serie Temporali 1.1 Introduzione Una serie temporale costituisce una sequenza di osservazioni su un fenomeno y effettuate in istanti o intervalli (rispettivamente per le variabili di stock e di flusso) di tempo consecutivi e solitamente, anche se non necessariamente equispaziati (stock) o della stessa lunghezza (flussi). Un esempio di una variabile di stock è costituito dal prezzo di un prodotto, mentre un esempio di flusso è rappresentato dalle vendite di un particolare bene realizzate in un intervallo di tempo. Una tipologia intermedia è costituita dalle medie temporali di uno stock (prezzi medi in un periodo di tempo). Denotando con t = 1, . . . , T il tempo, indicheremo tale sequenza yt ; il tempo è il criterio ordinatore che non può essere trascurato, per cui occorre conoscere anche la posizione dell’osservazione lungo la dimensione temporale. Generalmente, si usa rappresentare la coppia di valori (t, yt ) su diagramma cartesiano, con un grafico a tratto continuo, come se il fenomeno fosse rilevato con continuità. L’analisi univariata delle serie temporali, oggetto del presente capitolo, si propone di interpretare il meccanismo dinamico che ha generato la serie e di prevedere le realizzazioni future del fenomeno: in queste operazioni l’informazione che viene sfruttata riguarda esclusivamente la coppia (t, yt ), t = 1, . . . , T . Il punto fondamentale è che il passato ed il presente contengono informazioni rilevanti per prevedere l’evoluzione futura del fenomeno. Si può ritenere che l’analisi univariata sia troppo limitativa; solitamente si dispone di informazioni su fenomeni collegati a quello da prevedere e che andrebbero opportunamente incorporate al fine di migliorare la performance del modello di previsione. Ciò nonostante, essa è un utile benchmark che consente di validare alternative più sofisticate. 6 1.2 Analisi esplorativa delle serie temporali L’analista aziendale è interessato a seguire nel tempo l’evoluzione dei fenomeni economici di interesse, quali la produzione e le vendite, le scorte di magazzino, i flussi turistici, le quote di mercato etc. Molto spesso l’interesse non è incentrato sul valore assoluto del fenomeno, ma piuttosto sulle variazioni relative, vale a dire sui tassi di crescita. In tal caso l’analista può assumere un istante o intervallo temporale di riferimento (detto base), che viene mantenuto fisso, e valutare la dinamica del fenomeno relativamente alla base. Sia ad es. y0 il valore delle vendite di un particolare bene al tempo base: il numero indice (percentuale) delle vendite al tempo t è fornito da i0t = 100 yt , y0 mentre il tasso di variazione relativo è dato dal complemento a 100, i0t − 100; cosı̀, se i04 = 105.2, il valore delle vendite nel periodo t = 4 è superiore a quello del tempo base per una quota pari al 5.2%. Altre volte è utile raffrontare il valore del fenomeno con quello del tempo precedente, considerando gli indici a base mobile e le variazioni percentuali it−1,t = 100 yt yt − yt−1 , it−1,t − 100 = 100 yt−1 yt−1 Un problema sorge quando il fenomeno è complesso, vale a dire risulta dalla combinazione di più fenomeni elementari; si pensi alla costruzione di un indice dei prezzi di vendita di un’impresa che produce beni differenziati (ad es. cioccolatini, caramelle, panettoni etc.). Una soluzione pratica consiste nel costruire un indice di tipo Laspeyres: P P (pkt /pk0 )pk0 qk0 k pkt qk0 I0t = 100 P = 100 k P k pk0 qk0 k pk0 qk0 dove pkt rappresenta il prezzo del prodotto k al tempo t e qkt la quantità venduta corrispondente. Se il fenomeno è stagionale, presentando delle oscillazioni ricorrenti e periodiche nell’arco dell’anno (le vendite sono più elevate nel mese di dicembre per effetto del Natale), ha senso calcolare i tassi di variazione relativa con riferimento allo stesso periodo dell’anno precedente, al fine di ottenere una valutazione non influenzata dalla stagionalità. Nel caso di osservazioni mensili: it−12,t = 100 yt yt−12 , it−12,t − 100 = 100 yt − yt−12 yt−12 Uno dei più efficaci strumenti esplorativi è senza dubbio il grafico della serie (e delle sue trasformazioni), il quale può immediatamente rivelare alcuni fatti stilizzati, 7 come la presenza e la natura del trend, della stagionalità, di fluttuazioni di breve periodo, di valori anomali o rotture strutturali (si veda [?], cap. 3, per alcune ”questioni di stile” concernenti le rappresentazioni grafiche delle serie temporali). La figura 1.1 mette in luce che fenomeni diversi possono mostrare comportamenti molto differenziati: la prima serie, formata da 135 misurazioni del diametro di componenti di un pistone prodotte ad intervalli di tempo regolari, si manifesta piuttosto ”irregolare”, fluttuando attorno ad un valore medio (linea tratteggiata) che può essere assunto costante. La seconda è la serie semestrale dei contratti per telefonia cellulare e presenta un evidente trend di natura esponenziale. La terza riguarda le vendite effettuate da una società anonima ed ha periodicità mensile; le vendite mostrano un trend crescente, ma il fatto nuovo, non osservabile nelle altre serie, è la presenza di una forte stagionalità, tale che il massimo annuale si ha in corrispondenza del mese di novembre ed il minimo in quello di maggio. Inoltre, l’ampiezza delle fluttuazioni stagionali cresce al crescere del trend. L’ultima serie rappresenta il logaritmo dei prezzi giornalieri di chiusura sul mercato azionario di Londra (FTSE); torneremo tra breve su questa serie. 1.2.1 La trasformazione logaritmica e le differenze della serie Con riferimento all’ultima serie abbiamo utilizzato la trasformazione logaritmica; esistono almeno due buone ragioni che possono giustificarne l’impiego. In primo luogo essa stabilizza la variabilità della serie, quando questa si riveli crescente al crescere del trend: questa circostanza si verifica per la serie delle vendite, la cui trasformazione logaritmica non possiede più la caratteristica segnalata precedentemente riguardo alle fluttuazioni stagionali, che presenteranno ampiezza costante. In effetti, se la serie può essere pensata come il risultato dell’interazione moltiplicativa di più componenti, mediante la trasformazione logaritmica si rende tale relazione puramente additiva. In generale, si consideri una variabile casuale yt con media µt e varianza σ 2 µ2t ; si desidera determinare la trasformazione f (yt ) tale che Var[f (yt )] sia costante. L’approssimazione di Taylor del primo ordine attorno a µt della funzione f (yt ) è: f (yt ) ≈ f (µt ) + f 0 (µt )(yt − µt ) e, pertanto, Var[f (yt )] ≈ f 0 (µt )2 µ2t σ 2 . Occorre dunque scegliere la funzione in modo tale che: 1 f 0 (µt ) = , µt da cui discende che la trasformazione richiesta è quella logaritmica (d ln y/dy = 1/y), per cui f (·) = ln(·). 8 Figura 1.1: Grafico di quattro serie temporali. Contratti Cellulari 0.0 e+00 35 40 1.5 e+07 45 3.0 e+07 Diametro pistone 0 20 40 60 80 120 1986 1990 1994 UK FTSE 7.8 200 8.0 400 8.2 600 8.4 8.6 800 Vendite della compagnia X 1965 1967 1969 1971 1992 9 1994 1996 1998 La seconda ragione attiene all’impiego della trasformazione in congiunzione alle differenze della serie. Infatti, definendo ∆k ln yt = ln yt − ln yt−k , si ha che le differenze k-esime costituiscono un’approssimazione della variazione relativa del fenomeno dal tempo t − k al tempo t, ovvero: ∆k yt ≈ yt − yt−k . yt−k Per comprendere la natura dell’approssimazione si prenda, senza perdita di generalità, il caso k = 1 (differenze prime logaritmiche): yt ∆ ln yt = ln yt−1 ! ∆yt = ln 1 + yt−1 ! = ln(1 + rt ) dove rt = ∆yt /yt−1 è il tasso di variazione relativo rispetto al tempo precedente. Lo sviluppo in serie di Taylor della funzione ln(1 + rt ) attorno al punto rt = 0 risulta: 1 1 ln(1 + rt ) = rt − rt2 + rt3 + · · · , 2 3 per cui si può affermare che ∆ ln yt rappresenta l’approssimazione di Taylor del primo ordine della variazione relativa. La bontà dell’approssimazione dipende dall’ordine di grandezza di quest’ultima. 1.2.2 Le sintesi della distribuzione del fenomeno Le sintesi del fenomeno effettuate mediante le medie e le varianze • Media: ȳ = T −1 PT t=1 • Varianza: S 2 = T −1 yt PT t=1 (yt − ȳ)2 o altre statistiche descrittive (asimmetria, curtosi, etc.), che consideriamo nel prosieguo della discussione, hanno significato solo se sono stabili nel tempo. Nel caso di variabili univariate siamo soliti andare a guardare la distribuzione dei valori mediante la stima della densità della stessa (cfr. appendice ??). Questa sintesi potrebbe non avere molto senso nel caso di serie temporali data la forte interdipendenza nel tempo, e sarebbe sicuramente non informativa per tutte le serie considerate ad eccezione della prima. In effetti, lo stima della distribuzione di un fenomeno assume che le osservazioni a nostra disposizione costituiscano un campione casuale proveniente da un’unica popolazione di valori, e risulta oltremodo difficile ritenere che la distribuzione del fenomeno sia costante nel caso della serie delle 10 vendite, per il quale si osserva che in media il fenomeno è crescente e ha movimenti stagionali. Ciò non implica che lo studio della distribuzione sia del tutto privo di rilievo anche con riferimento ad una trasformazione della serie. Si consideri, ad esempio, la serie dei rendimenti (log return), rt = ∆ ln yt = ln yt − ln yt−1 , calcolata con riferimento alla serie FTSE e presentata nel primo pannello della figura 1.2. Il grafico dei rendimenti contro i valori ritardati di un periodo mostra, nella sostanza, che rt è incorrelato con rt−1 (questo implicherebbe che la conoscenza del passato non è di aiuto per predire il futuro); tuttavia, si osservano dei periodi in cui la volatilità della serie è più pronunciata, ed effettivamente, se consideriamo la distribuzione dei rendimenti mediante l’istogramma e una stima non parametrica della densità si nota la presenza del fenomeno noto come leptocurtosi: la distribuzione presenta un addensamento delle frequenze sui valori centrali e sulle code rispetto al caso normale (l’ultimo riquadro riporta, accanto alla stima non parametrica, la densità di una variabile casuale normale con media e varianza poste uguali a quelle osservate per i rendimenti rt ); questo implica che la possibilità di osservare eventi estremi è maggiore. Due misure di sintesi molto utili al fine di caratterizzare la natura della distribuzione sono l’indice di asimmetria: skewness = e di curtosi: T yt − ȳ 3 1X , T t=1 S T yt − ȳ 4 1X . T t=1 S Se la distribuzione è simmetrica il primo indice è pari a zero, mentre il valore teorico di riferimento per il secondo è quello assunto sotto l’ipotesi di distribuzione normale, pari a 3; valori superiori indicano che la distribuzione è leptocurtica. Al fine di testare dal punto di vista formale la conformità con la distribuzione normale si può utilizzare il test di Jarque e Bera [?], il quale è basato sulla statistica: curtosi = 1 T skewness2 + (curtosi − 3)2 JB = 6 4 che, sotto l’ipotesi nulla di normalità, ha distribuzione χ2 con 2 gradi di libertà. Un ausilio grafico finalizzato alla valutazione di conformità con la distribuzione normale è il cosiddetto qqplot che costituisce il diagramma a dispersione dei quantili della distribuzione empirica della serie osservata con quelli teorici della distribuzione normale con stessa media e varianza; esso può essere ottenuto in R utilizzando la funzione qqnorm(). Se la distribuzione del fenomeno è normale i punti si dispongono lungo una linea retta. 11 Figura 1.2: Distribuzione dei rendimenti sul mercato azionario di Londra (FTSE). rt versus rt−1 0.00 0.02 0.04 −0.04 −0.04 0.00 0.02 0.04 Rendimenti FTSE 1992 1994 1996 1998 −0.04 0.02 0.04 0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70 0.00 Confronto distribuzione normale Distr. Rendimenti −0.04 0.00 0.02 0.04 −0.04 12 0.00 0.02 0.04 1.2.3 Autocorrelazione I fenomeni aziendali presentano una cosiddetta dipendenza temporale, o autocorrelazione, nel senso che il presente dipende dal passato; un semplice modo per verificare se la serie è autocorrelata consiste nel rappresentare in un diagramma a dispersione yt e yt−1 (la serie ritardata di un periodo - in generale definiamo la serie ritardata di k periodi slittando la serie originaria k periodi in avanti, di modo che al tempo t viene associato il valore yt−k ); se si ottiene una nuvola di punti che si muove attorno ad una retta inclinata positivamente, allora si dice che yt presenta autocorrelazione positiva e che quanto più il valore registrato nel periodo precedente è elevato, tanto più è lecito attendersi un valore positivo ed alto per il tempo corrente; viceversa nel caso di autocorrelazione negativa. Il coefficiente di correlazione tra yt e yt−1 misura l’intensità del legame della serie con il passato. Si parla inoltre di autocorrelazione di ordine k se yt è correlato con yt−k . L’autocovarianza campionaria a lag, o ritardo, k è calcolata come segue: ck = T −1 T X t=1 (yt − ȳ)(yt−k − ȳ) si osservi che a stretto rigore gli scarti dalla media delle osservazioni ritardate dovrebbero essere calcolati con riferimento alla media delle T − k osservazioni yt−k , t = k + 1, . . . , T ; tuttavia, se T è sufficientemente elevato e il fenomeno non presenta tendenza, questa non differisce dalla media globale. Il coefficiente di autocorrelazione al medesimo ritardo è fornito da ρk = ck /c0 . Osserviamo che a denominatore dovremmo avere il prodotto degli scarti quadratici medi di yt , t = 1, . . . , T , e di yt−k , t = k + 1, . . . , T ; anche in questo caso, sotto certe condizioni, il secondo non √ differisce da c0 = S. La tipologia di rappresentazione grafica che viene comunemente impiegata per rappresentare le autocorrelazioni è il correlogramma, un diagramma ad aste che contiene in ascissa i valori consecutivi del ritardo k e in ordinata i valori delle autocorrelazioni corrispondenti. Un esempio è fornito dalla figura 1.3 ed è stato prodotto dalla funzione acf() della libreria ts di R. La dipendenza del fenomeno dal passato è fortemente legata alla possibilità di prevedere le realizzazioni future dalla conoscenza del comportamento nel tempo. 1.3 Il modello classico di scomposizione di una serie temporale Le serie temporali relative a fenomeni economico-aziendali presentano delle caratteristiche comuni, che sono state identificate come trend, ciclo, stagionalità (per 13 Figura 1.3: Correlogramma della trasformazione ∆12 ln yt della serie delle vendite (variazioni relative su base annua). −0.2 0.0 0.2 0.4 0.6 0.8 1.0 Series diff(log(sales), 12) 0.0 0.5 1.0 14 1.5 osservazioni subannuali); questi “segnali” possono essere contaminati da oscillazioni che a prima vista appaiono non strutturate e che possono essere identificate come puramente casuali. L’analisi classica prende le mosse da questa naturale constatazione, proponendo i seguenti modelli di scomposizione della serie temporale (rispettivamente modello additivo e modello moltiplicativo): yt = µt + ψt + γt + t yt = µt ψt γt t (1.1) dove, in generale, le componenti hanno natura deterministica ad eccezione di quella irregolare; quest’ultima viene intesa come una componente puramente casuale, non prevedibile dalla conoscenza delle sue realizzazioni passate e che si sovrappone ai segnali senza avere una sistematicità. Nel caso additivo, un modello statistico per catturare queste caratteristiche postula che t sia una sequenza di realizzazioni di variabili casuali normali identicamente e distribuite in maniera indipendente con media nulla e varianza costante; in simboli, t ∼ N ID(0, σ 2 ). Una versione più debole non richiede la normalità, ma si limita ad assumere che t , t = 1, . . . , T siano variabili causali incorrelate a media nulla e varianza costante. Nel seguito faremo riferimento esclusivo al modello di scomposizione additivo, al quale si può ricondurre il modello moltiplicativo in seguito all’applicazione della trasformazione logaritmica. Il simbolo µt denota la componente tendenziale (trend), espressione della dinamica di lungo periodo della serie, generalmente rappresentata da una funzione deterministica (ad es. un polinomio) del tempo, t: • Trend costante (di grado 0): µt = β0 • Trend lineare: µt = β0 + β1 t • Trend quadratico: µt = β0 + β1 t + β2 t2 • Trend logistico (per fenomeni caratterizzati da un livello di saturazione): µt = β0 1 + β1 exp(−β2 t) • Trend esponenziale: µt = exp(β0 + β1 t) La componente di breve periodo, detta anche ciclo, è denotata con ψt ed è rappresentata da una funzione trigonometrica: ψt = α cos(λt) + β sin(λt) dove λ ∈ [0, π] rappresenta la frequenza angolare, tale che il periodo dell’oscillazione √ è pari a P = 2π/λ e α e β determinano l’ampiezza dell’oscillazione (A = α2 + β 2 ). La componente stagionale coglie le oscillazioni sistematiche della serie che hanno periodo uguale all’anno; Hylleberg, [?] propone la seguente definizione: 15 Seasonality is the systematic, although not necessarily regular, intrayear movement caused by the changes of the weather, the calendar, and timing of decisions, directly or indirectly through the production and consumption decisions made by the agents of the economy. These decisions are influenced by endowments, the expectations and preferences of the agents, and the production techniques available in the economy. Harvey [?] fornisce una definizione incentrata sul problema della previsione, che individua la stagionalità nella componente della serie che estrapolata si ripete costantemente per ogni periodo di tempo pari all’anno (periodicità) ed ha somma nulla su quel periodo. Sebbene vi sia sufficiente consenso attorno a queste definizioni, che lasciano aperta la possibilità che la componente stagionale evolva nel tempo, un aspetto altrettanto importante è la loro traduzione operativa. Supponiamo che la serie temporale sia osservata con periodicità s (dove s denota il numero di stagioni in un anno, vale a dire s = 4 per dati trimestrali, s = 12 per dati mensili, s = 52 per dati settimanali, etc.) e denotiamo con γt l’effetto stagionale al tempo t. Ci sono due approcci equivalenti alla modellazione di un pattern stagionale deterministico (vale a dire invariante nel tempo): nel dominio temporale, mediante l’introduzione di particolari variabili indicatrici dette dummy stagionali; nel dominio frequenziale, mediante una combinazione lineare di funzioni trigonometriche, seno e coseno in particolare. Secondo il primo approccio, γt = s X δj Djt (1.2) j=1 dove Djt è una dummy stagionale, Djt = 1 nella stagione j e 0 altrimenti, e i coefficienti δj misurano l’effetto associato al corrispondente periodo dell’anno. Se la serie contiene anche una componente tendenziale e il modello di scomposizione è del tipo yt = β0 + β1 t + s X δj Djt + t , j=1 si incontra immediatamente una difficoltà, consistente nel fatto che il modello non è identificato, poiché esiste dipendenza lineare tra i regressori (infatti la somma delle s dummy stagionali è pari all’unità e questo effetto viene confuso con l’intercetta). A tale problema si rimedia vincolando i coefficienti δj ad avere somma nulla; tale restrizione consente di identificare il modello (1.1) quando è presente il termine di intercetta e, sotto l’ipotesi che la componente irregolare sia abbia distribuzione t ∼ N ID(0, σ 2 ), il modello (1.1) può essere stimato mediante i minimi quadrati (MQ) vincolati (cfr. [?]). Invece di vincolare i coefficienti δj ad avere somma nulla, si possono utilizzare strategie alternative che rendono praticabili le stime dei MQ ordinari. 16 • Una parametrizzazione equivalente si ottiene ponendo D̃jt = 1, t = j, mod s, D̃jt = 0, t 6= j mod s, D̃jt = −1, t = s, mod s (vale a dire ponendo D̃jt = Djt − Dst per j = 1, . . . , s − 1) e stimando il modello yt = β0 + β1 t + s−1 X δj D̃jt + t j=1 L’effetto stagionale associato alla stagione s si ottiene come segue: δs = − s−1 X δj j=1 • Una soluzione consiste nell’eliminare l’intercetta, stimando il modello yt = β1 t + s X δj∗ Djt + t j=1 dove δj∗ = δj + β0 , mediante i MQO. Ottenute le stime dei parametri, si ottiene P β̂0 = 1/s δ̂j∗ e δ̂j = δ̂j∗ − β̂0 . • Alternativamente, possiamo modellare la stagionalità introducendo soltanto s − 1 dummy del tipo Djt , ad es. escludendo l’ultima: yt = β0† + β1 t + s−1 X δj† Djt + t j=1 In tal caso, β0† + δj† = β0 + δj , j = 1, . . . , s − 1, e β0† = β0 + δs ; sommando rispetto a j si ottiene: X † 1 s−1 δ β0 = β0† + s j=1 j e successivamente si possono ricavare gli effetti originari δj . Il modello trigonometrico è formulato nei termini di s−1 effetti associati all’ampiezza di s/2 onde cicliche definite alle frequenze 2πj/s, j = 1, 2, . . . , s/2: per s pari, γt = s/2 X [αj cos(λj t) + βj sin(λj t)] (1.3) j=1 La proprietà condivisa da tutte queste parametrizzazioni è che la somma degli effetti stagionali su s unità temporali consecutive è identicamente nulla: s−1 X γt−j = 0. j=0 17 1.4 Stima del modello Il modello di scomposizione deterministico può essere rappresentato come segue: yt = b1 xt1 + . . . + bk xtk + t = x0t b + t , t = 1, . . . , T, con x0t = [xt1 , xt2 , . . . , xtk ] e b è un vettore contenente i k coefficienti di regressione. Ad esempio, il modello con trend lineare e s dummy stagionali ha xt0 = [t, D1t , . . . , Dst ] e b = [β1 , δ1∗ , . . . , δs∗ ]0 , mentre il modello trend quadratico più irregolare, yt = β0 + β1 t + β2 t2 + t presenta xt = [1, t, t2 ]0 e b = [β0 , β1 , β2 ]0 . Le T equazioni lineari possono essere riscritte in forma matriciale y = Xb + , con y = [y1 , . . . , yt , . . . , yT ]0 e X = [x1 , x2 , . . . , xT ]0 . Il nostro obiettivo è stimare i parametri incogniti (i coefficienti b e σ 2 ), fare inferenze, per verificare se soddisfano le conoscenze a priori o altri vincoli, verificare che il modello costituisca una valida interpretazione della realtà e prevedere le osservazioni future. Sia b̂ una stima di b. In corrispondenza possiamo definire il vettore dei residui (o scarti tra i valori osservati, y, e i valori interpolati, ŷ = X b̂): e = y − X b̂. Lo stimatore dei minimi quadrati (ordinari) si ottiene minimizzando la somma dei quadrati dei residui: 0 0 S(b̂) = e0 e = (y − X b̂)0 (y − X b̂) = y 0 y − 2b̂ X 0 y + b̂ X 0 X b̂ Le condizioni del primo ordine: ∂S(b̂) =0 ∂ b̂ forniscono le cosiddette equazioni normali: X 0 X b̂ = X 0 y, le quali costituiscono un sistema di k equazioni in k incognite che ammette una soluzione unica se la matrice X ha rango k: in tal caso la matrice (X 0 X) è non singolare e la soluzione è 0 −1 0 b̂ = (X X) X y = T X t=1 18 xt x0t !−1 T X t=1 xt yt . Le condizioni del secondo ordine affinché la soluzione individui un minimo della funzione S(b̂) richiedono che la matrice hessiana sia definita positiva: ciò si verifica in quanto ∂ 2 S(b̂) 0 0 = 2(X X) > 0. ∂ b̂∂ b̂ Il vettore dei valori predetti dal modello di regressione e dei residui del sono forniti rispettivamente da ŷ = X b̂, con elemento generico ŷt = x0t b̂, e da e = y − ŷ = y − X b̂, con elemento generico et = yt − x0t b̂. y = X b̂ + e = ŷ + e Sostituendo b̂ = (X 0 X)−1 X 0 y in S(b̂) si ottengono le seguenti espressioni equivalenti per la somma dei quadrati dei residui: e0 e = = = = 0 y 0 y − b̂ X 0 X b̂ y 0 (I − X(X 0 X)−1 X 0 )y 0 y 0 y − b̂ X 0 y y 0 y − y 0 X b̂ Si osservi che se la prima colonna di X è il vettore unitario, i (il modello contiene il termine di intercetta), le equazioni normali X 0 e = X 0 (y − X b̂) = 0, implicano che : • i residui dei minimi quadrati hanno somma (media) nulla: i0 e = 0 e sono ortogonali rispetto alle variabili indipendenti. • L’iperpiano di regressione passa per il centroide ȳ = x̄0 b̂ • La media dei valori predetti, ŷ = X b̂, coincide con la media dei valori osservati. Proprieta statistiche in campioni finiti Se si assume che E() = 0, lo stimatore b̂ è corretto: E(b̂) = E[(X 0 X)−1 X 0 y] = b + E[(X 0 X)−1 X 0 ] = b, e ha matrice di covarianza: Var(b̂) = σ 2 (X 0 X)−1 19 Inoltre, sotto l’assunzione di sfericità degli errori, E(0 ) = σ 2 I, si può dimostrare che esso presenta varianza minima all’interno della classe degli stimatori lineari. Tale risultato è noto come teorema di Gauss-Markov. Lo stimatore è inoltre una combinazione lineare di y e quindi di . Se si assume che sia distribuito normalmente, b̂ ∼ N(b, σ 2 (X 0 X)−1 ). Tale risultato viene utilizzato per la costruzione di statistiche test per la verifica di ipotesi sui coefficienti b. Senza l’assunzione di normalità la distribuzione degli stimatori MQO non è nota; tuttavia, in campioni di grandi dimensioni, si può invocare il teorema del limite centrale per trattare b̂ come approssimativamente normale. Stima di σ 2 e della varianza di b̂ Uno stimatore corretto di di σ 2 è P T 2 e0 e t=1 et s = = . T −k T −k 2 La radice quadrata, s, è denominata errore standard della regressione. Il risultato viene utilizzato per ottenere una stima della matrice di covarianza delle stime OLS: ˆ b̂) = s2 (X 0 X)−1 . Var( 1.4.1 Test di ipotesi e di significatività su un singolo coefficiente Sotto l’assunzione di normalità è stato desunto il risultato b̂ ∼ N(b, σ 2 (X 0 X)−1 ). Se aii denota l’elemento i-esimo sulla diagonale principale di (X 0 X)−1 : b̂i − bi √ ∼ N(0, 1). σ aii Inoltre, si può mostrare che (T − k)s2 /σ 2 ∼ χ2n−k e che tale statistica è distribuita in maniera indipendente da b̂. Applichiamo ora il noto risultato per cui dividendo una variabile casuale normale standardizzata per la radice di una v.c. χ2n−k indipendente divisa per il numero dei gradi di libertà si ottiene una v.c. tn−k : b̂i − bi ∼ tn−k t= √ s aii Il risultato può essere utilizzato per testare ipotesi su un singolo coefficiente e per costruire intervalli di confidenza. Il test di H0 : bi = 0 è anche detto test di significatività. 20 1.4.2 Misura della bontà dell’adattamento Qualora il modello contenga un intercetta possiamo ottenere una misura sintetica (scalare) della capacità esplicativa del modello che assume valori compresi tra 0 e 1; in particolare, possiamo calcolare la quota di varianza della serie spiegata dalle variabili esplicative incluse nel modello di regressione. La misura in questione prende il nome di R-quadro ed è fornita dalla seguente espressione: 2 R =1− P P 2 t et t (yt 1.5 − ȳ)2 . Previsione mediante modelli deterministici Al fine di illustrare la previsione effettuata mediante un modello deterministico di scomposizione della serie temporale, consideriamo il seguente modello: yt = β0 + β1 t + t = b0 xt + t dove b = (β0 , β1 )0 , xt = (1, t)0 e t ∼ NID(0, σ 2 ). Sia inoltre b̂ il vettore che contiene le stime MQO. Il valore predetto al tempo t = 1, . . . , T, è ottenuto come segue: 0 ŷt = b̂ xt = E[yt |xt ]; la previsione l periodi in avanti è fornita da: 0 ŷT +l = b̂ xT +l dove xT +l = (1, T + l)0 . Tale previsione è “corretta” nel senso che l’errore di previsione ha valore atteso nullo: E[yT +l − ŷT +l ] = E[(b − b̂)0 xT +l + T +l ] = 0 ed ottimale, nel senso che minimizza l’errore quadratico medio di previsione (questa è una conseguenza del teorema di Gauss-Markov). Infine, la varianza dell’errore di previsione risulta pari a: 2 0 Var[yT +l − ŷT +l ] = E[(b h − b̂) xT +l + T +l ] = 0i = σ 2 1 + xT0 +l (X 0 X)−1 xT +l dove X è la matrice T × 2 la cui riga t è data da xt0 . Essa può essere stimata sostituendo σ̂ 2 = SSE/(T − 2) nell’espressione precedente. Modello livello + irregolare : nel caso particolare in cui yt = β0 + t , ŷT +l = P β̂0 = ȳ, dove ȳ = T −1 yt . Inoltre, ˆ T +l − ŷT +l ) = σ̂ 2 1 + 1 Var(y T 21 con σ̂ 2 = (T −1)−1 ŷT +l è: P (yt −ȳ)2 . L’intervallo di confidenza all’(1−α)% per la previsione s 1 , T è il percentile della distribuzione t di Student con T −1 gradi di libertà. ȳ ± tα/2,T −1 σ̂ 1 + dove tα/2,T −1 1.6 Previsione mediante livellamento esponenziale In ambito aziendale sono spesso richieste previsioni a breve termine di un gran numero di serie (vendite disaggregate per tipo di bene prodotto) per la pianificazione della produzione e del magazzino. Un insieme di procedure di previsione ad hoc è stato introdotto in questo contesto, caratterizzate da semplicità computazionale e da immediatezza interpretativa, come dovrebbe essere per tecniche di applicazione routinaria. Consideriamo un fenomeno che oscilla attorno ad un valore medio approssimativamente costante, e supponiamo di disporre di informazioni sino al tempo t incluso: {y1 , y2 , . . . , yt }. Ci proponiamo ora di prevedere il valore del fenomeno un periodo in avanti, al tempo t + 1. Una previsione elementare può essere costruita a partire dalla media aritmetica semplice delle osservazioni disponibili: 1 ŷt+1|t = ȳ = (yt + yt−1 + · · · + y2 + y1 ) t Si noti che tutte le osservazioni, anche le più lontane nel tempo, ricevono un peso costante pari a 1/t. Potrebbe essere desiderabile ponderare le osservazioni in ragione della loro distanza dal tempo corrente, assumendo che le osservazioni più recenti presentino un contenuto informativo più elevato a fini previsivi. Ciò conduce a formulare la previsione come segue: ỹt+1|t = w0 yt + w1 yt−1 + w2 yt−2 + · · · dove wj , j = 0, 1, 2, . . . è un insieme di coefficienti di ponderazione decrescenti al P crescere di j e a somma unitaria: j wj = 1. Al fine di ottenere l’effetto desiderato si può prendere wj = λ(1 − λ)j , dove λ è una costante di livellamento compresa tra 0 e 1. In tal caso i pesi seguono una progressione geometrica di ragione (1 − λ): w0 = λ, w1 = λ(1 − λ), w2 = λ(1 − λ)2 , . . . (ad es. se λ = 0.8, w0 = 0.8, w1 = 0.16, w2 = 0.032, per cui il peso dato all’ultima osservazione è molto più elevato di quello assegnato alle osservazioni precedenti, che 22 diventa molto piccolo già a partire dalla terzultima osservazione; nel caso in cui λ = 0.1, i pesi risultano nell’ordine 0.1, 0.09, 0,081,. . . , presentando una variazione molto più limitata). Riscriviamo ora la previsione dopo aver sostituito l’espressione per wj : ỹt+1|t = λyt + λ(1 − λ)yt−1 + λ(1 − λ)2 yt−2 + · · · analogamente, se disponessimo soltanto delle osservazioni fino al tempo t − 1 si avrebbe: ỹt|t−1 = λyt−1 + λ(1 − λ)yt−2 + λ(1 − λ)2 yt−3 + · · · Moltiplicando quest’ultima espressione per (1 − λ) e sottraendo membro a membro si ottiene: ỹt+1|t − (1 − λ)ỹt|t−1 = λyt , ovvero o equivalentemente ỹt+1|t = λyt + (1 − λ)ỹt|t−1 ỹt+1|t = ỹt|t−1 + λ(yt − ỹt|t−1 ) Si ottengono due formule ricorsive che forniscono la previsione un periodo in avanti in funzione del valore corrente della serie, yt , del valore previsto al tempo precedente, ỹt|t−1 , e della costante λ. La seconda espressione indica che nel formulare la previsione al tempo corrente modifichiamo la previsione precendente in proporzione all’errore di previsione che abbiamo commesso nel prevedere yt . Per l’inizializzazione delle formule ricorsive sono state avanzate diverse proposte: le più P famose sono ỹ1|0 = y1 , ỹ1|0 = s−1 st=1 yt , la media delle prime s osservazioni (es. s = 6). Questo modo di effettuare le previsioni viene detto livellamento esponenziale. Il problema fondamentale sta nella determinazione di λ. Essa può essere effettuata minimizzando la somma dei quadrati degli errori di previsione: min S(λ) = λ T X t=1 (yt − ỹt|t−1 )2 ciò può essere effettuato mediante una ricerca a griglia nell’intervallo (0,1). Si noti che per λ = 1, ỹt+1|t = yt e la previsione coincide con l’ultima osservazione disponibile. Viceversa, per λ tendente a 0 si assegna lo stesso peso alle osservazioni. 1.7 Previsione mediante il metodo di Holt-Winters Un fenomeno che presenta un trend lineare può essere interpretato mediante il modello trend più irregolare: yt = α + βt + t , t = 1, 2, . . . , T. 23 I coefficienti α e β possono essere stimati mediante il metodo dei minimi quadrati e il modello può essere utilizzato per prevedere il fenomeno un periodo in avanti: ŷt+1|t = α + β(t + 1) = α + βt + β; in generale ŷt+l|t = α + β(t + l) = α + βt + lβ; Le previsioni si muovono lungo una retta, e il modello potrebbe rivelarsi scarsamente flessibile se il fenomeno presenta un trend locale. In tal caso ha senso estrapolare la tendenza indicata dai dati più vicini al tempo corrente. Ora, ponendo mt = α + βt, si ha che mt rappresenta il livello del trend al tempo t, mentre bt = β rappresenta l’incremento (costante), vale a dire la quantità che occorre aggiungere a mt per ottenere ŷt+1|t ; pertanto, ŷt+1|t = mt + bt Si noti che mt (livello) e bt (incremento) possono essere riscritti nei termini di una formula ricorsiva: mt = mt−1 + bt−1 bt = bt−1 con valori iniziali m0 = α e b0 = β. Risulta evidente che le osservazioni non giocano alcun ruolo nell’aggiornamento dei valori di mt e bt . Le formule precedenti possono essere generalizzate in maniera flessibile mediante le formule di Holt & Winters: ỹt+1|t = mt + bt mt = λ0 yt + (1 − λ0 )(mt−1 + bt−1 ) bt = λ1 (mt − mt−1 ) + (1 − λ1 )bt−1 la prima equazione fornisce la nuova stima del livello come media ponderata dell’ultima osservazione e della previsione effettuata al tempo precedente ed è pertanto analoga all’equazione di aggiornamento del livellamento esponenziale; l’equazione per l’aggiornamento di bt opera una media ponderata tra il valore precedente e la differenza tra il livello al tempo t e al tempo t − 1. La previsione l periodi in avanti giace su una retta ŷt+1|t = mt + lbt con origine in mt e coefficiente angolare bt . Quando una nuova osservazione si rende disponibile, queste quantità vengono aggiornate. 24 Le due costanti di livellamento, λ0 e λ1 , sono comprese tra 0 e 1 e possono essere determinate minimizzando la somma dei quadrati degli errori di previsione S(λ0 , λ1 ) = T X t=2 (yt − ỹt|t−1 )2 Dalla relazione mt−1 + bt−1 = ỹt|t−1 , dopo qualche passaggio algebrico, possiamo riscrivere: mt = mt−1 + bt−1 + λ0 et|t−1 bt = bt−1 + λ0 λ1 et|t−1 dove et|t−1 = yt − ỹt|t−1 . La tecnica di previsione nota come livellamento esponenziale doppio è un caso particolare del metodo di Holt & Winters, per cui si fanno dipendere λ0 e λ1 da un unico parametro, ω: λ0 = 1 − ω 2 , λ1 = 1−ω 1+ω Per quanto riguarda l’inizializzazione delle formule ricorsive, si possono prendere m2 = y2 e b2 = y2 − y1 . 1.8 Procedura di Holt-Winters stagionale Consideriamo ora una serie stagionale di periodo s e prendiamo a riferimento il modello di scomposizione moltiplicativo: yt = ȳt gt , dove ȳt denota la serie destagionalizzata e gt è un fattore stagionale che misura l’espansione o la contrazione del fenomeno nelle stagioni dell’anno. La previsione l = 1, 2, . . . , s, periodi in avanti al tempo t sarà: ŷt+l|t = (mt + bt l)gt+l−s , mt = λ0 (yt /gt ) + (1 − λ0 )(mt−1 + bt−1 ) bt = λ1 (mt − mt−1 ) + (1 − λ1 )bt−1 + (1 − λs )gt−s gt = λs (yt /mt ) con λs ∈ (0, 1). L’inizializzazione può avvenire al tempo t = s prendendo ms = Ps s−1 k=1 yk (in alternativa si può prendere la media geometrica delle prime s osservazioni), bs = 0, gj = yj /ms , j = 1, 2, . . . , s. Nel caso additivo si avranno le seguenti formule ricorsive: + (1 − λ0 )(mt−1 + bt−1 ) mt = λ0 (yt − gt ) bt = λ1 (mt − mt−1 ) + (1 − λ1 )bt−1 + (1 − λs )gt−s gt = λs (yt − mt ) 25 Capitolo 2 I modelli ARIMA 2.1 Premessa Prenderemo in considerazione quello che, forse con terminologia inappropriata, è conosciuto come approccio “moderno” delle serie temporali, il cui elemento di differenziazione sta nel considerare la serie yt come realizzazione finita di un processo stocastico. Il problema inferenziale è risalire da yt al processo generatore e, in tale contesto, la modellistica ARIMA semplifica il problema mediante una restrizione della classe dei processi stocastici. La pretesa è quella di fornire una rappresentazione unitaria ad una vasta gamma di fenomeni reali; ovviamente, la generalità va a scapito della possibilità di interpretare il modello in termini di variabili latenti, per cui nell’ambito dell’approccio moderno, si sono affermati i cosiddetti approcci “strutturali”. Il riferimento bibliografico più rilevante per questo capitolo è la monografia di Box, Jenkins e Reinsel [?] 2.2 Generalità sui processi stocastici Un processo stocastico,{Yt }, può essere definito come una successione ordinata di variabili casuali Yt indicizzate dal parametro t appartenente ad un insieme parametrico T . Poiché nel seguito ci limiteremo a considerare la classe dei processi stocastici continui a parametro discreto, avremo T = 1, 2, . . . e {Yt } = {Y1 , Y2 , . . .}. Il p.s. è noto se è nota la funzione di ripartizione P (Y1 ≤ a1 , Y2 ≤ a2 , . . . , YT ≤ aT ) per ogni T -upla (a1 , . . . , aT ); in altre parole, se è nota la densità congiunta di ogni evento nello spazio reale a T dimensioni. Nelle applicazioni si dispone, per ogni t, di una singola realizzazione della v.c. yt , per cui il processo inferenziale presenterebbe complicazioni insuperabili se non venissero imposte due classi di restrizioni sulle caratteristiche del processo: la stazionarietà e l’ergodicità. In particolare, diremo che un processo stocastico è stazionario in senso forte se 26 la distribuzione di probabilità congiunta di {Yt , Yt+1 , . . . , Yt+r } è indipendente da t, ∀r. Condizione necessaria e sufficiente perché ciò si verifichi è che tutti i momenti della v.c. multipla {Yt , Yt+1 , . . . , Yt+r } siano finiti ed indipendenti da t. La struttura dinamica è dunque invariante nel tempo. Ora, per un p.s. gaussiano la densità congiunta dipende esclusivamente dal vettore delle medie delle v.c. Yt , Yt+1 , . . . , Yt+r e dalla loro matrice di covarianza; pertanto, esso è stazionario se i suoi momenti fino al secondo sono finiti ed indipendenti da t, vale a dire = µ E(Yt ) 2 E(Yt − µ) = γ(0) < ∞ E[(Yt − µ)(Yt−k − µ)] = γ(k) < ∞ ∀t, k, dove γ(k) denota l’autocovarianza tra Yt e Yt−k , che si assume essere funzione esclusivamente di k. Si noti che come conseguenza della stazionarietà la funzione di autocovarianza è simmetrica rispetto a k: γ(k) = γ(−k). Un p.s. non gaussiano i cui momenti µ e γ(k) sono indipendenti da t si dice stazionario in senso debole (in covarianza). In tal caso la stazionarietà in covarianza non implica quella in senso forte, ma è generalmente sufficiente per ottenere i risultati più rilevanti. Utili strumenti per la caratterizzazione di un processo stazionario nel dominio temporale e frequenziale sono la funzione di autocorrelazione (FAC) e la densità spettrale; la prima è definita ρ(k) = γ(k)/γ(0), k = 0, 1, . . . , mentre la seconda da # " ∞ X 1 f (ω) = γ(0) + 2 γ(k) cos ωk , 2π k=1 dove ω è la frequenza in radianti che assume valori in [0, π]. E’ immediato dimostrare che la FAC gode delle seguenti proprietà: i) ρ(0) = 1, ii) |ρ(k)| < 1, iii) ρ(k) = ρ(−k). White Noise (WN). Il processo stazionario più elementare è costituito da una sequenza di variabili casuali incorrelate a media nulla e varianza costante: esso è denominato white noise, e viene indicato con εt ∼ W N (0, σ 2 ), dove E(εt ) = 0, E(εt2 ) = σ 2 e E(εt εt−k ) = 0 per k 6= 0. 2.3 Momenti campionari Dalla sezione precedente è emerso che un processo stazionario (in senso debole) è completamente caratterizzato dai parametri µ e γ(k). A partire da una realizzazione finita, {yt }Tt=1 possiamo costruire le seguenti statistiche: • Media campionaria: ȳ = µ̂ = T −1 PT • Varianza campionaria: γ̂(0) = T −1 t=1 PT 27 yt t=1 (yt − ȳ)2 • Autocovarianza campionaria a lag k: γ̂(k) = T −1 PT t=1 (yt − ȳ)(yt−k − ȳ) Se il p.s. è ergodico queste statistiche convergono (in media quadratica) ai momenti del processo, rispettivamente µ, γ(0) e γ(k). L’ergodicità richiede invece che la “memoria” del processo sia limitata cosı̀ che eventi distanti nel tempo abbiano un basso grado di dipendenza; si dimostra che un p.s. gaussiano stazionario è ergodico se ∞ X k=0 |γ(k)| < ∞. La funzione di autocorrelazione viene stimata mediante il rapporto: ρ̂(k) = γ̂(k)/γ̂(0); il grafico ad aste delle coppie (k, ρ̂(k)) è noto come correlogramma; come vedremo in seguito esso rappresenta uno degli strumenti cardine per l’identificazione del processo stocastico che ha generato la serie. Per un processo WN, tale che ρ(k) = 0, ∀k = 6 0, vale inoltre il risultato che ρ̂(k) ha distribuzione asintotica normale con media nulla e varianza pari a T −1 . Tale risultato viene solitamente utilizzato al fine di costruire bande di confidenza approssimate al 95% attorno allo zero per valutare la significatività delle autocorrelazioni stimate: queste sono non significativamente diverse da zero se sono interne √ giudicate √ all’intervallo [−2/ T , 2/ T ]. 2.4 Il teorema di Wold Alla classe dei processi stazionari si applica un importante risultato noto come teorema di Wold: esso afferma che ogni p.s. stazionario (in senso debole) può essere scomposto in due processi stocastici mutualmente incorrelati, uno dei quali è lineare deterministico, c(t), mentre l’altro (indeterministico) è una sequenza infinita di variabili causali incorrelate (processo lineare): P Yt = c(t) + εt + ψ1 εt−1 + ψ2 εt−2 + · · · , con |ψj | < ∞ e E[c(t)t−j ] = 0, ∀t, j. Il termine t è WN e rappresenta l’errore di previsione uniperiodale: t = Yt −E(Yt |Yt−1 , Yt−2 , . . .), ed è anche detto innovazione. Un processo è deterministico se può essere previsto senza errore a partire dai valori passati di Yt ; solitamente la parte deterministica corrisponde alla media del processo, c(t) = µ. Come vedremo, il teorema consente di derivare la classe dei processi ARMA, imponendo particolari restrizioni sull’insieme dei coefficienti ψj . 2.5 Autocorrelazione parziale Il coefficiente di autocorrelazione parziale è una misura dell’associazione lineare tra Yt e Yt−k “depurata” della correlazione dovuta alle v.c. intermedie Yt−1 , . . . , Yt−k+1 . 28 Consideriamo un processo stazionario Yt , assumendo c(t) = 0 nella rappresentazione di Wold, e proponiamoci di costruire il miglior previsore lineare non distorto di Yt sulla base della conoscenza di Yt−1 , Yt−2 , . . . , Yt−k ; denotato con X t−1 = [Yt−1 , Yt−2 , . . . , Yt−k ]0 il vettore contenente il set informativo di riferimento, si dimostra che il previsore ottimale è φ0 X t−1 = φk1 Yt−1 + φk2 Yt−2 + · · · + φkk Yt−k , (2.1) dove il vettore dei coefficienti della combinazione lineare, φ = [φk1 , φk2 , . . . , φkk ]0 , si ottiene dalla relazione E[(Yt − φ0 X t−1 )X 0t−1 ] = 0, che fornisce 0 φ = E[X t−1 X t−1 ]−1 E[X t−1 Yt ]. Il coefficiente associato a Yt−k , φkk , è detto coefficiente di autocorrelazione parziale a ritardo k, poiché fornisce una misura del legame lineare tra le v.c. al netto della correlazione esistente con le v.c. intermedie. Tale interpretazione è dovuta al fatto che φkk = ∂Yt /∂Yt−k . Analogamente, si definisce il coefficiente di autocorrelazione parziale come il coefficiente di correlazione lineare tra Yt − E(Yt |Yt−1 , . . . , Yt−k+1 ) e Yt−k . Si noti che la matrice E[X t−1 X 0t−1 ] contiene le autocovarianze ed è una matrice di Toeplitz, tale che, cioè l’elemento di posto (i, j) è pari a γ(|i − j|), mentre il vettore E[X t−1 Yt ] = [γ(1), γ(2), . . . , γ(k)]0 . Pertanto, i coefficienti φkj possono essere ottenuti in maniera equivalente dal sistema di equazioni seguente, detto sistema di 0 Yule-Walker (si premoltiplica (2.1) per E[X t−1 X t−1 ] e si dividono entrambi i membri per γ(0)): ρ(1) ρ(2) ... ρ(k − 1) ρ(k) = 1 ρ(1) .. . · · · ρ(k − 2) ρ(k − 1) · · · ρ(k − 3) ρ(k − 2) .. .. ... . . ρ(k − 2) ρ(k − 3) · · · 1 ρ(1) 1 ρ(k − 1) ρ(k − 2) · · · ρ(1) ρ(1) 1 .. . φk1 φk2 .. . φk,k−1 φkk ovvero, ρ = P φ. La soluzione per φkk si ottiene applicando la regola di Cramer: φkk = |P ∗ | |P | dove P ∗ si ottiene sostituendo l’ultima colonna di P con ρ. Il grafico dei valori {φ00 , φ11 , φ22 , . . . , φkk } contro k, viene detto correlogramma parziale, mentre la sequenza φkk è la funzione di autocorrelazione parziale (FACP). Ovviamente, φ00 = 1 e φ11 = ρ(1). 29 2.6 L’algebra dell’operatore L Uno strumento molto importante è l’operatore ritardo (lag), L, che, applicato ad Yt , produce il valore ritardato di un periodo Yt−1 : LYt = Yt−1 In generale, Lk Yt+r = Yt+r−k , k = 0, ±1, . . .. Un polinomio di ordine m nell’operatore ritardo è definito come segue: α(L) = 1 + α1 L + α2 L2 + · · · + αm Lm Le radici del polinomio si ottengono ponendo α(L) = 0 e risolvendo rispetto a L. Le radici saranno reali o complesse coniugate: si dice che esse giacciono al di fuori del (sul) cerchio di raggio unitario se il loro modulo è superiore (uguale) a 1. In particolare, definendo il polinomio infinito ψ(L) = 1 + ψ1 L + ψ2 L2 + · · · possiamo riscrivere la rappresentazione di Wold in maniera più sintetica: Yt = c(t) + ψ(L)t . Importanti operatori (filtri) lineari possono essere definiti in funzione di L; di particolare rilievo è l’operatore differenza, ∆ = 1 − L, tale che ∆Yt = Yt − Yt−1 . Le differenze di ordine d sono date ∆d Yt ; ad esempio, per d = 2, ∆2 Yt = (1 − 2L + L2 )Yt = Yt − 2Yt−1 + Yt−2 . Nel caso di processi mensili, la variazione rispetto allo stesso mese dell’anno precedente viene detta differenza stagionale: ∆12 Yt = (1 − L12 )Yt = Yt − Yt−12 2.7 Processi Autoregressivi Dal teorema di Wold abbiamo appreso che qualunque processo stazionario può essere espresso come una combinazione lineare di processi WN; tuttavia, la struttura dei ritardi in t è di ordine infinito, e non possiamo ambire a stimare infiniti parametri a partire da una realizzazione finita. In questa sezione mostreremo che notevole parsimonia nel numero dei parametri richiesti per descrivere la struttura dinamica del processo è resa possibile dall’introduzione dei processi autoregressivi. Un processo autoregressivo di ordine p, AR(p), è definito come segue: Yt = m + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + t con t ∼ WN(0, σ 2 ). Nel seguito assumeremo m = 0 e riscriveremo il processo φ(L)Yt = t , dove φ(L) = 1 − φ1 L − · · · − φp Lp è il polinomio autoregressivo di ordine p. 30 2.7.1 Processo AR(1) Il processo autoregressivo del primo ordine è tale che Yt si ottiene moltiplicando per un coefficiente φ il valore precedente Yt−1 ed aggiungendo un p.s. t ∼ WN(0, σ 2 ): Yt = φYt−1 + t Il processo è stazionario se |φ| < 1; infatti, mediante sostituzione successiva si ottiene la rappresentazione di Wold: Yt = t + φt−1 + · · · + φk t−k + · · · ; la successione (geometrica) dei pesi ψj = φj risulta convergente se e solo se vale φ P giace nell’intervallo (−1, 1). Infatti, |φ|j = 1/(1 − |φ|). Si noti che in tal caso le realizzazioni passate della v.c. t hanno un peso geometricamente decrescente al crescere della loro distanza dal tempo corrente (funzione di risposta all’impulso): ∂Yt = φj −→j→∞ 0 ∂t−j La condizione di stazionarietà può essere riferita alle radici del polinomio φ(L) = 1 − φL: in particolare, il p.s. è stazionario se e solo se la radice del polinomio, ottenuta risolvendo per L l’equazione 1 − φL = 0, è in modulo superiore all’unità. Deriviamo ora i momenti del processo quando φ è nella regione di stazionarietà: E(Yt ) = 0 γ(0) = Var(Yt ) = E(Yt2 ) = E[(φYt−1 + t )Yt ] = φγ(1) + σ 2 poiché E(Yt t ) = E[(t + φt−1 + · · ·)t ] = σ 2 . γ(1) = E(Yt Yt−1 ) = E[(φYt−1 + t )Yt−1 ] = φγ(0) poiché E(Yt−1 t ) = E[(t−1 + φt−2 + · · ·)t ] = 0. Sostituendo l’espressione per γ(1) in quella per γ(0) si ottiene: σ2 γ(0) = 1 − φ2 γ(2) = E(Yt Yt−2 ) = E[(φYt−1 + t )Yt−2 ] = φγ(1) = φ2 γ(0) In generale,γ(k) = φk γ(0), e, ricordando la definizione di FAC, ρ(k) = φk . Pertanto la FAC di un p.s. AR(1) è una successione geometrica decrescente di ragione φ. Per quanto concerne la FACP, basta riflettere su fatto che, dato Yt−1 , Yt è incorrelato con Yt−2 , . . . , per comprendere che φkk = 0 per k > 1. Inoltre, φ11 = ρ(1) = φ. 31 Note i) Se m 6= 0, E(Yt ) = m/(1−φ); ii) Per φ = 1 si ottiene il p.s. non stazionario Yt = Yt−1 + t , noto come random walk (passeggiata aleatoria). E’ facile vedere che le innovazioni passate hanno tutte peso unitario ed i momenti dipendono dal tempo: ad es. la varianza è lineare in t, Var(Yt ) = tσ 2 . 2.7.2 Processo AR(2) Il processo autoregressivo del secondo ordine è generato dall’equazione: Yt = m + φ1 Yt−1 + φ2 Yt−2 + t Per processi di ordine superiore al primo è più semplice definire la condizione di stazionarietà con riferimento alle radici del polinomio φ(L): si dimostra infatti che Yt è stazionario se le radici di 1 − φ1 L − φ2 L2 = 0 sono in modulo superiori ad 1. Nel caso in questione si ha che ψ(L) = φ(L)−1 e pertanto i coefficienti della rappresentazione di Wold possono essere ottenuti eguagliando i termini associati alle potenze di L in ψ(L)(1 − φ1 L − φ2 L2 ) = 1. Ne consegue che essi sono forniti dalla formula ricorsiva ψj − φ1 ψj−1 − φ2 ψj−2 = 0 con valori iniziali ψ0 = 1 e ψ1 = φ1 . P Si verifica, appunto, che j |ψj | è convergente se e solo se φ(L) = 0 per |L| > 1. La condizione di stazionarietà impone i seguenti vincoli sullo spazio parametrico (φ1 , φ2 ): i) φ1 +φ2 < 1 ii) φ2 −φ1 < 1 e iii) φ2 > −1, per cui la regione di stazionarietà dei parametri (φ1 , φ2 ) è interna al triangolo di vertici (-2,-1),(2,-1),(0,1). Inoltre, si avrà una coppia di radici complesse coniugate quando φ21 + 4φ2 < 0. Se Yt è stazionario (e gaussiano), esso è completamente caratterizzato dai momenti: • Valore atteso: E(Yt ) = µ = m/(1 − φ1 − φ2 ). • La funzione di autocovarianza è data dalla formula ricorsiva γ(k) = φ1 γ(k − 1) + φ2 γ(k − 2), k = 2, 3, . . . con valori iniziali: γ(0) = e γ(1) = φ1 γ(0)/(1 − φ2 ). (1 − φ2 )σ 2 (1 + φ2 )([(1 − φ2 )2 − φ21 ] (2.2) • La FAC è data dalla formula ricorsiva ρ(k) = φ1 ρ(k − 1) + φ2 ρ(k − 2), k = 2, 3, . . . con valori iniziali: ρ(0) = 1 e ρ(1) = φ1 /(1 − φ2 ). Il comportamento della FAC è tale che ρ(k) → 0 per k → ∞; se le radici del polinomio AR sono complesse la FAC percorre un’onda ciclica smorzata. 32 • La FACP è tale che φkk = 0 per k > 2; ciò è intuitivo dal momento che, dati Yt−1 e Yt−2 , Yt è incorrelato con Yt−3 , Yt−4 , etc. Il risultato per γ(k) è derivabile nella maniera seguente: supposto m = 0, γ(0) = = γ(1) = = γ(2) = = ··· ··· γ(k) = = E[(φ1 Yt−1 + φ2 Yt−2 + t )Yt ] φ1 γ(1) + φ2 γ(2) + σ 2 E[(φ1 Yt−1 + φ2 Yt−2 + t )Yt−1 ] φ1 γ(0) + φ2 γ(1) E[(φ1 Yt−1 + φ2 Yt−2 + t )Yt−2 ] φ1 γ(1) + φ2 γ(0) ··· E[(φ1 Yt−1 + φ2 Yt−2 + t )Yt−k ] φ1 γ(k − 1) + φ2 γ(k − 2) dalla seconda equazione si ricava γ(1), e sostituendo nella terza equazione si fa dipendere γ(2) soltanto da γ(0) (e dai parametri AR); sostituendo le espressioni trovate nella prima equazione si ottiene il risultato (2.2). Esempio: Consideriamo il processo AR(2) con m = 0, φ1 = 1.1, φ2 = −0.18 e σ 2 = 1: le radici dell’equazione (1 − 1.1Lq+ 0.18L2 ) sono reali ed in modulo superiore ad uno: L1 = 1.1̄ e L2 = 5 (L = (1.1 ± 1.12 − 4(.18))/(2 × 0.18)). Per esercizio si calcoli ρ(k) per k = 1, 2, 3. 2.7.3 Processo AR(p) I risultati ottenuti precedentemente possono essere generalizzati al caso AR(p), (1 − φ1 L − · · · − φp Lp )Yt = m + t , nel modo seguente: • Yt è stazionario se le p radici del polinomio φ(L) sono in modulo superiori all’unità. • Il valore medio del processo è µ = m/φ(1), dove φ(1) = 1 − φ1 − · · · − φp . Si può riscrivere Yt − µ = φ1 (Yt−1 − µ) + · · · + φp (Yt−p − µ) + t . • La funzione di autocovarianza si ottiene moltiplicando l’espressione precedente per (Yt−k − µ) e prendendo il valore atteso. γ(k) = φ1 γ(k − 1) + · · · + φp γ(k − p), per k > 0 2 γ(k) = φ1 γ(k − 1) + · · · + φp γ(k − p) + σ , per k = 0 • La FAC dà luogo al sistema di equazioni di Yule-Walker: ρ(k) = φ1 ρ(k − 1) + φ2 ρ(k − 2) + · · · + φp ρ(k − p), k = 1, 2, . . . , p • La FACP di un processo AR(p) è identicamente nulla per k > p 33 2.8 Processi media mobile I processi media mobile (MA) si ottengono dalla rappresentazione di Wold assumendo ψj = θj , j ≤ q e ψj = 0, j > q. Pertanto, Yt = µ + t + θ1 t−1 + θ2 t−2 + · · · + θq t−q dove t ∼ WN(0, σ 2 ). Il termine MA viene dal fatto che Yt è una somma ponderata dei valori più recenti di t . Si noti che un processo MA soddisfa sempre la condizione P j |ψj | < ∞ ed è dunque sempre stazionario. A differenza del caso AR la parsimonia nel numero dei parametri necessari per descrivere la struttura dinamica del processo è ottenuta troncando i coefficienti ψj ad un ritardo prefissato. 2.8.1 Processo MA(1) Il processo MA del primo ordine è fornito dall’espressione: Yt = µ + t + θt−1 = µ + (1 + θL)t E(Yt ) = µ + E(t ) + θE(t−1 ) = µ γ(0) = E[(Yt − µ)2 ] = E[(t + θt−1 )2 ] = E(t2 ) + 2θE(t t−1 ) + θ2 E(2t−1 ) = σ 2 (1 + θ2 ) γ(1) = E[(Yt − µ)(Yt−1 − µ)] = E[(t + θt−1 )(t−1 + θt−2 )] = θσ 2 γ(k) = 0, k>1 La FAC è identicamente nulla a partire da k = 2: ρ(0) = 1 θ ρ(1) = 1+θ 2 ρ(k) = 0, k>1 La FACP non si annulla mai, ma tende esponenzialmente a zero secondo l’andamento dettato dal parametro θ. Invertibilità Il MA(1) è invertibile se |θ| < 1. Nel seguito restringeremo la nostra attenzione alla classe dei processi MA(q) invertibili, per cui opereremo opportune restrizioni nello spazio dei parametri MA. Per motivare la scelta, inizieremo col mostrare che per ogni rappresentazione MA(1) invertibile esiste una rappresentazione MA(1) non invertibile, di parametro |θ̃| > 1, che possiede gli stessi momenti. Si consideri dunque il processo Ỹt = µ + ˜t + θ̃˜t−1 34 con θ̃ = 1/θ e ˜t ∼ WN(0, σ̃ 2 ). Si verifica immediatamente che γ(0) e γ(1) sono eguali a quelle del processo Yt = µ+t +θt−1 con σ 2 = θ̃2 σ̃ 2 ; inoltre, ρ(1) = θ−1 /(1+θ−2 ) = θ/(1 + θ2 ). I due processi hanno identiche proprietà e dunque sarebbe impossibile discriminarli a partire da una serie storica. Tale problema di identificazione viene risolto appunto vincolando il parametro θ nell’intervallo (-1,+1). Il vincolo appare arbitrario, ed ha comunque una giustificazione pratica. Il termine invertibilità deriva dalla possibilità di riscrivere il processo come un AR(∞) con coefficienti πj convergenti: Yt + π1 Yt−1 + π2 Yt−2 + · · · + πk Yt−k + · · · = m + t , ∞ X j=1 |πj | < ∞ Nel caso in questione la sequenza πj = (−θ)j è convergente se e solo se |θ| < 1. 2.8.2 Processo MA(q) Il processo Yt = µ + t + θ1 t−1 + · · · + θq t−q è sempre stazionario; è invertibile se le soluzioni dell’equazione (1 + θ1 L + θ2 L2 + · · · + θq Lq ) = 0 sono in modulo superiori ad 1. E(Yt ) = µ γ(0) = E[(Yt − µ)2 ] = E[(t + θ1 t−1 + · · · + θq t−q )2 ] = (1 + θ12 + · · · + θq2 )σ 2 γ(k) = E[(t + θ1 t−1 + · · · + θq t−q )(t−k + θ1 t−k−1 + · · · + θq t−q−k ) = (θk + θ1 θk+1 + θ2 θk+2 + · · · + θq−k θq )σ 2 γ(k) = 0, k>q Pertanto, la FAC è identicamente nulla per k > q. La PACF non si annulla mai e tende a zero al crescere di k. Esercizio: calcolare la FAC per il processo MA(2): Yt = (1 + 2.4L + 0.8L2 )ut , ut ∼ NID(.5, 1). Indicare inoltre se il processo è invertibile. 2.9 Processi misti P ∞ Il processo Yt = µ + j=0 ψj t−j può essere rappresentato in maniera parsimoniosa da un processo ARMA(p, q), il quale può essere pensato come una generalizzazione 35 di un p.s. AR(p) con innovazioni che seguono un processo MA(q), ovvero come un processo MA(q) che dipende ulteriormente dai suoi p valori passati. Yt = m + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + t + θ1 t−1 + · · · + θq t−q ovvero, φ(L)Yt = m + θ(L)t . Le condizioni sotto le quali il processo è stazionario sono le stesse per le quali il processo AR è stazionario, vale a dire le p radici del polinomio φ(L) devono essere esterne al cerchio di raggio unitario. Il processo è invertibile se le q radici del polinomio θ(L) sono esterne al cerchio di raggio unitario. La FAC e la FACP presentano un comportamento che rappresenta una mistura di quelli che caratterizzano processi puramente AR e MA: in particolare, esse non si annullano mai; la FAC tende a 0 a partire dal lag q, mentre la FACP a partire dal lag p. Il processo ARMA stazionario ed invertibile è identificabile se non esistono fattori comuni: ad es. il processo ARMA(1,1), (1 − αL)Yt = (1 − αL)t , è equivalente a Yt ∼ WN(0, σ 2 ). 2.10 Non stazionarietà Definizione: Ordine di integrazione. Il processo Yt è integrato di ordine d, e scriveremo Yt ∼ I(d), se le differenze d-esime, ∆d Yt , ammettono una rappresentazione di Wold stazionaria e invertibile. In altre parole applicando d volte l’operatore differenza, ∆ = 1 − L, si ottiene d ∆ Yt = µ + ψ(L)t , ∞ X j=0 |ψj | < ∞ Es.: Yt = 2Yt−1 − Yt−2 + t + θt−1 , Yt ∼ I(2) ⇐⇒ |θ| < 1 ; L’esempio più elementare di p.s. non stazionario è il random walk, definito dalla relazione Yt = Yt−1 + t ; esso è tale che le sue differenze prime sono WN. Il processo ∆Yt = µ + t è detto RW con drift. Mediante sostituzione successiva si ha: Yt = Y0 + µt + t + t−1 + · · · + 1 , che mostra che l’innovazione t−k ha effetti persistenti sul livello della serie (viene per intero accumulata, o integrata, nel livello). Al fine di estendere la classe dei processi che possono essere trattati si introduce la classe dei processi ARIMA(p, d, q), tali che le differenze d-esime seguono un modello ARMA(p, q) stazionario e invertibile: φ(L)∆d Yt = µ + θ(L)t 36 2.11 Stagionalità Serie osservate con cadenza subannuale (mensile o trimestrale) possono manifestare un comportamento periodico, con oscillazioni che hanno ciclo annuale. Tipico è il caso della produzione industriale, caratterizzata da una caduta in corrispondenza del mese di agosto, e delle vendite al minuto, che hanno un’impennata in dicembre. La stagionalità si ritrova nella funzione di autocorrelazione con valori alti a ritardi stagionali (k = 12, 24, 36... per serie mensili). Per catturare tali dinamiche occorre estendere adeguatamente la classe dei processsi ARIMA. Può darsi il caso che le differenze stagionali del processo, ∆s Yt = Yt − Yt−s (s = 4, 12) siano non stagionali ed ammettano una rappresentazione ARIMA(p, d, q). In tal caso si dice che Yt è integrato stagionalmente di ordine 1. Estendendo tale concetto, Yt è integrato stagionalmente di ordine D se occorre applicare D volte l’operatore ∆s . Un processo AR stagionale del primo ordine è: Yt = ΦYt−s + t , |Φ| < 1 è facile mostrare che la FAC assume la forma: ρ(k) = Φk/s per k = s, 2s, 3s, .., ed è zero altrimenti. La condizione di stazionarietà è ovviamente riferita alle radici del polinomio (1 − ΦLs ) = (1 − ΦL)(1 + ΦL + ΦL2 + · · · + ΦLs−1 ). In generale, il modello ARIMA può essere generalizzato al fine di includere coefficienti AR e MA a ritardi stagionali. Tuttavia, la rappresentazione più in auge ha natura moltiplicativa e conduce al processo ARIMA(p, d, q) × (P, D, Q)s : φ(L)Φ(Ls )∆d ∆sD Yt = µ + θ(L)Θ(Ls )t dove Φ(Ls ) = 1 − Φ1 Ls − Φ2 L2s − · · · − ΦP LP s , è il polinomio AR stagionale in Ls di ordine P , e Θ(Ls ) = 1 + Θ1 Ls + Θ2 L2s + · · · + ΘQ LQs è il polinomio MA stagionale di ordine Q. Un caso di particolare rilevanza (per le serie temporali economiche) è il cosidetto processo Airline: ARIMA(0, 1, 1) × (0, 1, 1)s (1 − L)(1 − Ls )Yt = (1 + θL)(1 + ΘLs )t , con |θ| < 1, |Θ| < 1. Per tale processo la funzione di autocovarianza presenta la semplice struttura: γ(0) γ(1) γ(k) γ(s − 1) γ(s) γ(s + 1) γ(k) = = = = = = = (1 + θ2 )(1 + Θ2 )σ 2 θ(1 + Θ2 )σ 2 0 per k = 2, . . . , s − 2 θΘσ 2 Θ(1 + θ2 )σ 2 θΘσ 2 0 per k > s + 1 37 Esercizio: calcolare la FAC per il processo MA stagionale: Yt = t +.8t−12 . Mostrare che esiste un processo non invertibile caratterizzato dalla medesima FAC. 2.12 L’approccio di Box e Jenkins Nelle sezioni precedenti abbiamo cominciato ad avere una certa familiarità con i processi stocastici; essi dovrebbero essere riconoscibili in base alle loro proprietà, espresse dalla FAC e dalla FACP. Ora, le serie temporali, che costituiscono una realizzazione di tali processi, dovrebbero rispecchiarne le proprietà, fermo restando che la limitatezza dell’intervallo di osservazione può in concreto alterarne alcune. Box e Jenkins hanno proposto una metodologia per l’adattamento di un modello ARIMA alla serie temporale, yt , che consiste nell’iterare il seguente schema a tre fasi: i) identificazione del modello; ii) stima e iii) verifica. 2.12.1 Identificazione La fase di identificazione mira in primo luogo a determinare la trasformazione della serie che induce la stazionarietà in media, varianza e covarianza. Es. trasformazione di Box-Cox. Nelle serie temporali macroeconomiche è usuale la trasformazione zt = ∆ ln yt , che corrisponde approssimativamente al tasso di variazione del fenomeno: ∆yt ≈ yt − yt−1 yt−1 Successivamente si passa a selezionare il modello ARMA (gli ordini p e q) sulla base della FAC, ρ̂(k), e FACP φ̂kk della serie trasformata. I correlogrammi forniscono lo strumento più importante di identificazione; dal confronto dei correlogrammi stimati con quelli teorici che caratterizzano i p.s. al variare degli ordini p e q si ottengono indicazioni circa i medesimi. Ad esempio, se ρ̂(k) ha un salto a ritardo q, oltre il quale è prossima a zero, si identifica un processo MA(q). L’ordine di un processo AR è più difficile a determinarsi a partire dalla sola FAC, ma soccorre la FACP. 2.12.2 Stima La stima avviene mediante il metodo della massima verosimiglianza (MV), sotto l’assuzione di normalità delle osservazioni; una semplificazione si ottiene condizionando rispetto alle prime p + q osservazioni, poiché in tal caso il problema si riconduce alla minimizzazione di una somma dei quadrati dei residui. Nel caso dei processi AR le stime di MV condizionate sono equivalenti a quelle dei minimi quadrati ottenute 38 dalla regressione di yt su p valori ritardati. In tal caso esiste una soluzione esplicita per le stime. Ad esempio, nel caso di un AR(1) senza costante, PT yt−1 yt t=2 yt−1 φ̂ = Pt=2 T −1 Analogamente, il sistema di equazioni di Yule-Walker: φ = P̂ ρ̂, dove φ = [φ1 , . . . , φp ]0 , fornisce stime consistenti dei parametri autoregressivi di un processo puro AR(p). Nel caso di processi MA o misti la somma dei quadrati dei residui è non lineare nei parametri θ e la minimizzazione utilizza algoritmi iterativi, non esistendo una soluzione esplicita. Ad esempio, nel caso di un MA(1), la funzione obiettivo è data P P da S = 2t = (yt − θt−1 )2 ; ora, t−1 dipende a sua volta da θ, per cui ∂S/∂θ è pari alla somma dei termini ! ∂t−1 . − t−1 + θ ∂θ 2.12.3 Verifica • Test di significatività dei parametri • Analisi dei residui et = 1 − φ̂1 L − · · · − φ̂p Lp 1 + θ̂1 L + · · · + θ̂q Lq yt Si tratta di sottoporre a verifica tre proprietà: normalità, omoschedasticità e incorrelazione. Un test formale di normalità è quello di Bowman e Shenton, basato sulla statistica N = N1 + N2 , avente distribuzione χ2 (2). N1 è il test per l’asimmetria dei residui che √ fa riferimento al momento terzo rispetto alla media: N1 = (T − 1)b1 /6, dove b1 è il momento terzo centrato di et , ed ha distribuzione asintotica χ2 (1). N2 = (T − 1)(b2 − 3)2 /24, dove b2 rappresenta il momento quarto centrato, è il statistica test per la presenza di curtosi e si distribuisce secondo una χ2 (1). Per la presenza di eteroschedasticità possono essere utilizzati metodi grafici e test formali; se si sospetta che vi sia stato un cambiamento ad un tempo t∗ , si può spezzare il campione in due sottoperiodi e testare l’ipotesi che σ̂ 2 sia uguale nei due sottoperiodi, mediante un opportuno test F . Per testare l’autocorrelazione dei residui, oltre al consueto test DW, solitamente si costruisce il correlogramma globale ρ̂e (k), e parziale φ̂e,kk , e si valuta √ la presenza di valori che fuoriescono dalle bande di confidenza al 5% (±2/ T ). 39 La statistica test per l’ipotesi nulla H0 : ρ (1) = · · · = ρ (m) = 0 è fornita dalla statistica di Ljung-Box, Q(m), basata su m autocorrelazioni dei residui. Q(m) = T (T + 2) m X (T − j)−1 ρ̂e2 (j) j=1 Sotto H0 , Q(m) si distribuisce come una v.c. χ2 con m − (p + q) gradi di libertà. • Bontà dell’adattamento: se la serie è non stazionaria e l’ordine di differenziazione è d = 1, il coefficiente di determinazione viene calcolato come segue: 2 = 1 − SSE/SSD, dove SSE = (T − 1)σ̂ 2 e SSD è la somma dei quadrati RD delle differenze prime corrette della media. Il coefficiente, che può anche risultare negativo, indica se l’adattamento è migliore o peggiore di un semplice ARIMA(0,1,0). Spesso, soprattutto quando si ha a che fare con modelli misti, si procede per tentativi, scoprendosi che diversi modelli sono compatibili, nel senso che generano residui WN. La scelta tra di essi può essere effettuata mediante un criterio di informazione: per dati ordini massimi p∗ , q ∗ , si stimano tutti i p∗ q ∗ modelli di ordine inferiore e si sceglie quello che p+q min AIC(p, q) = ln σ̂ + 2 , T oppure 2.13 2 p+q min BIC(p, q) = ln σ̂ + ln T . T 2 Previsione Data la disponibilità della serie temporale fino al tempo T , ci proponiamo ora di prevedere il fenomeno l periodi in avanti. Il set informativo a cui facciamo riferimento è denotato FT = {y1 , y2 , . . . , yT −1 , yT } Sfrutteremo il risultato fondamentale secondo il quale il previsore ottimale di yT +l è il suo valore atteso condizionato all’informazione FT : ỹT +l|T = E[yT +l |FT ] L’ottimalità va intesa nel senso che ỹT +l minimizza l’errore quadratico medio di previsione. Inoltre, l’errore di previsione, yT +l − ỹT +l|T , ha valore atteso nullo e varianza che denotiamo Var(ỹT +l|T ). La funzione di previsione verrà ottenuta sotto le seguenti assunzioni: 1. t ∼ NID(0, σ 2 ) 40 2. I parametri φ1 , . . . , φp , θ1 , . . . , θq , µ, σ 2 sono noti 3. Si dispone di una realizzazione infinita: FT = {yT , yT −1 , . . . , y1 , y0 , y−1 , . . .}: L’assunzione 1 è più forte di t ∼ WN(0, σ 2 ) poiché postula l’indipendenza (oltre l’incorrelazione) tra le v.c. t ; la seconda implica che i parametri sono stimati senza errore. La terza assunzione assume rilievo quando si ha a che fare con processi MA o misti ed implica che le realizzazioni passate e corrente della v.c. t sono note. Ad esempio, per un MA(1) essa consente di “invertire” il modello al fine di ottenere t = yt /(1 + θL); al tempo T , T = yT − θT −1 = yT − θyT −1 + θ2 yT −2 − θ3 yT −3 + . . . = ∞ X (−θ)j yT −j j=0 e pertanto E(T |FT ) = T è noto, poiché dipende dai valori passati di y. Nella pratica, in cui si dispone esclusivamente di un campione finito, la sequenza t è generata ricorsivamente ipotizzando 0 = 0: 1 = y1 − θ0 = y1 ; 2 = y2 − θy1 ; . . . , T = yT − θT −1 . La previsione da modelli ARIMA viene effettuata applicando le seguenti regole generali, che discendono direttamente dalle assunzioni precedenti: ỹT +j|T = y(T +j T +j ˜T +j|T = 0 per j ≤ 0 per j > 0 per j ≤ 0 Infatti, quando j > 0, il miglior previsore lineare non distorto dei valori futuri di t è la media incondizionata, ˜T +j|T = E[T +j |FT ] = 0. L’assunzione 1 implica che l’intervallo di confidenza al 95% attorno al valore previsto è fornito da: yT +l = ỹT +l|T ± 1.96[Var(ỹT +l|T )]1/2 Previsione da un modello AR(1): yt = φyt−1 + t ỹT +1|T = = = ỹT +2|T = = = = E[yT +1 |FT ] φE[yT |FT ] + E[T +1 |FT ] φyT ; E[yT +2 |FT ] φE[yT +1 |FT ] + E[T +2 |FT ] φE[(φyT + T +1 )|FT ] + E[T +2 |FT ] φ2 yT ; In generale, le previsioni seguono la formula ricorsiva ỹT +l|T = φỹT +l−1|T , con valore iniziale (l = 0) pari all’ultimo valore osservato, yT . Nei termini di quest’ultimo, ỹT +l|T = φl yT . 41 Calcoliamo ora la varianza dell’errore di previsione: Var(ỹT +1|T ) = = = Var(ỹT +2|T ) = = = Var(ỹT +l|T ) = = E[(yT +1 − ỹT +1|T )2 ] E[(φyT + T +1 − φyT )2 ] σ2; E[(yT +2 − ỹT +2|T )2 ] E[(φ2 yT + φT +1 + T +2 − φyT2 )2 ] σ 2 (1 + φ2 ); E[(yT +l − ỹT +l|T )2 ] σ 2 (1 + φ2 + φ4 + · · · + φ2(l−1) ); Pertanto, lim Var(ỹT +l|T ) = l→∞ σ2 1 − φ2 Previsione da un modello ARIMA(0,1,1) Consideriamo il modello ∆yt = t + θt−1 : ỹT +1|T = E[yT +1 |FT ] = E[yT |FT ] + E[T +1 |FT ] + θE[T |FT ] = yT + θt ; ỹT +2|T = E[yT +2 |FT ] = E[yT +2 |FT ] + E[T +2 |FT ] + θE[T +1 |FT ] = ỹT +1|T = yT + θt ; Per l > 1,ỹT +l|T = ỹT +l−1|T = yT + θt e la funzione di previsione è costante. Si verifica facilmente che se −1 < θ < 0 si effettua un livellamento esponenziale, vale a dire il valore previsto è una media ponderata dei valori passati della serie, con pesi decrescenti secondo i termini di una progressione geometrica di ragione −θ: ỹT +l|T = (1 + θ) TX −1 j=0 (−θ)j yT −j Analogamente si dimostra che le previsioni dal modello ∆2 yt = (1 + θ1 L + θ2 L2 )t sono equivalenti a quelle dello schema di Holt & Winters, sotto particolari restrizioni sui parametri θ1 e θ2 . Esercizio: Calcolare le previsioni l = 1, 2, 3 periodi in avanti effettutate a partire dai modelli di seguito elencati yt = 0.5 − .7yt−1 + t , t ∼ W N (0, .1) ∆yt = 0.5 − .7∆yt−1 + t , t ∼ W N (0, .1) 42 yt = 0.2 + t + .4t−1 , t ∼ W N (0, .1) ∆yt = 0.2 + t − .4t−1 , t ∼ W N (0, .1) noto che yT = .40, yT −1 = .35 e T = 0.001, T −1 = −0.031. Calcolare inoltre la varianza dell’errore di previsione. 43 Capitolo 3 Analisi non parametrica delle serie temporali 3.1 Le medie mobili Una media mobile (mm) non è altro che una media aritmetica semplice o ponderata di k osservazioni consecutive della serie temporale. In maniera più formale possiamo definirla come una trasformazione lineare della serie che può essere rappresentata come combinazione lineare delle potenze positive e negative dell’operatore ritardo, L. m M= 2 X wi Li i=−m1 Pertanto, M yt = w−m1 yt−m1 + · · · + w0 yt + · · · + wm2 yt+m2 . Il numero delle osservazioni consecutive, m1 + m2 + 1 è denominato ordine della mm. Una mm si dice centrata qualora m1 = m2 = m; in tal caso M = L−m (w−m + w−m+1 L + · · · + wm L2m ) = L−m w(L) dove w(L) è un polinomio di grado 2m in L, detto polinomio associato alla mm. Inoltre, una mm centrata è simmetrica se w−i = wi , i = 1, . . . , m; il polinomio associato è simmetrico e L−m w(L) = Lm w(L−1 ). Valgono le seguenti proprietà: a) la composizione di due mm è ancora una mm; b) la composizione di due mm centrate è ancora una mm centrata; c) l’insieme delle mm simmetriche è chiuso rispetto alla composizione. Nullità di una media mobile Si chiama nullità (spazio nullo) di una media mobile M l’insieme delle serie temporali yt tali che M yt = 0: M yt = w−m yt−m + · · · + wm yt+m = 0, ∀t 44 ovvero w(L)yt = 0. Gli elementi dello spazio nullo sono le soluzioni dell’equazione caratteristica w(r) = 0. Esempio: si consideri la serie {−1, 1, −1, 1, −1, 1}; la media mobile asimmetrica (1 + L)yt genera {NA, 0, 0, 0, 0, 0}. Invarianza e nucleo Una serie temporale è invariante rispetto alla mm M se e solo se M yt = yt ; le serie invarianti soddisfano M yt = w−m yt−m + · · · + wm yt+m = yt e si ottengono a soluzione dell’equazione alle differenze finite [w(L) − Lm ]yt = 0. La mm preserva i polinomi di grado non superiore a p se r = 1 è una radice di molteplicità p+1 dell’equazione caratteristica w(r)−rm = 0. In tal caso il polinomio [w(L) − Lm ] contiene il fattore ∆p+1 . Si consideri ad esempio m = 2, wi = 1/5, i = 0, ±1, ±2; si ha [w(L) − Lm ] = (1/5)[(1 − L2 ) + (L − L2 ) + (L3 − L2 ) + (L4 − L2 )] = (1/5)(1 − L)2 (1 + 3L + L2 ), il quale contiene la radice 1 con molteplicità 2. Teorema Una mm preserva una serie costante se e solo se w(1) = 1, vale a dire m X wi = 1 i=−m Teorema Una mm simmetrica che preserva la costante preserva anche i polinomi di primo grado. Sia yt = a + bt; M yt = M a + M bt = a + bM t, ma M t = w−m (t − m) + · · · + w0 t + · · · wm (t + m) = t. Teorema Il nucleo di una composizione di medie mobili è dato dall’intersezione dei nuclei delle mm componenti. Pertanto il prodotto di due mm che preservano entrambe i polinomi di grado non superiore a p preserva anche esso tali polinomi. 3.2 Effetto fase ed effetto ampiezza L’applicazione di una media mobile ad una serie determina due effetti: si viene a modificare l’ampiezza delle fluttuazioni (ad es. i punti di massimo e di minimo risultano amplificati o attenuati) e si determina uno spostamento di fase, vale a dire uno spostamento dell’oscillazione lungo l’asse dei tempi. Dato il generico filtro lineare W (L), si chiama funzione di risposta frequenziale il termine W (e−ıλ ) che si ottiene sostituendo eıλ = cos λ + ı sin λ a L. L’effetto relativo all’ampiezza è misurato dal guadagno (gain), il cui quadrato è denominato funzione di trasferimento |W (e−iλ )| = [W (e−iλ )W (eiλ )]1/2 . 45 Infatti, data la serie yt , con spettro fy (λ), la densità spettrale di W (L)yt è pari a |W (e−iλ )|2 fy (λ). Il guadagno (o la funzione di trasferimento) fornisce informazioni importanti sull’operatività del filtro; ad esempio se è 1 attorno alle frequenze basse, la mm preserva il trend; se è zero o prossimo a zero in un intorno di alcune frequenze il filtro elimina le componenti oscillatorie corrispondenti a quelle frequenze. La fase è rappresentata da " W † (λ) P h(λ) = arctan − ∗ W (λ) # dove W † (λ) è la parte reale di W (e−ıλ ) mentre W ∗ (λ) è la parte immaginaria. La categoria dei filtri bidirezionali simmetrici presenta l’importante caratteristica di lasciare inalterata la posizione dei punti di svolta delle fluttuazioni dal momento che la loro fase è nulla ∀λ: infatti essi ammettono la rappresentazione W (L) = w0 + m X wj (L + L−1 ); W (e−ıλ ) = w0 + 2 j=1 m X wj cos λj j=1 Pertanto, la parte immaginaria della funzione di risposta è nulla e la funzione di fase assume valore 0 (nessuno spostamento di fase) o π (inversione di fase) se W (e−ıλ ) è negativa (caso irrilevante). Il guadagno della media mobile è in questo caso G(λ) = P |w0 + 2 m j=1 wj cos λj|. 3.3 L’effetto di Slutzky-Yule Il filtraggio di un processo t ∼ WN(0, σ 2 ) mediante una mm M conduce ad un processo M t con media nulla e varianza Var(M t ) = σ 2 m X wj2 j=−m Il rapporto Var(M t )/σ 2 rappresenta il fattore di inflazione della varianza, che se inferiore all’unità misura il lisciamento indotto dalla mm. Il processo M t sarà ora autocorrelato e presenterà in generale 2m autocorrelazioni diverse da zero. In relazione al filtro utilizzato possono prodursi ciclicità spurie evidenziate dalla presenza di un massimo relativo nella funzione di trasferimento del filtro. Ai fini del calcolo approssimato del periodo si può utilizzare la formula 2π/(arccos ρ(1)) dove ρ(1) è l’autocorrelazione a ritardo 1 di M t . L’effetto di Slutzky-Yule è funzione crescente del fattore di inflazione della varianza. 46 3.4 Polinomi locali; filtri di Macaulay Una importante classe di mm si ottiene dall’adattamento di un polinomio a 2h + 1 termini consecutivi di una serie; il polinomio stimato viene utilizzato per stimare il trend nella modalità centrale. Dal momento che la stima dei coefficienti del polinomio risulta lineare nelle osservazioni, anche la stima del trend lineare. yt = m(t) + t , dove m(t + j) ≈ mt (j) (approssimazione polinomiale locale), mt (j) = β0 + β1 j + · · · + βp j p , j = −h, . . . , h. L’obiettivo è quello di ottenere un lisciamento (smoothing) della serie, rimuovendo le fluttuazioni irregolari e isolando una stima del trend ovvero del valore atteso di yt . L’ idea di fondo è che tale valore atteso varia debolmente nel tempo e che pertanto possa essere approssimato (nel senso dell’approssimazione di Taylor di ordine p) localmente da un polinomio, che costituisce una funzione di t piuttosto lisciata e con derivate continue fino ad un certo ordine. I coefficienti wj della mm possono essere ottenuti adattando alla serie un polinomio locale (su intervalli di lunghezza 2h + 1) attraverso l’ottimizzazione di un criterio che fa riferimento alla “fedeltà” dell’approssimazione. min h X i=−h [yt+j − (β0 + β1 j + · · · + βp j p )]2 La stima del trend al tempo t si ottiene come m̂t = b0 , dove b0 è lo stimatore di β0 e dal momento che gli stimatori dei MQ sono lineari nelle osservazioni si ha m̂t = h X wj yt+j . j=−h Questa quantità fornisce a secondo membro i pesi di una mm centrata che preserva localmente un polinomio di grado p. Se si denota con C la matrice del disegno C= 1 −h (−h)2 1 −(h − 1) [−(h − 1)]2 . .. ... . .. 1 0 0 .. .. .. . . . 1 h−1 (h − 1)2 h h2 1 ··· (−h)p · · · [−(h − 1)]p . .. ··· ··· ··· ··· ··· 0 .. . (h − 1)p hp e con y = [yt−h , . . . , yt+h ]0 , sotto l’ipotesi t ∼ WN(0, σ 2 ), lo stimatore dei minimi quadrati ordinari di b = [b0 , . . . , bp ]0 risulta b = (C 0 C)−1 C 0 y; 47 i coefficienti della mm sono forniti dalla prima riga della matrice (C 0 C)−1 C 0 . m̂t = b0 = e01 b = e01 (C 0 C)−1 C 0 y = w0 y dove w0 = e01 (C 0 C)−1 C 0 , e, denotando con c(ij) il generico elemento della matrice (C 0 C)−1 si ha m̂t = p X (1l) c l=1 (11) dalla quale si evidenzia c wj = c h X j l yt+j j=−h = w0 e in generale (11) (12) +c (1p) p j + ···c j = p X c(1l) j l l=1 Pertanto, m̂t = e01 b = e01 (C 0 C)−1 C 0 y = w0 y Proprietà: 1. La media mobile ottenuta mediante questo argomento preserva ovviamente i polinomi di grado p: se infatti yt = m(t), con mt (j) = β0 + β1 j + · · · + βp j p , j = −h, . . . , h, allora m̂t = m(t): basta porre y = Cβ, β = [β0 , . . . , βp ]0 ; segue m̂t = w0 (Cb) = e1 β = β0 = yt . Si noti che w0 C = e1 implica: [ h X j=−h wj = 1, h X j l wj = 0, l = 1, . . . , p j=−h e pertanto preserva tutti i polinomi di grado inferiore a p. La somma dei coefficienti è unitaria e pertanto viene preservata la costante. 2. Simmetria: wj = w−j ; consegue dal disegno simmetrico dei punti temporali presi in considerazione. 3. I pesi giacciono su un polinomio di grado k. Si confronti la formula precedente, dove k = [p/2], dove [p/2] = p/2 per p pari e [p/2] = (p − 1)/2 per p dispari. Pertanto se p = 0, 1 i pesi sono costanti; per p = 2, 3 giacciono su una retta 4. Le medie calcolate con riferimento ai polinomi di ordine pari sono le stesse di quelle calcolate per p + 1. Questo dovuto al fatto che la somma delle potenze dispari di i e identicamente nulla per effetto della simmetria. 5. w0 w = h X wj2 = e01 (C 0 C)−1 C 0 C(C 0 C)−1 e1 = e01 (C 0 C)−1 e1 = w0 j=−h il primo elemento dell’inversa che pari a w0 Il fattore di inflazione della varianza P è pari a w0 ( wi2 = w0 ) 48 Esercizio: dimostrare che se m = k, k = [q/2], dove [q/2] = q/2 per q pari e = (q − 1)/2 per q dispari, ˆ(t) = ht (0) = yt . 3.4.1 Varianza e distorsione Dalla teoria dei MQO Var(m̂t ) = σ 2 w0 dal momento che il primo elemento della matrice (CC)−1 corrisponde a w0 . Per dato q, si dimostra che la varianza decresce al crescere di m, mentre per dato m essa cresce con k, k = [q/2], dove [q/2] = q/2 per q pari e = (q − 1)/2 per q dispari. Essa pertanto rimane inalterata se si passa dal grado q pari al grado q + 1. (questo si dimostra con il fatto che la mm e il trend estratto coincidono). La distorsione è nulla se E(yt ) è esattamente un polinomio di grado p, altrimenti E(yt − mt ) = h(t) − m X wi h(t + i). i=−m Tra la distorsione e la varianza esiste il trade-off per cui all’aumentare di m diminuisce la varianza ma aumenta la distorsione. 3.5 Medie mobili aritmetiche semplici Una mm aritmetica semplice è tale che wi = w = 1/(2m + 1); essa si ottiene per p = 0, 1, vale a dire quando il polinomio locale è una semplice costante o una retta, P nel qual caso le equazioni normali forniscono â0 = (2m + 1)−1 m i=−m yt+i . Le mm semplici possono essere anche derivate a soluzione del seguente problema di ottimo vincolato: minimizzare il coefficiente di inflazione della varianza sotto il vincolo di somma ad uno dei coefficienti: min m X wi2 , s.v. i=−m m X wi = 1. i=−m La soluzione fornisce appunto wi = 1/(2m + 1) (media aritmetica semplice). Il polinomio caratteristico associato alla mm è w(L) = (1 − L2m+1 ) 1 (1 + L + · · · + L2m ) = , 2m + 1 (2m + 1)(1 − L) e la nullità della mm. è rappresentata dai processi periodici di periodo 2m + 1 (dispari). Il nucleo della mm è rappresentato dalle sequenze costanti e lineari, ma non da quelle quadratiche: se si considera infatti yt = a + bt + ct2 si ha che M yt = a + bt + ct2 + cm(m + 1)/3. 49 Il guadagno è fornito da m sin(m + 1/2)λ X 1 1 G(λ) = 1 + 2 = cos(λi) 2m + 1 2m sin(λ/2) + 1 i=1 ed è nullo per λ = (2πj)/(2m + 1), j = 1, . . . , 2m. Se applicata ad un processo WN, il fattore di inflazione della varianza è pari a (2m + 1)−1 e la funzione di autocorrelazione di M t è una linea retta inclinata negativamente. 3.5.1 Componente stagionale di periodo s pari La mm aritmetica di un numero pari di termini (s = 4, 12) non è centrata rispetto alla modalità temporale di riferimento. Possiamo infatti costruire le due mm: ∗ = y1t 1 (yt−m + · · · + yt+m−1 ); 2m ∗ y2t = 1 (yt−m+1 + · · · + yt+m ) 2m con m = s/2. Al fine di ottenere una mm centrata in t possiamo prendere 1 ∗ 1 ∗ yt∗ = (y1t + y2t )= (.5yt−m + yt+m+1 + · · · + yt+m−1 + .5yt+m ) 2 2m Il polinomio associato è w(L) = (2s)−1 (1 + L)S(L) = (2s)−1 (1 + L)∆s /(∆), con S(L) = 1 + L + · · · + Ls−1 . 3.6 Composizione di mm aritmetiche La composizione di mm aritmetiche consente di derivare una famiglia di mm di agevole calcolo che costituiscono buone approssimazioni di mm più sofisticate. Ad esempio, se desiderassimo una mm che preservi i polinomi di grado uno e che elimini un pattern stagionale con ampiezza linearmente crescente, si può applicare due volte una mm a s termini: M = = 1 (Ls + · · · + L + 1 + L−1 + · · · s 1 (Ls + 2Ls−1 + · · · + (s − 1)L s2 + L−s+1 ) × 1s (Ls−1 + · · · + L + 1 + L−1 + · · · + L−s ) + s + (s − 1)L−1 + · · · + 2L−s+1 + L−s ) Il polinomio caratteristico è proporzionale a S(L)2 . Tuttavia, le mm aritmetiche consentono di preservare i polinomi di grado non superiore al primo. Le mm di Spencer superano questa limitazione. In particolare esse, pur essendo caratterizzate da una struttura di coefficienti molto semplice, eliminano una componente stagionale di periodo s con ampiezza variabile in maniera lineare, etc.. 50 3.7 Lisciamento e filtri di Henderson In un paragrafo precedente abbiamo desunto le mm aritmetiche come soluzione del problema di min w0 w sotto il vincolo w0 i = 1. Un criterio alternativo è basato sulla minimizzazione della forma quadratica w0 Ωw, dove w0 = (w−m , . . . , w0 , . . . , wm e Ω è una matrice simmetrica e definita positiva. Nel caso delle medie mobili di Henderson 0 Ω = D3 D3 , D è la matrice tale che Dw = (w−m , w−m+1 − w−m , . . . , wm − wm−1 )0 . min m X (∆3 wi )2 , s. v. C 0 w = c i=−m+3 dove i vincoli sono relativi alla preservazione dei polinomi di ordine p. X wi = 1, i X ij wi = 0, j = 1, 2, . . . , p (3.1) Al fine di comprendere la natura dei vincoli, consideriamo una polinomiale di ordine p: yt = p X βj tt j=1 Affinché sia M yt = m X i=−m wi yt+i = m X i=−m wi p X βj (t + i)j , 0j=1 devono essere soddisfatte le relazioni (3.1). Il lisciamento della mm viene misurato dalla somma dei quadrati delle differenze terze dei coefficienti; questa quantità è nulla se essi si dispongono lungo una parabola. La soluzione è fornita da w = Ω−1 C(C 0 Ω−1 C)−1 c. Per p = 2, ponendo k = m+2: 315[(k + 1)2 − i2 ](k 2 − i2 )[(k + 1)2 − i2 )(3k 2 − 16 − 11i2 ) wi = 8k(k 2 − 1)(4k 2 − 1)(4k 2 − 9)(4k 2 − 25) Tali medie non elimininano la stagionalità, sebbene per una scelta opportuna di m se ne può ridurre significativamente l’ampiezza. 3.8 Il trattamento delle estremità della serie I due approcci fondamentali per il trattamento delle estremità della serie sono di seguito schematizzati: 1. Impiego di medie mobili asimmetriche per t = T − m + 1, . . . , T a 2m, 2m − 1, m + 1 termini. Pertanto, gli ultimi m termini della serie sono soggetti a revisione quando una nuova osservazione si rende disponibile. 2. Estrapolazione (e retropolazione) della serie: ỹT +l|T , l = 1, . . . , m. Se le previsioni sono lineari i due approcci sono equivalenti. 51 Capitolo 4 La destagionalizzazione delle serie temporali 4.1 Introduzione La stagionalità rappresenta una delle maggiori fonti di variabilità dei fenomeni aziendali. La sua rilevanza induce a ritenere che essa sia di autonomo interesse; tuttavia, esistono argomenti sufficientemente fondati ed istituzionalmente riconosciuti che inducono ad isolarla e rimuoverla da una serie storica al fine di evidenziare segnali meno appariscenti, ma altrettanto significativi dal punto di vista interpretativo, identificabili con la componente ciclica e la componente di lungo periodo, o tendenziale. Una procedura di destagionalizzazione, come la X-12-ARIMA, oggetto del presente capitolo, si fonda sul presupposto che non sussistano interazioni tra le componenti di una serie temporale, ed in particolare tra la stagionalità e le altre componenti; sotto queste ipotesi mira a eliminare una sovrastruttura dovuta a fattori istituzionali, di calendario e climatici, legati all’alternarsi delle stagioni e diversi da quelli che presiedono alla componente di ciclo-trend, che possono essere legati alle aspettative degli operatori, al clima economico prevalente, alla diffusione delle innovazioni tecnologiche, e cosı̀ via. Il grado di realismo di tale assunzione è stato ed è tuttora oggetto di un ricco ed approfondito dibattito. Un punto fermo rimane comunque il fatto che la disponibilità di informazioni statistico-economiche destagionalizzate costituisce un fabbisogno informativo diffuso, soprattutto da parte degli utilizzatori meno esperti o semplicemente meno interessati all’analisi statistica delle serie temporali, e sanzionato dai regolamenti comunitari, che invitano gli Istituti di Statistica dei paesi membri a produrre serie destagionalizzate in maniera routinaria, secondo determinati standard qualitativi. Al fine di illustrare l’operatività di una procedura di destagionalizzazione faremo riferimento ad una serie mensile molto famosa nella letteratura, la serie Airline, 52 Figura 4.1: Destagionalizzazione della serie Airline. Serie originaria 6.5 Trasformazione logaritmica 600 6 500 400 5.5 300 5 200 50 500 Serie destagionalizzata 55 60 50 55 60 Serie originaria e ciclo-trend 600 400 airline TRairline 500 400 300 300 200 200 50 55 60 50 55 60 relativa al numero dei passeggeri di una linea aerea nel periodo Gennaio 1941 Dicembre 1961. Da essa prende il nome il modello Airline introdotto nel capitolo precedente, dal momento che questo ben si adatta alla serie e in generale presenta un buon adattamento per un ampio spettro di fenomeni economici che presentano trend e stagionalità. La figura 4.1 evidenzia la presenza di un trend crescente e di una stagionalità abbastanza regolare, che tuttavia presenta un ampiezza delle oscillazioni crescente al crescere del trend: siamo in presenza di una situazione tipica in cui la trasformazione logaritmica elimina questa ultima caratteristica, come mostra il secondo pannello. Il modello della classe ARIMA adattato alla serie risulta: ∆∆12 ln yt = (1 − 0.40L)(1 − 0.56L12 )t , con σ̂ 2 = 0.013, e supera tutti i test diagnostici. Gli ulteriori pannelli della figura 4.1 mostrano rispettivamente la serie destagionalizzata ottenuta come output della procedura X-12, che come vedremo usa il modello ARIMA soltanto strumentalmente, al fine di ottenere estensioni della serie mediante previsione, e la componente di ciclotrend. Le due differiscono dal momento che la prima contiene anche una stima della componente irregolare, fornendo dunque un segnale meno lisciato. Quello che la serie destagionalizzata consente di evidenziare e che non era palese a prima vista è la presenza di alcune flessioni cicliche, di natura temporanea, in particolare nell’anno 1958. 53 4.2 La procedura X-12-ARIMA La procedura X-12-ARIMA è stata sviluppata dal Census Bureau degli Stati Uniti con l’intento di sostituire la versione precedente, nota come X-11-ARIMA, che ha rappresentato a lungo la procedura di destagionalizzazione impiegata da soggetti istituzionali. Essa, distribuita in via sperimentale mediante il sito ftp://ftp.census.gov/pub/ts/x12a/, assieme al manuale ed al paper illustrativo (Findley et al., 1996), contiene elementi di continuità rispetto alla precedente versione, ma anche forti punti di rottura. La novità essenziale è rappresentata dal modulo RegARIMA, che va a sovrapporsi al nucleo originale della procedura X-11-ARIMA e che riporta su basi inferenziali il trattamento di aspetti che precedentemente ricevevano soluzioni ad hoc. In particolare, RegARIMA consente di adattare alla serie Yt modelli del tipo s φ(L)Φ(L )∆ d ∆D s yt − K X k=1 ! βk xkt = θ(L)Θ(Ls )t , (4.1) dove yt = f (Yt /dt ) è la trasformazione di Box-Cox della serie Yt corretta dei fattori dt (ad es. per il diverso numero dei giorni lavorativi). Le variabili esogene xk sono a) predefinite; b) definite dall’utente. Tra le prime troviamo, oltre alle dummy stagionali, quelle per la diversa lunghezza dei mesi, per l’effetto degli anni bisestili, per il numero dei giorni lavorativi, distintamente per variabili di flusso e di stock, per la Pasqua e altre festività mobili; per i valori anomali additivi, cambiamenti di livello, rampe temporanee. Inoltre, per quanto concerne il trattamento automatico dei valori anomali, si assiste all’introduzione delle procedure di forward addition e backward deletion. Findley et al. (1996) descrivono le procedure di selezione della trasformazione preliminare della serie, del modello ARIMA (nel caso si usi l’opzione automatica), di stima dei parametri, etc.. Queste operazioni rientrano nella metodologia standard e non vengono discusse ulteriormente. In effetti, RegARIMA costituisce un pacchetto applicativo che può essere utilizzato autonomamente per l’identificazione, stima e verifica di modelli ARIMAX secondo la metodologia di Box & Jenkins, trascendendo dall’impiego funzionale all’estrapolazione della serie per l’applicazione in sequenza del filtro X-11-enhanced. Dopo aver realizzato l’aggiustamento preliminare e la previsione e retropolazione della serie, si applica una versione arricchita del filtro X-11 che verrà descritta in maniera più approfondita nei paragrafi che seguono. L’arricchimento ha riguardato la possibilità di specificare medie mobili di Henderson e stagionali di qualsiasi lunghezza, la ridefinizione delle medie mobili asimmetriche e l’introduzione della scomposizione “pseudo-additiva”. 54 Si noti che X-12, incorporando il modulo X-11, consente l’impiego delle preesistenti tecniche di aggiustamento per i valori anomali e per le componenti di calendario, seppure il loro impiego appare ovviamente non opportuno. La fase di diagnosi della bontà della destagionalizzazione conclude la procedura. In realtà viene evidenziato un feedback con le fasi precedenti, poiché alcuni effetti potrebbero essere individuati soltanto in questa sede. Gli strumenti diagnostici di nuova introduzione sono: sliding spans, revision histories, la stima della densità spettrale dei residui del modello regARIMA per l’individuazione della stagionalità residua e delle componenti di calendario. 4.3 Il filtro di destagionalizzazione (Enhanced X11) I modelli di scomposizione della serie storica Yt , t = 1, . . . , T , utilizzati dalla procedura sono i seguenti: Modello Moltiplicativo (default) Additivo Log-additivo Pseudo-additivo Scomposizione Serie destagionalizzata At = Tt × It Yt = Tt × St × It Yt = Tt + St + It At = Tt + It ln Yt = Tt + St + It At = exp(Tt + It ) Yt = Tt (St + It − 1) At = Tt × It La scomposizione pseudo-additiva è applicabile nei riguardi di serie che assumono valori comunque non negativi, ma prossimi allo zero in alcune stagioni. Il modello log-additivo fornisce stime della componente tendenziale distorte verso il basso; per tale motivo si applica una correzione ad hoc atta ad assicurare che la media annua della serie destagionalizzata coincida con quella della serie originaria. Nella schematizzazione del filtro che segue presenteremo una esemplificazione riferita ai modelli moltiplicativo (M) e additivo (A) applicati su dati mensili, s = 12. La procedura X-11 risulta divisa in tre fasi ed è iterata tre volte, (iterazioni B, C, D): le prime due iterazioni sono dedicate all’identificazione e alla stima finale dei valori anomali, nel caso in cui l’aggiustamento preliminare non sia effettuato con regARIMA; l’ultima alla destagionalizzazione in senso stretto sulla serie corretta1 . Di seguito descriveremo esclusivamente l’iterazione D; i riferimenti utilizzati sono prevalentemente Findley et al. (1996) e Ghysels et al. (1995). 1 In realtà una prima iterazione, A, è dedicata all’aggiustamento preliminare della serie effettuata con pesi a priori per i diversi giorni di calendario specificati dall’utente. 55 4.3.1 Prima fase: stime iniziali (1) 1. Stima iniziale del trend-ciclo, Tt , mediante media mobile centrata a 12 termini (m.m. 2 × 12): (1) Tt = C(L)Yt 1 1 1 −6 con C(L) = 24 (1+L)S(L)L−6 = 12 L + L−5 + · · · + L−1 + 1 + L + · · · + L5 + 12 L6 Yt . 2 La media mobile in questione elimina una stagionalità deterministica di periodo pari a 12 mesi, preservando le altre componenti. (1) 2. Stima iniziale della componente stagionale-irregolare, SIt , (rapporti - o differenze - SI): (1) t (M ) SIt = Y(1) (A) (1) SIt dove Tt (1) = Yt − Tt = SM (L)Yt SM (L) = 1 − C(L). La divisione o sottrazione della stima preliminare del trend ciclo fornisce una stima iniziale della componente stagionale-irregolare. (1) 3. La serie SIt è suddivisa in 12 gruppi mensili. Si procede a perequare i rapporti applicandovi una media mobile a 5 termini (m.m. 3 × 3) separatamente per ciascun mese, dando luogo ad una stima preliminare dei cd. fattori stagionali (seasonal factors), (1) (1) Ŝt = M1 (L)SIt con 1 1 2 3 2 1 M1 (L) = (L−12 + 1 + L12 )2 = L−24 + L−12 + + L12 + L24 . 9 9 9 9 9 9 Le medie mobili mirano a eliminare la componente irregolare dalla componente stagionale-irregolare. (1) 4. Si ottengono i fattori stagionali iniziali, St , le cui somme annuali sono pari rispettivamente a 12 (M) e a zero (A). (1) (1) Ŝt (M ) St = (A) (1) St = SM (L)Ŝt (1) C(L)Ŝt (1) Questa operazione effettua la centratura dei fattori stagionali. 56 (1) 5. Stima iniziale della serie destagionalizzata, At : (1) Yt (1) St (M ) At = (A) At = Yt − St (1) (1) La divisione per i fattori stagionali (M) o la sottrazione dei medesimi (A) genera una stima della serie destagionalizzata. 4.3.2 Seconda fase: fattori stagionali e destagionalizzazione (2) 1. La stima intermedia della componente trend-ciclo, Tt , viene calcolata appli(1) cando una m.m. di Henderson alla serie At ; (2) Tt (1) = Hm (L)At con Hm (L) = hm L−m + · · · + h1 L−1 + h0 + h1 L + · · · + hm Lm . Il filtro di Henderson riproduce un trend cubico e può essere derivato equivalentemente: (a) minimizzando la varianza delle differenze terze della serie (2) filtrata (∆3 Tt ); (b) minimizzando la somma dei quadrati delle differenze terze dei coefficienti della media mobile; (c) adattando alla serie un trend cubico con i minimi quadrati ponderati, minimizzando la somma dei quadrati delle differenze terze dei pesi. Cfr Kenny & Durbin, 1982, JRSS, A, 145. Vedi anche Kendall 1973. I valori tipici di m sono 4, 6 e 11, dando luogo a m.m. di 2m + 1 termini. I coefficienti hj possono essere ricavati dall’applicazione dell’algoritmo presentato in Findley et al. (1996, Appendice A): essi sono riportati nella tabella 1 per alcuni valori di m. La scelta di m è resa automatica dalla procedura Variable Trend Cycle Routine: (2) (1) (1) (2) si considera inizialmente m = 6, T̂t = H6 (L)At ; il rapporto Iˆt = At /T̂t , (1) (2) o la differenza Iˆt = At − T̂t , rappresenta una stima preliminare della componente irregolare. Denotando con T̄ la media campionaria di |∆T̂t | e con I¯ ¯ che rappresenta una misura, quella di |∆Iˆt |, si costruisce il rapporto R = T̄ /I, anche se abbastanza rozza, di lisciamento del trend (R−1 misura di roughness); la routine sceglie m = 4 se R−1 < 1.0 e m = 6 se 1.0 ≤ R−1 < 3.5. 2. Nuova stima dei rapporti SI: (M ) (A) (2) (2) SIt = Yt /Tt (2) (2) SIt = Yt − Tt 3. Con riferimento ai 12 gruppi mensili dei rapporti SI si calcolano stime preli(2) minari dei fattori stagionali, Ŝt , mediante media mobile 3 × 5: (2) Ŝt (2) 1 (L−36 + 2L−24 + 3L−12 + 3 + 3L12 + 2L24 + L36 )SIt = 15 (2) = M2 (L)SIt 57 j 0 ±1 ±2 ±3 ±4 ±5 ±6 ±7 ±8 ±9 ±10 ±11 m=4 .33114 .26656 .11847 -.00987 -.04072 Pesi m=6 m=8 .24006 .18923 .21434 .17639 .14736 .14111 .06549 .09229 .00000 .04209 -.02786 .00247 -.01935 -.01864 -.02037 -.00996 m = 11 .14406 .13832 .12195 .09740 .06830 .03893 .01343 -.00495 -.01453 -.01569 -.01092 -.01453 Tabella 4.1: Filtro di Henderson: pesi hj per le m.m a 9, 13, 17 e 23 termini dove M2 (L) = 1 −12 + 1 + L12 )(L−24 + L−12 + 1 + L12 + L24 ) (L 15 L’opzione default effettua la scelta della media mobile 3 × r, r = 3, 5, 9, in maniera è automatica, mediante il sottoprogramma Seasonal-Factor Curve Routine: (2) (p) (a) Si calcola una m.m. a 7 termini dei rapporti SIt mese per mese, St = (2) M2 (L)SIt , considerando gli anni per i quali si dispone di un set di rapporti completo. (p) (b) Si ottiene la stima della componente irregolare, It , dal rapporto o dif(2) (p) ferenza tra SIt e St . (c) Separatamente per ciascun mese si calcola il cd Moving Seasonality Ratio, (p) M SR, fornito dal rapporto tra la media aritmetica di |∆It | e quella di (p) |∆St | (M SR rappresenta dunque una misura di “roughness” del pattern stagionale), e la scelta di r è effettuata come segue: r = 3 se M SR ≤ 2.5; r = 5 se 3.5 ≤ M SR ≤ 5.5; r = 9 se M SR ≥ 6.5; negli altri casi si ridetermina M RS escludendo l’ultimo anno di osservazioni; se nessun criterio è applicabile si continua con l’esclusione di un anno alla volta fino ad un massimo di cinque, e se non si ottiene una risposta si prende r = 5. 58 4. Si effettua la centratura dei fattori stagionali: (2) (2) Ŝt (M ) St = (A) (2) St = SM (L)Ŝt (2) C(L)Ŝt (2) 5. Destagionalizzazione: (2) (2) At = Yt /St (2) (2) At = Yt − St (M ) (A) La stima preliminare della componente irregolare si consegue rispettivamente (2) (2) (2) (2) (2) (2) come It = At /Tt e It = At − Tt . 4.3.3 Terza fase: stima finale delle componenti 1. La stima finale della componente tendenziale viene calcolata applicando una (2) m.m. di Henderson alla serie At ; (3) Tt (2) = Hm (L)At L’ordine del filtro viene determinato ex novo dalla variable trend cycle routine, la quale ora consente la scelta m = 11 qualora R−1 ≥ 3.5. (3) 2. La stima finale della componente irregolare è fornita ripettivamente da It (2) (2) (3) (3) (3) At /Tt e It = At − Tt . = La scomposizione finale risulta: (M ) (A) 4.4 (3) (2) (3) Yt = Tt × St × It (3) (2) (3) Yt = Tt + St + It Le proprietà teoriche del filtro Prescindendo dal trattamento dei valori anomali e dalla limitazione temporale della serie, che richiede la modifica dei filtri alle estremità della serie, il filtro X-11 è una sequenza di medie mobili che dà luogo ad un filtro lineare2 applicato a Yt , le cui proprietà sono state approfondite nel dominio temporale e frequenziale. Sebbene dal punto di vista operativo la scomposizione moltiplicativa sia utilizzata più di frequente, le proprietà del filtro sono state investigate nel caso additivo (Wallis, 2 Per una diversa opinione si veda Ghysels et al. (1996). 59 1974, Ghysels e Perron, 1993). Ovviamente, i risultati possono essere estesi al caso moltiplicativo, via il caso log-additivo. Seguendo l’approccio di Ghysels e Perron (1993), scriviamo: (2) At = νX−11 (L)Yt dove νX−11 (L) = 1 − SM (L)M2 (L) + SM (L)M2 (L)Hm (L) − SM 3 (L)M1 (L)M2 (L)Hm (L) Analogamente, possono essere desunti i filtri per l’estrazione delle componenti: (3) Tt = Hm (L)νX−11 (L)Yt (2) St = [1 − νX−11 (L)]Yt (3) It = [1 − Hm (L)]νX−11 (L)Yt Da ciascuna di queste rappresentazioni è possibile derivare i pesi applicati alla serie Yt per estrarre la componente; inoltre, la funzione di trasferimento del filtro consente la comprensione degli aspetti principali dell’operatività del filtro. Se wj rappresenta il peso associato al j-esimo ritardo, il guadagno del filtro è dato da G(λ) = w0 + PJ 2 j=1 wj cos(λj). Le figure 1 e 2 mettono in luce tre aspetti fondamentali del filtro: • il filtro è relativamente insensibile a variazioni della lunghezza delle medie mobili fondamentali; il filtro è pertanto ad hoc e non si adatta alle caratteristiche della serie, dando luogo alla possibilità di sovra o sotto aggiustamento; • il filtro non è idempotente: se applicato alla serie destagionalizzata genera la componente stagionale St∗ = [1 − νX−11 (L)]νX−11 (L)Yt 6= [1 − νX−11 (L)]Yt = (2) St ; • il filtro può estrarre stagionalità spuria. Al fine di illustrare la scarsa flessibilità del filtro, consideriamo il problema di destagionalizzare la serie mensile di fonte ISCO BDIGENGS che rappresenta il livello degli ordini e della domanda dall’interno per il totale industria (saldi). La serie viene presentata nella figura 4.4 assieme allo pseudospetto in decibels (10 × log10 f (λ)) stimato con una finestra di Daniell, che mette in evidenza, tra l’altro, la concentrazione di potenza attorno alle frequenze stagionali. L’aggiustamento stagionale realizzato dalla procedura X-12 viene messo a confronto con quello effettuato da SEATS a partire dal modello ARIMA (3, 1, 0) × (1, 0, 0)12 . La scelta dell’ordine del polinomio AR non stagionale (p = 3) è imposta dai limiti di SEATS; la diagnostica fornisce comunque un quadro sostanzialmente 60 accettabile. Il coefficiente AR stagionale è pari a -.57 e sottintende un modello di stagionalità stazionario. La procedura X12 è stata applicata con la specificazione additiva. Il grafico delle serie destagionalizzate ed il loro pseudospettro sono riportate nella figura 4.4; si noti che il pattern stagionale estratto da X12 è notevolmente più stabile di quello estratto da SEATS. Lo pseudospettro mette in luce che il primo domina il secondo, con la conseguenza che la serie destagionalizzata con SEATS si presenterà più liscia (Froeb e Koyak, 1995) e che il fenomeno della sovraddifferenziazione, percepibile dai minimi relativi alle frequenze stagionali, ha una rilevanza minore per SEATS. 4.5 Correzione dei valori anomali nell’X-11 La correzione dei valori anomali costituisce una delle fonti di non linearità del filtro X-11. Sebbene tale operazione possa essere effettuata in via preliminare all’applicazione del filtro X-11 mediante regARIMA, qui di seguito descriviamo la routine originaria, ricordando che viene applicata nelle due iterazioni della procedura, B e C, le cui fasi sono identiche a quelle descritte nella sezione 1. (1) La routine entra in azione alla fine della prima fase, in cui si ottiene It = (1) (1) (1) SIt − St . Con riferimento a It si calcola la deviazione standard mobile σI per sottoperiodi di 5 anni (60 osservazioni mensili consecutive). I valori della componente irregolare dell’anno centrale che escono dai limiti 2.5σI sono rimossi e le deviazioni standard ricalcolate; queste sono poi reimpiegate per ottenere la seguente funzione ponderatrice: 1 wt = 2.5 − 0 (1) se (1) |It | σI 0 ≤ |It | ≤ 1.5σI (1) se se 1.5σI < |It | ≤ 2.5σI (1) |It | > 2.5σI Per le osservazioni tali che wt < 1 i corrispondenti rapporti (o differenze) SI sono (1) sostituiti dalla media di wt SIt e dei due valori precedenti e successivi più vicini riferiti allo stesso mese con peso unitario. Successivamente vengono ricalcolati e centrati i fattori stagionali. La procedura viene impiegata anche all’inizio della seconda fase, con la correzione (2∗) (2) (2) dei rapporti SI, facendo riferimento a It = SIt − St . Inoltre viene applicata (2) (2) (1) (1) (2) (2) con riferimento a It = At /Tt (M) o It = At − Tt (A): a) al fine di escludere i valori estremi dall’analisi delle componenti di calendario; b) prima di ottenere le (2) stime finali (fase 3) in corrispondenza dei valori wt < 1, At viene rimpiazzato dalla (2) media di wt At e due valori precedenti e successivi più vicini con peso unitario. 61 (3) Infine, nella fase finale, con riferimento a It , i pesi sono calcolati per ottenere i fattori di correzione da applicare alle osservazioni originarie: (3) (3) Ft = 1 + (It − 1)wt (3) It = It wt + (1 − wt ) (3) It = It∗ (3) It Vengono calcolati i cosidetti valori estremi (extreme values) come reciproco dei fattori di correzione Ft : Ot = Ft−1 . 4.6 Le componenti di calendario Consideriamo innanzitutto l’effetto della diversa lunghezza dei mesi; a tal fine denotiamo il numero dei giorni di calendario nel mese t con Nt ; questo non costituisce un effetto puramente stagionale, avendo periodo pari a 4 anni per la presenza dell’anno bisestile; sopra un ciclo di 4 anni la media di Nt è pari a N̄ = 365.25/12 = 30.4375, e rappresenta la componente di livello in Nt . Sempre a partire da Nt possiamo definire la variabile stagionale: Nt∗ = Nt se t 6= 2 modulo 12 e Nt∗ = 28.5 se t = 2 mod 12 (mese di febbraio). Pertanto Nt∗ è periodica con periodo pari a 12 mesi. L’effetto della lunghezza del mese può essere visto come composto da trend, N̄ , stagionalità, ed un residuo “ciclico”; nel caso moltiplicativo: Nt = N̄ Nt∗ Nt N̄ Nt∗ (4.2) mentre nel caso additivo: Nt = N̄ + (Nt∗ − N̄ ) + (Nt − Nt∗ ) La componente residua è dovuta alla presenza dell’anno bisestile (leap year effect) ed ha valori non nulli solo nel mese di febbraio. Denotiamo ora con Djt il numero delle volte in cui il j-esimo giorno della settimana (Lunedı̀, . . . , Domenica), entra nel mese t e con δj l’effetto corrispondente (il tasso P P medio di attività relativo al giorno j); si avrà pertanto Nt = j Djt , δ̄ = 7j=1 δj /7. L’effetto cumulato nel mese t sarà dato da T Dt = 7 X δj Djt = δ̄Nt + j=1 6 X (δj − δ̄)(Djt − D7t ) (4.3) j=1 La seconda componente misura l’effetto legato alla composizione dei diversi mesi; essa ha somma nulla sopra un numero di mesi che contiene un numero intero di settimane, e pertanto non interferisce con la componente trend; la prima è dovuta alla diversa lunghezza dei mesi e per la sua presenza T Dt conterrà una componente di livello e una componente stagionale. 62 Dal momento che nel modello di scomposizione della serie sono già presenti le componenti trend e stagionalità, questi possono essere scorporati da T Dt dividendo (caso moltiplicativo) - sottraendo (caso additivo) - per δ̄Nt∗ : (M ) (A) P D 7t T Dt∗ = NN∗t + 6j=1 δj∗ jtN−D ∗ t t P T Dt∗ = δ̄(Nt − Nt∗ ) + 6j=1 δj∗ (Djt − D7t ) Si ottiene pertanto che T Dt∗ misura l’effetto dei giorni lavorativi e degli anni bisestili (componente ciclica di Nt ). Se si desidera rimuovere soltanto l’effetto trend, si divide o si sottrae per δ̄ N̄ . L’effetto corrispondente misura, oltre agli effetti in T Dt∗ l’effetto stagionale della diversa lunghezza del mese. La procedura X-11 stima gli effetti TD a partire da una stima preliminare della componente irregolare e stima i coefficienti δj∗ nel modello Iˆt = T Dt∗ + et mediante i MQO. X-12 li stima direttamente sulla serie Yt , utilizzando il modello additivo, nella fase regARIMA preliminare all’aggiustamento. L’evidenza empirica si rivela a favore di questa seconda strategia (Chen et al., 1995). Nel caso si adotti la trasformazione logaritmica della serie la stima degli effetti TD mediante il modello additivo rappresenta un’approssimazione di Taylor del primo ordine (Findley et al., 1996). Pertanto, i regressori predefiniti nella spec: REGRESSION sono le sei variabili Djt − D7t e lom= Nt − N̄ o leap year= Nt − Nt∗ . Si noti che se D > 0 in (4.1), l’effetto lom e lom più leap year coincidono. L’aggiustamento può essere effettuato in maniera preliminare in sede di trasformazione di Yt −→ Yt /dt , con dt = Nt /N̄t o Nt /Nt∗ . X-12 offre l’opzione automatica per determinare se includere gli effetti TD nel modello (4.1): effettua la stima del modello in presenza degli effetti (dt = Nt /Nt∗ e regressori Djt − D7t ) ed in loro assenza e si seleziona il modello che fornisce il più piccolo AIC. 4.7 4.7.1 Diagnostica Test di stagionalità Una successione di test di stagionalità sono applicati nel corso della procedura: (1) a) Test FS per l’assenza di stagionalità nei rapporti o differenze SIt , proporzionale al rapporto tra la varianza tra i mesi e la varianza entro i mesi dei rapporti SI; si suggerisce il livello di significatività .001. (2) b) Test FM per l’assenza di stagionalità evolutiva applicato alla serie |SIt | nel (2) caso additivo e |SIt − 100| nel caso moltiplicativo: la varianza totale è scomposta in varianza tra i mesi, varianza tra gli anni e varianza residua; il test è proporzionale al rapporto tra la varianza tra gli anni e la varianza residua. 63 c) Test congiunto per la presenza di stagionalità non identificabile. Vengono presi in considerazione i test FS , FM ed il test nonparametrico di Kruskal-Wallis (KW)3 . Si dice che la stagionalità è identificabile quando FS e KW sono significativi, mentre FM cade nella zona di accettazione. Si è in presenza di stagionalità non identificabile qualora: il test FS non risulta significativo al livello .001; FS e FM sono significativi rispettivamente al livello .001 e .05, e la media aritmetica tra T1 = 7/(FM − FS ) e T2 = 3FM /FS è non inferiore all’unità. Non si esclude la presenza di stagionalità identificabile qualora FS è significativo, il test FM è non significativo e T1 , T2 < 1 o KW non è significativo. d) Test FS per l’assenza di stagionalità residua applicato alla serie completa ed (2) (2) (2) agli ultimi tre anni di At − At−s/4 (nel caso trimestrale ∆At ). 4.7.2 Nuova diagnostica su stagionalità residua e l’effetto del n. giorni lavorativi La presenza di stagionalità residua viene studiata stimando la densità spettrale dei residui alle frequenze stagionali con riferimento agli anni più recenti (default: ultimi 8 anni). X-12-ARIMA produce automaticamente queste stime per le differenze prime della serie destagionalizzata e per la stima finale della componente irregolare. Viene effettuato il confronto con le due frequenze immediatamente vicine e se queste sono inferiori di un dato margine, il programma produce il messaggio che i picchi sono “visually significant”. Gli stimatori spettrali sono due: il periodogramma e lo stimatore autoregressivo con 30 ritardi. Analogamente, per valutare la presenza di effetti legati ai giorni della settimana, si valuta la significatività dei picchi alle frequenze 2π × .348 e 2π × .432. 4.7.3 (3) Test di casualità dei residui It a) Un test non parametrico di autocorrelazione del primo ordine è fornito dalla statistica ADR (Average Duration of Run), la quale misura il numero medio di variazioni mensili consecutive nella stessa direzione. Per serie mensili di oltre dieci anni valori esterni all’intervallo [1.36, 1.75] sono da considerare significativi. 3 Il test di Kruskal-Wallis è un’alternativa al test F parametrico dell’analisi della varianza che non richiede l’assunzione di normalità e che sfrutta soltanto l’ordinamento delle osservazioni. s KW = X Rj2 12 − 3(T + 1) T (T + 1) j=1 nj dove Rj è la somma dei ranghi (per rango intendendosi il numero d’ordine dell’osservazione nell’ordinamento non decrescente) per la stagione j e nj è il numero degli anni in cui si presenta la stagione j (solitamente nj = n = T /s). Sotto l’ipotesi nulla di assenza di stagionalità e di indipendenza dei rapporti SI, KW ∼ χ2 con s − 1 gradi di libertà. 64 b) Periodogramma cumulativo normalizzato e test di Kolmogorov-Smirnov 4.7.4 Bontà della destagionalizzazione Undici grandezze diagnostiche sono previste con la finalità di valutare la bontà della destagionalizzazione: M1 : misura sintetica del contributo relativo della componente irregolare It2 /Yt2 . M2 : misura sintetica del contributo relativo della componente irregolare alla varianza della serie, resa stazionaria rimuovendo un trend lineare (versione additiva e log-additiva) o esponenziale (versione moltiplicativa); M3 = R−1 , (cfr. Variable Trend Cycle Curve Routine); M4 = ADR (Average Duration (3) (3) of Run); M5 : numero di mesi richiesto affinché |∆Tt | > |∆It |; M6 = M SR (Moving Seasonality Ratio); M7 = 100FM /FS (stagionalità variabile rapportata alla (2) stagionalità stabile); M8 misura della variabilità tra gli anni di St ; M9 trend lineare (2) medio nei fattori stagionali finali, St ; M10 e M11 sono identici alle due misure precedenti, ma sono calcolate solo per gli anni più recenti. Il campo di variazione è [0, 3] e la regione di accettazione [0, 1]. Le statistiche M1 -M11 sono poi aggregate in un’unica misura sintetica della bontà della destagionalizzazione, Q. 4.7.5 Diagnostiche basate sulla stabilità delle stime Un metodo di destagionalizzazione è detto stabile se la serie destagionalizzata non è suscettibile di variazioni significative con l’aggiunta di nuove osservazioni. La stabilità è una caratteristica desiderabile per la previsione a breve termine ed è appetibile per i produttori di dati e per il policy maker. Le quantità diagnostiche disponibili in X-12-ARIMA si basano sulla revisioni nella serie At con l’aggiunta di nuove osservazioni. Sia At|j la stima della serie destagionalizzata che utilizza le osservazioni fino al tempo j; quando j = t abbiamo il cd. concurrent estimator (CE), mentre nel caso j = T abbiamo la stima più recente (more recent estimator), MR. Nel caso della scomposizione moltiplicativa viene fornito l’indice di revisione da CE a MR: Rt|T = 100 × At|T − At|t At|t e per dati J0 e J1 , viene fornita la sequenza Rt|T per J0 ≤ t ≤ J1 (revision historyRH). Per la scelta di J0 si suggerisce un numero di periodi almeno pari alla lunghezza del filtro stagionale. Dal momento che spesso l’interesse si appunta sulle variazioni relative del fenomeno, piuttosto che sul suo livello assoluto, X-12 prende in considerazione anche l’indice 65 di revisione relativo al tasso di variazione uniperiodale della serie destagionalizzata: ∆ = 100 × Rt|j At|j − At−1|j , At−1|t e la corrispodente RH. Un ulteriore impiego delle RH è la determinazione del numero di anni su cui estendere la serie per previsione, come argomentano Findley et al. (1996). Recentemente, Findley et alii (1990) hanno proposto le cd. sliding span diagnostics. Queste si fondano sul confronto tra i dati destagionalizzati prendendo in considerazione gruppi mobili di osservazioni (spans) che si sovrappongono mediante l’aggiunta sequenziale di un anno di osservazioni alla volta e l’eliminazione dell’anno iniziale. Le stime At sono giudicate affidabili se non variano sensibilmente da un gruppo all’altro. Si supponga di considerare K(= 4) gruppi di lunghezza pari ad N anni; su (k) ciascuno viene applicata la procedura di destagionalizzazione e si denoti con Ŝt il fattore stagionale associato al k-esimo gruppo, k = 1, . . . , K. La lunghezza degli span risulta uguale a quella minima necessaria per l’applicazione dei filtri MA della procedura X-11 e risulterà pertanto pari a N = 6, 8, 11 rispettivamente nei casi in cui si scelgano le medie mobili 3 × 3, 3 × 5, 3 × 9 per perequare i fattori stagionali. Si dice che il fattore stagionale al tempo t è inaffidabile se (k) Stmax = maxk Ŝt (k) − mink Ŝt > .03 (k) mink Ŝt Poiché l’obiettivo della destagionalizzazione è quello di ottenere misure delle variazioni mensili, si propone di valutare altresı̀ (k) (k) M Mtmax = max k ∆At (k) At − min k ∆At (k) At > .03 Al fine di cogliere se l’instabilità riguarda periodi contigui o stagioni particolari, la stima della variazione relativa su base annua è giudicata inaffidabile se (k) (k) Y Ytmax = max k ∆12 At (k) − min k At ∆12 At (k) At > .03 Misure sintetiche possono essere ottenute mediante la percentuale di mesi con fattori stagionali non affidabili, S(%), con variazioni relative mensili inaffidabili (M M (%)) e variazioni annuali innaffidabili (Y Y (%)). Se ad esempio S(%) > 25 la serie non dovrebbe essere destagionalizzata. Per un efficace giudizio critico su queste statistiche, vedasi Maravall (1996). In poche parole, la loro utilità sarebbe ristretta alla scelta tra la destagionalizzazione 66 diretta o indiretta (mediante le serie componenti) di un aggregato e nella selezione della lunghezza del filtro. Più oscuro il ruolo nella decisione se aggiustare o meno tout court, poiché l’instabilità è una proprietà della serie e non (soltanto) della procedura di destagionalizzazione. 67 Figura 4.2: Pesi e funzioni di trasferimento per il filtro X-11 default 68 Figura 4.3: Pesi e funzioni di trasferimento per il filtro X-11 con filtro di Henderson a 17 termini 69 Figura 4.4: Serie BDIGENGS: livello degli ordini e della domanda dall’interno per il totale industria (saldi), ISCO. Series: bdigen Smoothed Periodogram -10 0 spectrum 10 -50 -40 -30 -20 -10 0 20 10 BDIGENGS 1986 1988 1990 1992 Time 1994 1996 0 1 2 3 4 5 frequency bandwidth= 0.0571957 , 95% C.I. is ( -4.41115 , 9.00983 )dB SEATS: Comp. Stagionale -10 -8 -6 -5 -4 -2 0 0 2 5 4 X12: Comp. Stagionale 6 1986 1988 1990 1992 Time 1994 1996 1998 1986 1988 1992 Time 1994 1996 Series: bdigen.adj Smoothed Periodogram -10 0 spectrum 10 -40 -30 -20 -10 0 20 10 S.Dest. X12:____, SEATS:.... 1990 1986 1988 1990 1992 Time 1994 1996 0 1 2 3 4 5 frequency bandwidth= 0.0819443 , 95% C.I. is ( -3.85117 , 6.96677 )dB bandwidth= 0.0819443 , 95% C.I. is ( -3.85117 , 6.96677 )dB 70 6 Capitolo 5 Analisi Econometrica di Dati non Stazionari 5.1 Introduzione Buona parte dell’informazione statistica, soprattutto in campo macroeconomico, è organizzata in senso temporale; la cosiddetta Econometria delle serie storiche, proponendosi di stimare relazioni esistenti tra variabili osservate nel tempo, ha dedicato un’attenzione crescente alle proprietà dinamiche del processo generatore dei dati. Ciò ha portato, nel corso dell’ultimo decennio, ad una profonda rivisitazione delle basi statistiche della modellistica econometrica che ha fatto leva sui concetti di integrazione e cointegrazione, introdotti al fine di interpretare una delle caratteristiche principali delle serie macroeconomiche: l’assenza di stazionarietà. Di questi aspetti ci occuperemo ora con il seguente programma: nel paragrafo 2 verrà introdotta la particolare forma di non stazionarietà legata alla presenza di integrazione; di questa vengono illustrati gli effetti sulla dinamica dei processi e sulle inferenze statistiche. Si discute quindi come condurre dei test parametrici per verificarne la presenza in una serie storica (par. 3 e 4). Il par. 5 considera le implicazioni dal punto di vista interpretativo mediante la contrapposizione di due teorie relative alla dinamica di lungo periodo del sistema economico. Per processi integrati la dinamica viene descritta come la reazione del sistema ad innovazioni di tipo casuale; di qui l’interesse a misurare la persistenza degli shock (par. 6). I par. 7 e 8 trattano l’estensione del concetto di integrazione a processi di natura stagionale e introducono il test HEGY di integrazione stagionale. Si passerà poi all’ambito bivariato al fine di discutere gli effetti dell’integrazione sulle inferenze che possono essere tratte da un modello a ritardi distribuiti (par. 10). Verranno quindi introdotti due concetti complementari: il meccanismo a correzione dell’errore di equilibrio e la cointegrazione, i quali presuppongono l’esistenza di una relazione di lungo periodo tra le serie esaminate (par 11-12). 71 5.2 Stazionarietà ed integrazione Un processo stocastico può essere definito come una sequenza di variabili casuali {yt } indicizzate da un parametro t appartenente ad un insieme parametrico T . Poiché nel seguito ci limiteremo a considerare la classe dei processi stocastici continui a parametro discreto, avremo T = 0, 1, . . .. Nelle applicazioni econometriche si dispone, per ogni t, di una singola realizzazione della v.c. yt , per cui il processo inferenziale presenterebbe complicazioni insuperabili se non venissero imposte due classi di restrizioni sulle caratteristiche del processo: la stazionarietà e l’ergodicità. In particolare, diremo che un processo stocastico è stazionario in senso debole se i suoi momenti fino al secondo sono finiti ed indipendenti da t, vale a dire E(yt ) = µ, E(yt −µ)2 = γ0 e E[(yt −µ)(yt−k −µ)] = γk = γ−k , ∀t, k, dove γk denota la covarianza tra yt e yt−k che si assume essere funzione esclusivamente di k. L’ergodicità richiede invece che la “memoria” del processo sia limitata cosı̀ che eventi distanti nel tempo abbiano un basso grado di dipendenza. Utili strumenti per la caratterizzazione di un processo stazionario sono la funzione di autocorrelazione e densità spettrale; la prima è definita ρk = γk /γ0 , k = 0, 1, . . . mentre la seconda da " # ∞ X 1 γ0 + 2 f (ω) = γk cos ωk , 2π k=1 dove ω è la frequenza in radianti che assume valori in [0, π]. Il processo stazionario più elementare è costituito da una sequenza di variabili casuali incorrelate a media nulla e varianza costante: esso è denominato white noise, ed indicato con εt ∼ WN(0, σ 2 ), dove E(εt ) = 0, E(εt2 ) = σ 2 e E(εt εt−k ) = 0 per k 6= 0. Alla classe dei processi in questione si applica un importante risultato noto come teorema di Wold: esso afferma che ogni processo stazionario può essere scomposto in due processi stocastici stazionari e mutualmente incorrelati, uno dei quali è deterministico mentre l’altro (indeterministico) è il processo lineare: P zt = εt + C1 εt−1 + C2 εt−2 + · · · , con Ck2 < ∞. Consideriamo ora un processo autoregressivo del primo ordine (AR(1)): yt = φyt−1 + εt t = 1, 2, . . . , T con εt ∼ WN(0, σ 2 ); è noto allora che se il processo è stazionario, vale a dire se |φ| < 1, lo stimatore dei minimi quadrati φ̂ = T P yt yt−1 t=2 T P t=2 72 (5.1) 2 yt−1 è √ T -consistente ed inoltre √ T (φ̂ − φ) →d N 0, (1 − φ2 ) . E’ immediato constatare che questo risultato non è più valido se φ = 1. In questo caso, noto nella letteratura anglosassone come random walk (RW), yt è nonstazionaria perché risulta Var(yt ) = tσ 2 ; ciò può essere visto risolvendo l’equazione alle differenze finite yt = yt−1 + εt . Sotto specifiche ipotesi riguardanti i valori iniziali, εs = 0 per s ≤ 0 e y0 noto (non stocastico), si ottiene infatti la soluzione yt = y0 + t−1 X εt−j . (5.2) j=0 La natura di tale processo (la varianza linearmente crescente) implica che esso possa vagare indefinitamente lontano dal valore iniziale con il procedere del tempo;1 in altre parole, diversamente dal processo autoregressivo stazionario descritto prima, non gode della proprietà di “regressione” verso la media (mean reversion). Si noti anche che ŷT +l = E(yT +l |yT ) = yT ; pertanto tutta l’informazione sul comportamento del processo è contenuta nell’ultima realizzazione. Il random walk è inoltre un processo dalla memoria lunga in quanto il peso delle realizzazioni passate della v.c. εt nella determinazione del presente rimane inalterato, mentre nel caso del processo autoregressivo stazionario decade in maniera esponenziale. Dalla (2) emerge infatti che la derivata parziale di yt rispetto a εt−k è pari a uno, indipendentemente dal valore di k. Il RW è un esempio di processo integrato del primo ordine, ovvero, con notazione sintetica, yt ∼ I(1); introduciamo dunque la seguente definizione: Def. Ordine di integrazione: il processo yt è integrato di ordine d, e scriveremo yt ∼ I(d), se le differenze d-esime ∆d yt ammettono una rappresentazione di Wold stazionaria e invertibile. In altre parole applicando d volte l’operatore differenza, ∆ = 1 − L, si ottiene un processo stazionario ed invertibile, per il quale vale la tradizionale teoria asintotica. Es. 1: yt = 2yt−1 − yt−2 + εt + θεt−1 , yt ∼ I(2) ⇐⇒ |θ| < 1 ; Es. 2: yt = β0 + β1 t + β2 t2 + εt non è I(2), bensı̀ I(0) con trend deterministico di secondo grado. 1 Notiamo, per inciso, che nel caso |φ| > 1 siamo in presenza di un processo non stazionario (esplosivo) la cui varianza cresce esponenzialmente con t. 73 Il comportamento dei processi integrati differisce da quello dei processi stazionari anche per un altro aspetto; la presenza di un termine costante in un modello autoregressivo non ha conseguenze drammatiche sulle sue proprietà temporali: yt = µ + φyt−1 + εt t = 1, 2, . . . , T yt è infatti un processo stazionario attorno a m = E(yt ) = µ/(1 − φ), ed è noto che m e φ possono essere stimati in maniera (asintoticamente) indipendente; inoltre i momenti di ordine superiore al primo non sono affetti dalla presenza della media, la quale si configura come un parametro di disturbo eliminabile prendendo in considerazione il processo scarti dalla media. Vediamo invece cosa accade nel caso φ = 1: il processo ∆yt = µ + εt t = 1, 2, . . . , T è ancora I(1), ma le sue realizzazioni sono notevolmente diverse da quelle di un RW; mediante sostituzione successiva troviamo infatti che yt = y0 + µt + t−1 X εt−j j=0 e che pertanto il valor medio del processo è un trend lineare deterministico attorno al quale le oscillazioni si fanno sempre più accentuate.2 Tuttavia, in una realizzazione finita il comportamento di detto processo può essere non troppo dissimile da quello di un processo stazionario attorno ad un trend lineare, e ciò è tanto più vero quanto più Var(εt ) è bassa. Quanto ottenuto nel caso del RW è generalizzabile nella maniera seguente: se yt ∼ I(d) senza drift allora yt contiene un trend polinomiale di ordine d − 1; se invece yt ∼ I(d) con drift, yt contiene un trend polinomiale di ordine d. In molte circostanze ha rilievo determinare l’ordine di integrazione di una variabile. Un caso molto noto riguarda la trasformazione da adottare preliminarmente alla specificazione di un modello ARMA al fine di ottenere la stazionarietà. Tuttavia, come vedremo nel seguito, l’ordine di integrazione possiede un contenuto informativo autonomo sulle proprietà dinamiche della serie. Si potrebbe tentare il ricorso ai tradizionali strumenti di identificazione quali il correlogramma, ma quest’ultimo presenta una serie di limiti atti a sconsigliarne l’impiego. Dal punto di vista teorico la funzione di autocovarianza del RW non tende a zero rapidamente, risultando Cov(yt , yt−τ ) = E[(yt − y0 )(yt−τ − y0 )] = σ 2 |t − τ |; pertanto, quando t è elevato relativamente a τ il processo è altamente autocorrelato. Tuttavia in realizzazioni “brevi” il correlogramma stimato potrebbe erroneamente indurre ad accettare l’ipotesi di stazionarietà. Lo scopo dei paragrafi successivi è appunto quello di analizzare il problema dal punto di vista dell’inferenza parametrica introducendo una batteria di test per la verifica delle ipotesi concernenti l’ordine di integrazione di una serie. 2 Il processo è denominato Random Walk with Drift; si noti che se yt è espresso in logaritmi il drift rappresenta il tasso medio di crescita. 74 5.3 Il test di Dickey e Fuller Fuller (1976, p. 367) ha studiato le proprietà dello stimatore (1) sotto l’ipotesi φ = 1, vale a dire quando il meccanismo generatore dei dati è un RW. Un primo risultato riguarda la proprietà di superconsistenza dello stimatore: nell’ipotesi che y0 = 0 e εt ∼ N ID(0, σ 2 ) φ̂ − 1 = Op (T −1 ) il che significa che quando il valore vero è φ = 1, la stima converge in probabilità a tale valore più rapidamente che nel caso stazionario. Il risultato è dovuto al fatto che al crescere di T il denominatore cresce, relativamente al numeratore, ad un ritmo superiore rispetto al caso stazionario. Malgrado φ̂ sia (super)consistente, non gode tuttavia della proprietà di correttezza asintotica e la sua distribuzione non è normale, ma asimmetrica a sinistra: questo implica che la stima di φ è distorta verso il basso e che se ci fidassimo ciecamente delle stime dei minimi quadrati saremo indotti a rifiutare l’ipotesi di una radice unitaria più spesso del dovuto. La distribuzione di φ̂ non è standard; la tavola 8.5.1 del libro di Fuller (p. 371) fornisce i percentili della funzione di ripartizione della v.c T (φ̂−1) ottenuti attraverso la simulazione Monte-Carlo sotto l’ipotesi φ = 1 per le dimensioni campionarie T = 25, 50, 100, 250, 500 e ∞. L’ipotesi nulla può essere testata facendo ricorso alla statistica T φ̂ − 1 X 2 τ̂ = yt−1 s t=2 ! 21 , con s2 pari alla somma dei quadrati dei residui, che sotto H0 non è più distribuita come una t di Student. La distribuzione è riportata nella tavola 8.5.2, p. 373 del libro di Fuller. Un’altra rilevante differenza dal caso stazionario, che abbiamo avuto modo di rilevare nel paragrafo precedente, è relativa alla circostanza che, sotto H0 : φ = 1, la distribuzione non è invariante rispetto alla presenza di un termine costante: in questo caso il modello di riferimento è yt = µ + φµ yt−1 + εt t = 1, 2, . . . , T e le tavole sopra citate riportano i percentili delle distribuzioni empiriche di T (φˆµ −1) e della statistica τˆµ = (φ̂µ − 1)/se(φ̂µ ). Dickey e Fuller (DF) tabulano i valori di τˆµ nell’ipotesi che il processo generatore dei dati abbia, oltre a φµ = 1, µ = 0. Pertanto, il solo fatto che il modello stimato contenga un termine costante ha effetto sulla distribuzione di τ̂µ anche quando µ = 0. 75 Tuttavia se il processo generatore ha un termine ha effettivamente µ 6= 0, ed il modello stimato include un termine costante, si dimostra che τ̂µ −→d N (0, 1). Tale apparente anomalia si spiega, euristicamente, col fatto che il processo in questione è asintoticamente dominato dal trend deterministico (dovuto all’accumulazione del termine costante). Se si rigetta H0 allora yt è un processo stazionario con media che può anche non risultare significativa in base al canonico test t (poiché vale la tradizionale teoria asintotica). Quando invece è accettata l’ipotesi di radice unitaria diventa rilevante accertarsi se il drift assume un valore significativamente diverso da zero. Ora, la distribuzione asintotica del t test associato al parametro µ sotto l’ipotesi nulla (φµ = 1), che indichiamo con τ̂αµ , non è normale, sebbene sia ancora simmetrica. Un test bidirezionale dell’ipotesi µ = 0 può essere basato sulla distribuzione empirica tabulata da Dickey e Fuller (1981). Qualora risulti che µ = 6 0 allora la distribuzione di τ̂µ tende asintoticamente ad una normale standard, per cui la zona di accettazione sarà più ridotta rispetto alla distribuzione DF. Se invece il test τ̂µ non è significativo si prende come modello generatore ∆yt = εt . Infine potremmo essere interessati a testare la presenza di una radice unitaria nel modello t = 1, 2, . . . , T yt = µ + βt + φτ yt−1 + εt (5.3) La terza parte della tavola di DF presenta i percentili della distribuzione della statistica test associata a yt−1 , τ̂τ , simulata per φτ = 1 e β = 0: in questo caso la distribuzione di τ̂τ cessa di dipendere da µ, ma dipende da β, e se β 6= 0 torna ad essere asintoticamente normale. Come nel caso precedente, se la presenza di una radice unitaria è accettata, la distribuzione del test t sui coefficienti µ e β non è standard (ed è tabulata da Dickey e Fuller, cfr. τ̂ατ e τ̂βτ ). Allora, tenuto fermo che φ = 1, se risulta significativo il test τ̂βτ , la statistica τ̂τ associata a yt−1 nel modello di partenza ha distribuzione asintotica normale e pertanto si farà riferimento alle tavole ordinarie per decidere se accettare H0 o meno; qualora esso risulti non significativo allora yt ∼ I(1). Al fine di minimizzare il rischio di inferenze non corrette, rischio dovuto alla presenza di parametri di disturbo che sotto determinate condizioni cambiano le proprietà distributive delle statistiche test, viene generalmente suggerita una procedura top down che parte dalla specificazione più generale (3) allo scopo di valutare in primo luogo l’impatto di β e poi quello di µ sulle inferenze circa la presenza di radici unitarie. Es. 3. Applichiamo il test di DF alla serie trimestrale relativa al tasso si disoccupazione, Italia 1970Q1-1990Q4. ln yt = 0.3077 +0.0020t +0.8165 ln yt−1 (0.1129) (0.0008) (0.0699) Si ottiene τ̂τ = (0.8165 − 1)/0.0699 = −2.62 e τ̂βτ = 2.411. Pertanto si accetta H0 : φ = 1 76 con β = 0. Si noti infine che τ̂ατ = 2.73 è molto prossimo al valore critico al 10%, suggerendo che un RW+drift può essere un valido punto di partenza. In sintesi il test di Dickey e Fuller ha la seguente struttura: Modello yt = φyt−1 + εt yt = µ + φµ yt−1 + εt yt = µ + βt + φτ yt−1 + εt H1 Statistica test H0 τ̂ φ=1 φ<1 φµ = 1 φµ < 1 τ̂µ φτ = 1 φτ < 1 τ̂τ Si noti che i valori delle statistiche test possono essere derivati immediatamente dalle statistiche t relative ai coefficienti di yt−1 nelle regressioni:3 ∆yt = φ∗ yt−1 + εt ∆yt = µ + φ∗µ yt−1 + εt ∆yt = µ + βt + φτ∗ yt−1 + εt in questa parametrizzazione l’ipotesi nulla implica che il coefficiente di regressione di yt−1 è pari a zero e ciò può essere testato ricorrendo ai valori tabulati da Dickey e Fuller (si ha ad es. φ∗ = φ − 1). Es. 4. Per i dati dell’esempio precedente: ∆ ln yt = 0.3077 +0.0020t −0.1835 ln yt−1 (0.1129) (0.0008) (0.0699) e pertanto ττ = −0.1835/0.0699 = −2.62. Per verificare l’ipotesi yt ∼ I(d) per d > 1 si effettua un test DF sulle differenze d-esime; ovviamente l’alternativa è che la serie sia integrata di ordine d − 1. 5.4 Il test ADF I modelli finora considerati sono eccessivamente semplificati; in particolare si è supposto che la v.c. εt sia incorrelata nel tempo e omoschedastica. Ci si è chiesti allora come modificare le inferenze sulle radici unitarie in presenza di autocorrelazione ed eteroschedasticità. Phillips e Perron (1988) propongono di operare opportune modifiche non parametriche alle statistiche test considerate precedentemente al fine di non alterare la loro distribuzione asintotica. La via alternativa proposta da Said e Dickey (1984) si fonda sull’idea di approssimare un processo lineare mediante un processo autoregressivo di ordine adeguato. 3 E’ sufficiente sottrarre yt−1 da ambo i membri. 77 Supponiamo allora che yt ∼ AR(p) e proponiamoci di testare la presenza di una radice unitaria nel polinomio autoregressivo. Ciò può essere effettuato notando che è sempre possibile riscrivere φ(L) = 1 − φ1 L − . . . − φp Lp come φ(L) = φ(1)L + ∆φ† (L) † dove φ† (L) = 1 − φ†1 L − . . . − φp−1 Lp−1 è il polinomio autoregressivo di ordine p − 1 il cui termine generico è φ†j = − p P i=j+1 φi . Se ad esempio prendiamo in considerazione il modello φ(L)yt = εt , la presenza di una radice unitaria nel polinomio autoregressivo comporta che φ(1) = 0; pertanto è possibile riparametrizzare il modello autoregressivo nella maniera seguente: ∗ ∆yt = φ yt−1 + p−1 X φ†j ∆yt−j + εt , (5.4) j=1 P dove φ∗ = −φ(1) = pj=1 φj − 1. La procedura test consiste nel verificare la presenza di una radice unitaria nella regressione “aumentata” (4) attraverso l’usuale impiego della statistica t associata con yt−1 , la cui distribuzione è asintoticamente indipendente dai parametri φj† e pertanto coincide con quella tabulata da Fuller; il test per la presenza di una radice unitaria prende il nome di Augmented Dickey-Fuller test. Il problema lasciato aperto dall’ADF riguarda ovviamente la determinazione dell’ordine p del polinomio autoregressivo, che appare piuttosto arbitraria. Si suggerisce di partire da un ordine sufficientemente elevato, con riserva di ridurlo se i coefficienti del polinomio autoregressivo φ† (L) non risultino significativi; per questi ultimi vale la tradizionale teoria asintotica: le stime MQO sono consistenti, hanno distribuzione normale e sono efficienti (se l’ordine p è correttamente specificato). Occorre comunque controllare che i residui della (4) risultino sbiancati. Es. 5. Per la serie del PIL italiano a prezzi 1985 (1970:q1,1993:q1) è stato stimato il modello: ∆ ln yt = .8176+0.0004t−0.0689 ln yt−1 +0.5250∆ ln yt−1 +.1159∆ ln yt−2 +−.1805∆ ln yt−3 dal quale risulta che τ̂τ = −2.00 e τ̂βτ = 1.80, portando all’accettazione di H0 con β = 0. 5.5 Trend e RW nelle serie economiche L’ordine di integrazione di una variabile economica ha rilevanti implicazioni di natura interpretativa. La questione è stata originariamente sollevata da Nelson e Plosser (1982), i quali esaminano alcune macrovariabili statunitensi alla luce della contrapposizione di due processi/modelli miranti entrambi ad interpretare l’assenza di stazionarietà nelle serie economiche: 78 1. Processi TS (trend-stationary): processi la cui componente evolutiva di lungo periodo è esprimibile nei termini di una funzione deterministica del tempo e la cui componente di breve periodo è rappresentata da un processo stazionario a media nulla: (5.5) yt = f (t) + ct nel caso di trend lineare yt = α + δt + ct (5.6) dove ct ha una rappresentazione ARMA(p, q) stazionaria e invertibile. Nel lungo periodo il fenomeno ha un’evoluzione deterministica nella cui determinazione il presente ed il passato non hanno alcun ruolo, mentre l’informazione rilevante per la previsione è la posizione nel tempo. 2. Processi DS (difference-stationary): processi per i quali le differenze d-esime della variabile yt ammettono una rappresentazione ARMA stazionaria ed invertibile. La controparte del processo TS (6) è dunque: (1 − L)yt = µ + νt (5.7) α(L)νt = γ(L)εt (5.8) Al fine di stabilire il collegamento tra le due classi di processi, si supponga che ct e νt siano WN e si noti che mediante sostituzione successiva nella (7) si ottiene: yt = y0 + µt + t−1 X εt−j . j=0 A questo punto è evidente come entrambi i processi possano essere scritti in termini di una funzione lineare del tempo t; tuttavia emergono due importanti differenze: in primo luogo il termine costante (intercetta) dipende nel secondo caso dalla storia del processo (è il valore iniziale), mentre è un parametro fisso nel primo; in secondo luogo le deviazioni dalla componente lineare sono stazionarie per il processo TS ma non lo sono per quello DS, la cui varianza aumenta indefinitamente al crescere di t. Da ciò consegue che mentre le previsioni dal modello TS non sono influenzate, nel lungo periodo, dagli shock casuali provenienti da εt , quelle del modello DS conserveranno l’influenza dei fatti storici intervenuti; inoltre la varianza dell’errore di previsione cresce senza limiti. Al fine di discriminare tra i due tipi di processo si noti che entrambi sono sono casi particolari di φ(L)yt = µ + βt + εt ; ovvero il processo è DS se Pp j=1 φj = 1 e β = 0. 79 Adottando quindi la reparametrizzazione del paragrafo precedente, in particolare: ∆yt = µ + βt + φ∗τ yt−1 + p−1 X φ†j ∆yt−j + εt , j=1 φ∗τ si effettua un test ADF dell’ipotesi = 0 e β = 0. Nel caso di accettazione dell’ipotesi nulla si concluderà che la serie appartiene alla categoria DS. Nelson e Plosser applicarono questo test ad insieme di serie economiche statunitensi, concludendo che, ad eccezione del tasso di disoccupazione, la totalità delle serie risulta DS. Es. 6. Per la serie del PNL Statunitense dal 1910 al 1970 risulta: ∆ ln yt = 0.8035 + 0.0056t − 0.1734 ln yt−1 + 0.4250∆ ln yt−1 dal quale τ̂τ = −2.93 e τ̂βτ = 3.01, portando all’accettazione dell’ipotesi nulla H0 : φ∗ = 1, con β = 0. Questi risultati mettevano in discussione la maniera tradizionale di rappresentare la non stazionarietà, consistente nel pensare la serie nei termini della somma di due componenti ortogonali, ciclo e trend, quest’ultimo rappresentato da una funzione del tempo (una funzione lineare o quadratica, una logistica). La conseguenza più rilevante, dal punto di vista interpretativo, è che viene a cadere la tradizionale distinzione tra forze che determinano il comportamento del sistema nel breve periodo e forze che determinano le fluttuazioni cicliche: quando infatti il processo generatore è integrato le innovazioni sono persistenti, influendo sulla dinamica di lungo periodo. Si osservi anche che differenziando un processo TS si ottiene un termine di disturbo che è strettamente non invertibile e che pertanto non ammette una rappresentazione autoregressiva. Viceversa, l’eliminazione di un trend lineare mediante regressione di yt su una costante e il tempo t, a lungo adottata come una trasformazione preliminare all’analisi econometrica strutturale, dà luogo ad un processo stazionario se e solo se yt ∈ TS. Nelson e Kang (1984) hanno approfondito le conseguenze derivanti dal considerare un processo DS alla stregua di uno TS: supponiamo che ad un processo yt ∈ DS venga ugualmente adattato un trend lineare e proponiamoci di considerare cosa avviene alle tradizionali statistiche di regressione. Allora abbiamo che gli scostamenti da un trend lineare sono forniti da yt − α − βt = (y0 − α) − (µ − β)t + t−1 X εt−j . j=0 Il termine di errore è allora fortemente autocorrelato (un RW) e le stime degli errori standard e le statistiche t per la significatività dei parametri sono distorte e portano ad esagerare la significatività dei parametri. Anche il coefficiente di determinazione 80 R2 risulterà elevato, ma la bontà dell’adattamento è soltanto illusoria, poiché si ha un caso di regressione spuria. Inoltre, e ciò assume una rilevanza particolare per l’analisi del ciclo economico, i residui dal trend mostrano periodicità del tutto artificiali4 . La scomposizione di Beveridge-Nelson Beveridge e Nelson (1981) hanno mostrato che un processo DS ammette un’unica scomposizione additiva in una componente tendenziale, generata da un processo random walk, e in una componente ciclica, generata da un processo stazionario. Il risultato prende le mosse dalla definizione del trend come previsione di lungo periodo della serie; il suo rilievo, attestato dal numero dei lavori che nel corso degli anni 80 e 90 hanno fatto riferimento ad esso, deriva dal fatto che il trend è intrinsecamente stocastico, risultando dall’effetto cumulato della propagazione di shock. In tal modo BN forniscono la chiave interpretativa in senso strutturale di un modello ARIMA(p, 1, q). Per l’estensione a processi I(2) e a processi integrati stagionalmente, si veda Proietti (1995). Gli autori partono dalla considerazione della rappresentazione di Wold di un processo DS, ∆yt = m+C(L)εt = m+wt , dove si è posto wt = C(L)εt . La previsione l periodi in avanti, ỹt+l|t = E[yt+l |Yt ], è fornita dall’equazione alle differenze del primo ordine: ỹt+l|t = ỹt+l−1|t + m + w̃t+l|t , la cui soluzione generale è ỹt+l|t = yt + lm + l X w̃t+i|t . i=1 Beveridge e Nelson procedono dunque alla definizione della componente permanente o trend, µt , con approccio predittivo, come il valore che yt assumerebbe se si giacesse sul sentiero di lungo periodo, o, in maniera equivalente, come il valore corrente della serie più “all forecastable future changes in the series beyond the mean rate of drift” (Beveridge and Nelson, 1981, p. 156). Pertanto, µt = lim [ỹt+l|t − lm] = yt + Ut , l→∞ con Ut = lim l→∞ " l X i=1 # w̃t+i|t = ∞ X ∞ X Ci+j εt−j = i=1 j=0 dove C ∗ (L) = [C(L) − C(1)]/∆ = j = 0, 1, . . .. ∞ X j=0 ∞ P j=0 ∞ X k=j+1 Ck εt−j = −C ∗ (L)εt Cj∗ Lj , C(1) = 4 ∞ P j=0 Cj , e Cj∗ = − (5.9) ∞ P k=j+1 Ck , I due autori conducono un’analisi di simulazione dalla quale emerge che la funzione di autocorrelazione dei residui oscilla con un periodo pari approssimativamente a 2T /3 e pertanto i residui mostreranno un ciclo lungo interamente spurio. 81 In conclusione, il trend è generato da un RW con drift costante, m, e varianza delle innovazioni (detta anche “size of the RW”) C(1)2 σ 2 : ∆µt = m + C(1)εt . La componente transitoria è definita in maniera residuale come ψt = yt − µt = −Ut . 5.6 Persistenza Si è già accennato al fatto che le innovazioni casuali hanno effetti persistenti sui processi DS; riprendiamo dunque la rappresentazione di Wold di un processo integrato del primo ordine: ∆yt = m + C(L)εt , dove C(L) = ∞ P j=1 Cj Lj , con C0 = 1 e P Cj2 < ∞. Il coefficiente Ck associato alla potenza k-esima dell’operatore ritardo misura l’effetto su ∆yt di uno shock unitario realizzatosi k periodi precedenti. L’effetto cumulato su yt dopo k periodi di tempo è invece 1 + C1 + · · · + Ck ; facendo dunque tendere k all’infinito si ha che l’impatto di uno shock unitario nel lungo periodo è pari alla somma dei coefficienti della rappresentazione MA, vale a dire C(1). In maniera equivalente ∂E(yt+k |It ) , k→∞ ∂εt C(1) = lim dove It denota l’informazione accumulata fino al tempo t, si interpreta come la revisione nella previsione di lungo periodo della serie dovuta ad uno shock unitario occorso al tempo t. Ciò ha portato Campbell e Mankiw (1987) a suggerire l’adozione di C(1) come misura di persistenza. La stima parametrica si ottiene a partire dalla rappresentazione MA(∞) di un processo ARMA adattato alle differenze prime della serie analizzata. Cochrane (1986) ha invece proposto una misura di persistenza non parametrica denominata rapporto di varianze normalizzato poiché si fonda sulla statistica Vk = 1 Var(yt − yt−k ) , k Var(yt − yt−1 ) k = 1, 2, . . . . Facendo uso dell’identità ∆k = 1−Lk = ∆Sk (L), dove Sk (L) = 1+L+· · ·+Lk−1 , possiamo riscrivere il numeratore come segue: k−1 P Var(yt − yt−k ) = Var( = k−1 P j=0 j=0 ∆yt−j ) Var(∆yt ) + 2 = kγ0 + 2 k−1 P j=1 k−1 P P k−1 i=0 j=i+1 (k − j)γj ; 82 Cov(∆yt−i , ∆yt−j ) Pertanto, Vk = 1 + 2 k−1 X j=1 e per k tendente ad infinito si ottiene: V ! k−j ρj , k = limk→∞ Vk = 1+2 = ∞ P j=1 ρj 2πf (0) ; γ0 il che mostra che tra V e la densità spettrale a frequenza ω = 0 esiste una relazione di diretta proporzionalità. Se il processo generatore dei dati è un RW, ρτ = 0, τ > 0 implica Vk = 1; in maniera equivalente si ha Var(yt −yt−k ) = kσ 2 e Var(yt −yt−1 ) = σ 2 . D’altra parte, se il processo è TS, Var(yt − yt−k ) non cresce linearmente (tende piuttosto a 2Var(yt )), cosicché Vk tende a zero. Questi due casi possono essere assunti a riferimento per giudicare se un processo sia più o meno persistente. In particolare, si parlerà di un processo altemente persistente qualora per esso Vk risulti tendere ad un valore superiore all’unità; al contrario il processo sarà giudicato a bassa persistenza se Vk si attesta su un valore inferiore all’unità. La stima del rapporto di Cochrane a partire da una serie storica può avvenire sostituendo le autocorrelazioni stimate a quelle teoriche, cosı̀ da ottenere: V̂k = 1 + 2 k−1 X j=1 ! k−j ρ̂j . k Si noti che Vk corrisponde alla stima della densità spettrale a frequenza zero utilizzando la finestra di Bartlett. Le due misure di persistenza sono legate dalla relazione: C(1) = s V γ0 σ2 il che parrebbe suggerire una certa sostituibilità tra di esse. In realtà esse risultano difficilmente conciliabili, poiché i modelli ARIMA stimati in base al criterio della parsimonia tendono ad enfatizzare il ruolo delle componenti ad alta frequenza, alle spese delle correlazioni di lungo periodo, le quali sono indicative di un comportamento mean reverting. 5.7 Integrazione stagionale Finora abbiamo considerato la non-stazionarietà legata alla presenza del trend, vale a dire della componente di lungo periodo. E’ noto tuttavia che altre componenti 83 oscillatorie di periodo più breve possono indurre non-stazionarietà: la presenza di una componente stagionale rappresenta il caso più frequente nelle serie storiche economiche. Consideriamo a titolo di esempio il processo t = 1, . . . , T (1 + L)yt = εt , che supponiamo valido per dati semestrali. E’ immediato verificare che yt non è stazionario in quanto E(yt ) = (−1)t y0 e la varianza cresce linearmente al crescere di t; ed infatti rileviamo che il polinomio autoregressivo possiede la radice -1. In questo caso il processo oscilla con periodo pari all’anno e l’ampiezza delle oscillazioni è determinata dalle realizzazioni della v.c. εt . Al fine di effettuare una trattazione adeguata di questa tipologia di processi stocastici si rende necessaria un’estensione del concetto di integrazione (cfr. Engle et al., 1989): Def. Ordine di integrazione Sia yt un processo lineare indeterministico; allora si dirà che yt è un processo integrato di ordine d a frequenza λ, e si scriverà yt ∼ Iλ (d), se lo (pseudo-)spettro di potenza, f (ω), assume la forma: f (ω) ∝ (ω − λ)−2d , in un intorno di λ. Secondo questa definizione il random walk è un processo integrato del primo ordine alla frequenza λ = 0, mentre il processo (1 + L)yt = εt è integrato del primo ordine a frequenza π. Infatti, considerando lo sviluppo della funzione coseno in serie di Taylor del secondo ordine si ha (ω − λ)2 + o[(ω − λ)2 ], cos ω = cos λ − (ω − λ) sin λ − 2 dove o(.) denota un infinitesimo di ordine inferiore all’argomento. Poiché lo spettro di un RW è [4π(1 − cos ω)]−1 σ 2 , si ottiene f (0) ∝ (ω − λ)−2 . Allo stesso modo si verifica che lo spettro del processo yt = (1 + L)−1 εt a frequenza π è proporzionale a (ω − λ)−2 . Consideriamo ora un processo che è osservato s volte l’anno, con s pari (tipicamente s = 4 per dati trimestrali e 12 per dati mensili); tale processo è detto stagionale se possiede uno spettro caratterizzato dalla concentrazione di potenza attorno alle frequenze stagionali λj = 2πj/s, j = 1, . . . , s/2. Esistono diversi modi in cui può scaturire il comportamento stagionale; si supporrà che siano tutti casi particolari del seguente processo generatore: ψ(L)yt = µt + εt , 84 t = 1, . . . , T, (5.10) dove ψ(L) è un polinomio in L di grado p e εt ∼ WN(0, σ 2 ); la stagionalità deterministica è ascrivibile alla componente µt = s X µj Sjt + βt j=1 dove le Sjt sono dummies stagionali che assumono valore 1 nella stagione j e zero altrove; µj sono le medie stagionali. Il processo yt è stazionario se le radici di ψ(L) giacciono tutte al di fuori del cerchio di raggio unitario ed è stagionale se il polinomio possiede radici complesse coniugate a frequenze stagionali; ad esempio il processo generato da yt = ψyt−4 + εt con |ψ| < 1 ha uno spettro che assume il massimo (2π)−1 σε2 /(1 − ψ)2 alle frequenze 0, π/2 e π in corrispondenza delle radici ψ −1/4 , ±iψ −1/4 e −ψ −1/4 rispettivamente. Se ψ → 1 lo spettro è infinito alle stesse frequenze. Quando le radici del polinomio autoregressivo giacciono sul cerchio unitario, è possibile adottare la fattorizzazione: ϕ(L)φ(L)yt = µt + εt (5.11) dove ϕ(L) è un polinomio AR le cui radici sono unitarie in modulo e φ(L) è un polinomio AR stazionario di ordine q. yt è dunque un processo stagionale integrato se il suo spettro è illimitato alle frequenze stagionali λj = 2πj/s. I casi più rilevanti sono elencati di seguito: (i) ϕ(L) = S(L) = 1 + L + · · · + Ls−1 , l’operatore di somma stagionale; (ii) ϕ(L) = ∆s = 1 − Ls , l’operatore differenza stagionale; (iii) ϕ(L) = ∆∆s = (1 − L)(1 − Ls ). Consideriamo il processo (10) nel caso (i) con s = 4 (dati trimestrali): l’operatore di somma stagionale può essere fattorizzato come S(L) = (1 + L)(1 + iL)(1 − iL), da cui si evince che le radici di S(L) sono ±i e -1; in corrispondenza lo spettro di potenza è illimitato alla frequenza fondamentale π/2 e all’armonica π. Pertanto, due cicli si combinano in maniera moltiplicativa e sono responsabili del comportamento stagionale: il primo ha un periodo pari all’anno, mentre il secondo ha un periodo pari a due trimestri 5 . Le proprietà dinamiche di un processo stagionale integrato differiscono notevolmente da quello di uno stazionario: in primo luogo gli shocks sono persistenti e hanno un impatto permanente sul pattern stagionale; inoltre, la varianza cresce man mano che ci allontaniamo dal tempo iniziale. L’operatore differenza stagionale ∆4 = ∆S(L) ha quattro radici unitarie: 1, -1 e la coppia ±i; pertanto è anche integrato di ordine 1 a frequenza 0. Infine, nel caso ϕ(L) = ∆∆4 = ∆2 S(L) il processo è I0 (2), Iπ/2 (1) e Iπ (1). 5 In generale S(L) ha (s − 2)/2 coppie di radici complesse coniugate alle frequenze λj = 2πj/s, j = 1, . . . , s/2 e la radice -1 2π/s. 85 Per tutti questi casi abbiamo bisogno di una notazione più compatta: a tal proposito introduciamo la seguente definizione, anch’essa dovuta a Engle et al. (1989): Def. Integrazione stagionale yt è integrato stagionalmente di ordine d0 e ds , e si denota yt ∼ SI(d0 , ds ), se ∆d0 S(L)ds yt è stazionario e invertibile. Secondo questa definizione il processo ∆∆s yt = µ + θ(L)εt è SI(2, 1) se θ(L) è un polinomio invertibile. 5.8 Test di integrazione stagionale Il problema del’integrazione stagionale è sorto con qualche ritardo rispetto a quello dell’integrazione a frequenza zero, ciò essendo legato alla disponibilità di dati destagionalizzati. Tuttavia è stato recentemente provato che l’utilizzo di dati destagionalizzati, in relazione alla natura del filtro di aggiustamento, può modificare le inferenze sulle radici unitarie a frequenza zero nel senso di dare più supporto all’ipotesi nulla di integrazione. Nella tradizione del test DF, Dickey, Hasza e Fuller (DHF) (1984) hanno suggerito un test basato sulla regressione (1 − Ls )yt = πs yt−s + εt , s = 2, 4, 12 La statistica test per H0 : πs = 0 è la statistica t associata al parametro πs . DHF forniscono i percentili della distribuzione corrispondente, che possono essere utilizzati per testare H0 contro l’alternativa πs < 0 (che implica che il processo considerato è generato da un processo stagionale autoregressivo stazionario del primo ordine. Valori ritardati di ∆s yt possono essere aggiunti al lato destro dell’equazione al fine di sbiancare i residui senza alterare la distribuzione asintotica del test. Come nel caso del test DF può essere presa in considerazione la presenza di componenti deterministiche quali un intercetta, un trend lineare, e dummy stagionali: ovviamente la distribuzione non è invariante rispetto alla componente di volta in volta considerata. Il test DHF non soddisfa appieno in quanto costituisce un test congiunto operato su tutte le frequenze sia stagionali che non (H0 : yt ∼ SI(1, 1) contro H1 : yt ∼ SI(0, 0)). Il test proposto per dati trimestrali6 da Hylleberg, Engle, Granger and Yoo (test HEGY) consente invece di esaminare l’integrazione a ciascuna delle frequenze stagionali e a frequenza zero. Gli autori suppongono che i dati siano generati da un processo autoregressivo di ordine finito ψ(L)yt = µt +εt . Poniamoci dunque il problema di testare l’ipotesi yt ∼ 6 Per l’estensione a dati mensili si veda Beaulieu e Miron (1993). 86 SI(1, 1); ricordando che l’operatore differenza stagionale ammette la fattorizzazione ∆4 = (1 − L)(1 + L)(1 + iL)(1 − iL), si dimostra che, espandendo il polinomio ψ(L) attorno alle radici unitarie 1, -1 e ±i si può riscrivere: φ(L)∆4 yt = π1 Z1,t−1 + π2 Z2,t−1 + π3 Z3,t−2 + π4 Z3,t−1 + µt + εt , (5.12) dove Z1t = S(L)yt , Z2t = −(1 − L + L2 − L3 )yt e Z3t = −(1 − L2 )yt . La trasformazione che genera Z1t rimuove le radici unitarie stagionali; quella che genera Z2t rimuove quelle a frequenza zero e π/2, lasciando un processo integrato sotto H0 soltanto a frequenza π; infine Z3t è un processo integrato a π/2. L’utilità della rappresentazione (11) è legata alla relazione tra le radici unitarie di ψ(L) e i parametri πi (i = 1, 2, 3, 4): in particolare ψ(1) = 0 implica π1 = 0 cosicché la presenza di una radice unitaria a frequenza zero può essere testata contro π1 < 0 (corrispondente alla alternativa stazionaria ψ(1) > 0); analogamente ψ(−1) = 0 (una radice unitaria a frequenza π) implica π2 = 0, mentre l’alternativa di stazionarietà ψ(−1) > 0 implica π2 < 0. Infine, l’ipotesi che la serie sia Iπ/2 (1) comporta che entrambi π3 e π4 siano nulli. L’equazione (11) può essere stimata mediante i minimi quadrati e le statistiche t associate ai parametri πi (i = 1, 2, 3, 4) possono essere impiegate per testare la presenza di radici unitarie alle frequenze corrispondenti. Dal momento che H0 : (π3 = 0) ∩ (π4 = 0) è bidimensionale, HEGY suggeriscono di utilizzare una statistica F per un test congiunto sulla significatività dei due parametri. Alternativamente si può prima condurre un test t bidirezionale dell’ipotesi π4 = 0 e, qualora non risulti significativo, testare π3 = 0 contro l’alternativa π3 < 0. HEGY hanno tabulato la distribuzione dei test t unidirezionali sui parametri π1 , π2 and π3 , per il test t bidirezionale su π4 e per il test F dell’ipotesi (π3 = 0) ∩ (π4 = 0). La distribuzione cambia a seconda del nucleo deterministico presente P nel modello di regressione: i. µt = 0, ii. µt = µ, iii. µt = sj=1 µj Sjt , iv. µt = µ + βt , P v. µt = sj=1 µj Sjt + βt (si vedano le tavole 1a e 1b a pag. 227). Si noti che la distribuzione 0 t0 : π1 è più ”sensibile” alla presenza dei termini di trend ed intercetta piuttosto che alla presenza di dummy stagionali; per le altre statistiche test vale l’opposto. Quando un processo è integrato stagionalmente è possibile misurare la persistenza delle innovazioni sul pattern stagionale mediante opportune estensioni del rapporto di varianze normalizzato di Cochrane, come mostrato in Proietti (1996). 5.9 Critiche all’applicazione dei test per radici unitarie E’ noto che l’accettazione dell’ipotesi nulla non esclude che l’alternativa sia vera. Nel caso in questione la potenza dei test per la presenza di radici unitarie (1 − 87 P (H0 |H1 )) è estremamente bassa riflettendo la circostanza che in campioni finiti è difficile discriminare un processo con una radice unitaria da uno con radice 1−δ, δ > 0 qualsiasi. Le realizzazioni possono essere virtualmente identiche per dimensioni campionarie non elevatissime e pertanto sia i metodi basati sui momenti che sulla funzione di verosimiglianza non riescono a discernere le due situazioni. Cochrane (1991) porta alle estreme conseguenze questo punto mostrando che per ogni processo DS esiste un corrispondente processo stazionario le cui inferenze parametriche (e quindi anche i test per le radici unitarie) sono arbitrariamente vicine a quelle condotte sul processo DS. Perron mostra che cambiamenti di regime e la presenza di punti di rottura nella serie (break e shift strutturali) possono comportare l’accettazione dell’ipotesi DS quando il meccanismo generatore sia TS e riformula la distribuzione delle statistiche test per tener conto della possibilità che la non stazionarietà sia da attribuire alla presenza di suddetti shocks. In altre parole è possibile che una serie sia stazionaria attorno ad un trend “segmentato”, rappresentabile da una spezzata che incorpori le variazioni del livello ed i cambiamenti del tasso di crescita, mentre non lo sia rispetto ad un trend lineare. Schwert (1989) e Pantula (1991) contestano l’idea che governa l’ADF consistente nell’approssimare il processo generatore con un AR di ordine finito e citano l’evidenza delle principali serie macroeconomiche studiate che sarebbero bene adattate da un modello IMA(1,1). Se il parametro MA è vicino all’unità, allora una rappresentazione autoregressiva finita non è adeguata e i due autori dimostrano che l’impiego dei valori critici tabulati da Dickey e Fuller porta erroneamente a rigettare la presenza di una radice unitaria. In effetti si realizza una quasi-cancellazione degli operatori AR e MA, che lascia un processo virtualmente non distinguibile dal WN. 5.10 Le implicazioni econometriche Supponiamo che yt e xt siano entrambe I(1) e che esista una relazione causale unidirezionale x → y; ci proponiamo allora di stimare una relazione econometrica tra l’endogena y e l’esogena x. L’ordine di integrazione delle variabili non è indifferente e concorre a determinare diversi modi di formalizzare la relazione tra le due variabili dal punto di vista econometrico. Partiamo dalla seguente rappresentazione (ADL(r, s) Autoregressive Distributed Lag): α(L)zt = µ + β(L)vt + ξt dove α(L) = 1 − α1 L − . . . − αr Lr e β(L) = β0 + β1 L + . . . + βs Ls ; quest’ultima incorpora un ampio spettro di modelli dinamici (modelli a ritardi distribuiti, modelli autoregressivi, modelli con funzione di trasferimento) a seconda della specificazione 88 dei polinomi α(L) e β(L), delle assunzioni sul termine di errore e delle trasformazioni adottate su yt e xt per ottenere rispettivamente zt e vt . Il modello ADL è stabile se le radici del polinomio α(L) giacciono tutte al di fuori del cerchio di raggio unitario; tale proprietà è importante per l’esistenza di una soluzione di lungo periodo. Nel seguito non ci proponiamo di effettuare una rassegna delle numerose specificazioni esistenti nella letteratura econometrica; ci limiteremo ad esporre alcuni punti fondamentali per l’analisi successiva. 5.10.1 Modello nei livelli In questo caso si ha zt = yt e vt = xt . Consideriamo per semplicità il caso di regressione statica: εt ∼ WN(0, σ 2 ), yt = µ + βxt + εt , in cui si ipotizza una dipendenza istantanea tra le due variabili; la presenza di integrazione può dar luogo al fenomeno che prende il nome di regressione spuria: se yt e xt sono generate da due random walk indipendenti la stima dei MQO di β può risultare significativamente diversa da zero; inoltre si otterrà un coefficiente di determinazione R2 alto in presenza di un DW estremamente basso e prossimo a zero. Pertanto nella stima di relazioni in livelli tra processi integrati si va incontro al rischio che il “buon adattamento” del modello ai dati sia del tutto illusoria. Né vale il ricorso agli usuali test statistici in quanto la correlazione seriale esistente nei residui implica che i livelli di significatività dei test t ed F non risultino più corretti. Il fenomeno ha trovato una spiegazione formale in campo asintotico grazie a Phillips (1985), il quale ha dimostrato che per T → ∞ il test DW tende a zero, R2 all’unità e che le usuali statistiche test divergono, con la conseguenza che la probabilità di rifiutare H0 : β = 0 cresce al crescere di T . Questo risultato è piuttosto sconfortante dal punto di vista della teoria economica, la quale formula delle relazioni tra variabili in livello. Tuttavia non tutto è perduto, come vedremo successivamente. 5.10.2 Modello nelle differenze Considerati i problemi posti dalla regressione statica in livelli si potrebbe pensare di formulare una relazione econometrica tra le variazioni delle variabili; la differenziazione dei dati è una delle trasformazioni che viene solitamente suggerita per aggirare il problema: ∆yt = µ + β∆xt + εt Si noti che se le due variabili sono generati da RW indipendenti, la differenziazione consente di eliminare il problema di regressione spuria, poiché per il test t 89 dell’ipotesi β = 0 vale la tradizionale teoria distributiva. Tuttavia, anche questo approccio non va esente da critiche: innanzitutto non contiene alcuna relazione sui livelli, per cui, se esiste una relazione di equilibrio di lungo periodo y = cx, essa non può essere incorporata nel modello: infatti quando il sistema raggiunge lo stato di equilibrio stazionario, yt = y e e xt = xe , entrambe le differenze prime sono nulle. E’ inoltre possibile che la differenziazione dia luogo ad un termine di errore strettamente non invertibile, da cui consegue che per approssimare la dinamica del sistema è necessario un polinomio autoregressivo di ordine molto elevato, cosa che potrebbe violare il principio di parsimonia. 5.10.3 Regressione tra serie detrendizzate La nonstazionarietà può essere incorporata nel modello introducendo un trend lineare tra i regressori: yt = α + γt + βxt + εt . Tale procedura ha qualche probabilità di successo solo se le variabili sono processi TS; un importante risultato, noto come teorema di Frisch e Waugh, ha infatti stabilito che inserire un trend lineare equivale ad effettuare una regressione statica tra serie detrendizzate mediante l’eliminazione di un trend lineare. Pertanto se le variabili sono generate da RW indipendenti si incorre in una regressione spuria poiché la detrendizzazione ha effetto solo sul nucleo deterministico, lasciando inalterato quello stocastico. Un possibile rimedio alla regressione spuria può consistere nell’inclusione di valori ritardati delle variabili esplicative e della dipendente; nel caso dei RW indipendenti, ad esempio, aggiungendo tra i regressori il valore ritardato di entrambe le variabili, yt = µ + αyt−1 + β0 xt + β1 xt−1 + εt , esiste la combinazione con α = 1, β0 = β1 = 0, tale che εt ∼ I(0). Si può dimostrare che le stime MQO sono consistenti per tutti i parametri e che i test t delle ipotesi β0 = 0 e β1 = 0 hanno distribuzione asintotica normale. Il test F dell’ipotesi congiunta, al pari del test t dell’ipotesi α = 1, ha tuttavia distribuzione limite nonstandard. Tuttavia, almeno in parte la teoria asintotica gaussiana viene recuperata. Possiamo concludere dunque che nel generico modello ADL, se non esiste almeno un punto nello spazio dei parametri tale che εt è stazionario, la stima MQO può dar luogo a risultati spuri nel senso sopra precisato. 90 5.11 Modelli con meccanismo a correzione dell’errore Il modello ADL(r, s) in livelli α(L)yt = µ + β(L)xt + εt con α(L) = 1 − α1 L − . . . − αr Lr , β(L) = β0 + β1 L + . . . + βs Ls e εt ∼ WN(0, σ 2 ), può essere riparametrizzato nella forma “a correzione dell’errore”, il cui significato emergerà tra non molto. Mediante la stessa tecnica adottata precedentemente riscriviamo α(L) = α(1)L+ † ∆α (L), β(L) = β(1)L + ∆β † (L), dove α† (L) e β † (L), sono polinomi di ordine r − 1 e s − 1 rispettivamente (di primo termine 1 e β0 ). Sostituendo e riordinando i termini otteniamo: α† (L)∆yt = µ − α(1)(yt−1 − cxt−1 ) + β † (L)∆xt + εt , (5.13) ovvero: α† (L)∆yt = −α(1)(yt−1 − m − cxt−1 ) + β † (L)∆xt + εt , dove m = µ/α(1) e c = β(1)/α(1) è il moltiplicatore totale che può essere validamente interpretato come il coefficiente di risposta di lungo periodo della relazione di equilibrio (statico) tra y e x; se le variabili sono espresse in logaritmi c rappresenta l’elasticità di lungo periodo di y rispetto a x. In equilibrio yt = y e e xt = xe : sostituendo si ottiene la relazione di equilibrio y = cx; è evidente che yt−1 − cxt−1 misura l’entità del disequilibrio realizzatosi nel periodo precedente; il primo termine a secondo membro si configura pertanto come un “meccanismo di correzione dell’errore” (MCE). La parametrizzazione con MCE presenta alcuni pregi: il primo, di natura interpretativa, consiste nel combinare opportunamente la dinamica di breve periodo con con le proprietà di equilibrio di lungo periodo suggerite dalla teoria economica. Le variazioni di y dipendono non soltanto dalle variazioni di x ma anche dall’entità del disequilibrio al tempo precedente. A titolo esemplificativo consideriamo un modello ADL(1, 1), che ammette la parametrizzazione MCE: ∆yt = µ + (α1 − 1)(yt−1 − cxt−1 ) + β0 ∆xt + εt , con c = (β0 + β1 )/(1 − α1 ); se il modello è stabile (|α1 | < 1) allora il secondo termine al secondo membro gioca un rilevante ruolo stabilizzatore: qualora nel periodo precedente y si fosse rivelata superiore (inferiore) al suo livello di equilibrio statico cx, il tasso di crescita di y risulterebbe diminuito (aumentato), contribuendo a riportare la y verso il sentiero di equilibrio. 91 Es. 7: L’evidenza empirica suggerisce che nel lungo periodo l’elasticità del consumo totale Ct rispetto al reddito Yt è costante. Tuttavia la funzione keynesiana del consumo aggregato postula che l’elasticità sia decrescente; in realtà la teoria economica è in contraddizione con l’evidenza empirica solo apparentemente se si considera che la funzione keynesiana è valevole nel breve periodo. La rappresentazione MCE consente di conciliare la relazione di lungo periodo C = kY ν , dove ν rappresenta l’elasticità di lungo periodo, supposta costante, con la dinamica di breve periodo (nella parametrizzazione con MCE derivata dall’ADL(1, 1) si avrebbe β0 < 1). Un altro rilevante vantaggio di natura più strettamente econometrica sta nel fatto che le variabili originarie {yt , yt−1 , . . . , yt−r , xt , xt−1 , . . . , xt−s } costituiscono un insieme fortemente collineare, mentre la forma con MCE realizza un notevole ridimensionamento della multicollinearità. Se εt ∼ WN(0, σ 2 ) allora, supposto noto c, i coefficienti possono essere stimati in maniera consistente ed efficiente mediante i MQO. 5.12 Cointegrazione Generalmente, combinazioni lineari di variabili integrate di ordine d risultano integrate dello stesso ordine; esistono casi, che sono poi quelli veramente rilevanti dal punto di vista della teoria econometrica, in cui particolari combinazioni lineari presentano un ordine di integrazione inferiore a quello delle serie di partenza. Torniamo al caso più semplice, in cui le variabili sono I(1): può esistere una combinazione lineare che sia stazionaria e diremo che le variabili sono cointegrate perché i movimenti di lungo periodo presenti in ciascuna si eliminano. Ciò viene attribuito al fatto che esiste una relazione di equilibrio statico tra di esse e che la loro dinamica non può discostarsi troppo (esiste in altre parole una tendenza comune). Def. Cointegrazione: I processi yt e xt sono detti cointegrati di ordine d e b, 0 < b ≤ d, e scriveremo ut = [yt xt ]0 ∼ CI(d, b), se: • entrambi i processi sono I(d); • ∃ λ = [λ1 λ2 ]0 tale che λ0 ut ∼ I(d − b). La definizione precedente esclude la possibilità di cointegrazione tra processi che mostrano diversi ordini di integrazione; questo non ci meraviglia perché ad es. un processo I(1) ed uno I(0) hanno proprietà temporali notevolmente difformi atte ad escludere la possibilità di un andamento solidale. Pertanto la verifica statistica della cointegrazione è sempre preceduta dall’analisi dell’integrazione delle serie componenti il sistema. λ prende il nome di vettore di cointegrazione ed è definito unicamente a meno di una normalizzazione (in genere si prenderà [1 − c], c = −λ2 /λ1 ) 92 La cointegrazione è un occorrenza più eccezionale che abituale nelle serie storiche reali; la sua presenza implica ed è implicata dall’esistenza di un trend comune: sia wt ∼ I(1), εxt e εyt due processi I(0) e si supponga che i dati siano generati dal meccanismo seguente: xt = wt + εxt e yt = cwt + εyt ; pertanto yt − cxt = εyt − cεxt ∼ I(0). Riconoscere l’esistenza di cointegrazione ha importanti conseguenze sotto il profilo della modellistica, come emerge da un fondamentale risultato noto come teorema di rappresentazione di Granger (Engle e Granger 1987), il quale afferma, tra l’altro, che se due serie sono cointegrate esse ammettono sempre una rappresentazione con MCE: X X ∆yt = µ1 + ρ1 zt−1 + β1k ∆xt−k + d(L)ε1t α1k ∆yt−k + k ∆xt = µ2 + ρ2 zt−1 + X k α2k ∆yt−k + X β2k ∆xt−k + d(L)ε2t k k dove zt−1 = yt−1 −cxt−1 (si noti che nella combinazione lineare stazionaria può essere presente un termine costante se la relazione di equilibrio non è di stretta proporzionalità: y = m + cx; in questo caso si ha zt−1 = yt−1 − m − cxt−1 ; ovviamente i termini costanti µ1 e µ2 scompaiono in quanto incorporati nella relazione di equilibrio) e |ρ1 | + |ρ2 | 6= 0; l’ultima condizione assicura che il termine con MCE compaia in almeno una delle due relazioni. La precedente proposizione può essere rovesciata nel senso che se ut ammette una rappresentazione con MCE, le variabili sono cointegrate. Si noti che poiché (yt , xt ) ∼ I(1) e (ε1t , ε2t ) ∼ I(0) tutti i termini della rappresentazione sono stazionari e per i relativi coefficienti vale la tradizionale teoria asintotica. Nel paragrafo precedente abbiamo supposto che il vettore di cointegrazione fosse noto (molto spesso viene assunto c = 1, vale a dire che vi sia omogeneità tra le due variabili). In realtà, il fondamentale problema statistico-econometrico posto dalla teoria della cointegrazione è duplice: si tratta di verificare l’esistenza di cointegrazione tra le variabili e di stimare il vettore di cointegrazione. I due punti sono strettamente collegati, per cui partiamo dal secondo; nel seguito ci limiteremo a descrivere la procedura suggerita da Engle e Granger (1987), che si articola in due stadi: 1. Stima del vettore di cointegrazione attraverso regressione statica e verifica dell’ipotesi di cointegrazione 2. Stima dei parametri della forma con MCE assumendo zt nonstocastico. La procedura descritta è improntata alla massima semplicità: entrambi gli stadi richiedono l’impiego dei MQO. L’idea fondamentale è quella di ottenere la stima del vettore di cointegrazione regredendo la variabile il cui coefficiente è normalizzato all’unità sulle rimanenti; nel 93 caso bivariato: yt = m + cxt + εt (5.14) per verificare l’ipotesi di cointegrazione si controlla che i residui ottenuti siano I(0). Come è possibile che un processo generatore estremamente semplice, quale la regressione statica di yt su una costante e xt fornisca informazioni tanto importanti sul comportamento di lungo periodo del sistema considerato? La risposta sta nelle proprietà della regressione statica tra variabili cointegrate: è stato infatti dimostrato (Stock, 1987) che la stima del vettore di cointegrazione è (super)consistente e, pur essendo distorta, la distorsione tende a scomparire, al crescere del periodo campionario, più rapidamente del caso di regressione tra variabili stazionarie, essendo di ordine T −1 . Un’altra interessante proprietà consiste nella possibilità di ignorare il problema della presenza di non contemporaneità tra x e y, per cui non c’è bisogno di introdurre nella (13) valori ritardati della variabile dipendente e/o della indipendente. Questi risultati paiono confortanti; eppure vanno interpretati con qualche circospezione in quanto hanno valenza asintotica; per le realizzazioni finite comunemente disponibili fare affidamento su di essi può anche essere fuorviante: è stato mostrato, mediante simulazione, che in campioni finiti la distorsione nella stima del vettore di cointegrazione può permanere elevata anche per valori grandi di T e che declina ad ritmo meno elevato di quello teorico. La distorsione deriva dall’omissione delle variabili esprimenti la dinamica di breve periodo, il cui peso, trascurabile asintoticamente, può essere rilevantissimo in campioni finiti. Si consideri poi che le inferenze su c non sono quelle usuali poiché, seppure la stima dei parametri della (13) sia consistente, lo stesso non vale per la stima dell’errore standard, precludendo la possibilità di verificare ipotesi di interesse economico sui coefficienti della regressione statica 7 . La verifica dell’ipotesi di cointegrazione si effettua contestualmente alla stima della (13). Per la precisione l’ipotesi sottoposta a verifica è che yt e xt non siano cointegrate, nel qual caso una radice unitaria è presente nei residui della regressione (13), e per testarla Engle e Granger propongono una batteria di test: il primo è il cd. CRDW (Cointegrating Regression Durbin-Watson), rappresentato dal DW calcolato sui residui et della regressione statica; sotto l’ipotesi nulla εt ∼ I(1) la statistica DW è pari a 0, per cui il test è significativo se CRDW risulta significativamente maggiore di zero. I valori critici non sono quelli tabulati da Durbin e Watson, ma sono forniti da Sargan e Bhargava (1983). 7 Va considerato poi che, nel caso bivariato, esistono due vettori di cointegrazione, il primo [1 c]0 ottenuto dalla (13), il secondo [c̃ 1] ottenuto dalla regressione “inversa” xt = m̃ + c̃yt . In campioni 6 1/c̃; tuttavia se esiste cointegrazione si avrà che R2 −→ 1 e, tenuto conto della relazione finiti c = 2 R = cc̃, si ha anche c −→ 1/c̃. 94 Un secondo gruppo di test fa capo alle statistiche DF e ADF per testare la presenza di radici unitarie: se l’ipotesi nulla viene rifiutata si può concludere che yt e xt sono cointegrate. A questo scopo si considera la statistica t per φ∗ = 0 nella regressione: ∆et = φ∗ et−1 + ut ovvero, per tener conto dell’autocorrelazione dei residui si considera ∆et = φ∗ et−1 + X γj ∆et−j + ut . j In entrambe è assente l’intercetta poiché se essa è presente nella regressione di cointegrazione i residui hanno media nulla e l’inclusione di un termine costante ha effetti trascurabili sulle statistiche test. Purtroppo la distribuzione delle statistiche test non è quella tabulata da Dickey e Fuller e faremo riferimento ad essa come distribuzione EG: ad es. per T = 100 il valore critico unidirezionale al livello di significatività del 5% sarebbe pari a −2.89 per la distribuzione DF e −3.17 per la distribuzione EG. In effetti se il vettore di cointegrazione fosse noto a priori non sorgerebbero difficoltà di sorta, poiché i test di radice unitaria su zt seguirebbero la distribuzione di DF. Il problema è invece posto dal fatto che il vettore di cointegrazione è stimato a partire dai dati: i MQO, minimizzando la varianza dei residui, agiranno in modo da far apparire i residui stazionari anche quando non lo sono e il test DF indurrà al rifiuto di H0 troppo spesso. Ovviamente anche per il test EG si ripresenta il problema della dipendenza da parametri di disturbo, per cui la distribuzione varia a seconda che la regressione di cointegrazione (ovvero la regressione ADF sui residui) sia stimata in presenza di un termine costante e/o di trend. L’inclusione di un trend lineare avrebbe senso se si volesse eliminare la dipendenza del test EG dal termine costante m e qualora si desiderasse testare l’ipotesi che le serie non sono cointegrate anche dopo l’estrazione di un trend lineare da ognuna. I valori critici dipendono inoltre dal numero di variabili esogene impiegate nel modello statico. I due autori considerano infine un’altra batteria di test basati sulla stima del modello con MCE e di modelli autoregressivi vettoriali; per essi si segnala che godono di una potenza estremamente più bassa del test EG e pertanto hanno una valenza limitata. Per maggiori dettagli si rimanda comunque ad Engle e Granger (1987) e a Banerjee et al. (1993). Per quanto concerne il secondo stadio EG dimostrano che il fatto di stimare il vettore di cointegrazione non ha conseguenze sulle proprietà distributive delle stime dei coefficienti della forma con MCE: pertanto la stimatore a due stadi del modello con MCE, ottenuto assumendo (m̂, ĉ) stimati tramite la (13) come il valore vero, 95 ha la stessa distribuzione asintotica dello stimatore MV che impiega m, c; inoltre le stime degli errori standard sono consistenti. Es. 8: Questo esempio è tratto da Engle e Granger e riguarda i consumi per beni non durevoli e il reddito disponibile pro capite a prezzi costanti dal 1947Q1 al 1981Q2. Dall’analisi di integrazione scaturisce che le serie sono I(1), mentre la regressione di cointegrazione fornisce: ct = m + 0.23yt con R2 = 0.99, CRDW = 0.465 che risulta significativamente diverso da zero; inoltre il test EG risulta pari a −4.3 ed è significativo all’1% portando al rifiuto dell’ipotesi di assenza di cointegrazione. Il modello con MCE stimato risulta: ∆ct = −0.14zt−1 + 0.068∆yt−1 . Il coefficiente del consumo nella regressione di yt su una costante e ct è pari a 4.3, che coincide col reciproco di 0.23. Anche in questo caso l’ipotesi di non cointegrazione è rifiutata e il termine che incorpora il MCE è significativo. Nelle situazioni di questo tipo nessuna delle due variabili è esogena ed esiste feedback. Riferimenti bibliografici Beaulieu J.J. e Miron J.A. (1993). Seasonal Unit Roots in Aggregate U.S. Data, Journal of Econometrics, 55, 305-328. Banerjee, A., Dolado J., Galbraith J.W. e Henry D.F. (1993). Co-Integration, ErrorCorrection, and the Econometric Analysis of Non-Stationary Data., Oxford University Press. Beveridge, S. and Nelson, C.R. (1981), A New Approach to the Decomposition of Economic Time Series into Permanent and Transitory Components with Particular Attention to the Measurement of the ‘Business Cycle’. Journal of Monetary Economics, 7, 151-174. Campbell, J.Y. e Mankiw, N.S. (1987). Are Output Fluctuations Transitory? Quarterly Journal of Economics, 102, 857-880. Cochrane J. (1988). How Big is the Random Walk Component in GNP? Journal of Political Economy, 96, 893-920. Cochrane J. (1991). A Critique of the Application of Unit Root Tests, Journal of Economic Dynamics and Control, 15, 275-284. Dickey D.A. e Fuller W. A. (1981). Likelihood Ratio Statistics for Autoregressive Time Series with a Unit Root, Econometrica, 49, 1057-1077. Dickey, D.A., D.P. Hasza e W.A. Fuller (1984): “Testing for Unit Roots in Seasonal Time Series.” Journal of the American Statistical Association, Vol. 79, No. 386, pp. 355-67. 96 Engle, R.F., C.W.J. Granger e J.J. Hallman (1989): “Merging Short- and Long-Run Forecasts. An Application of Seasonal Cointegration to Monthly Electricity Sales Forecasting.” Journal of Econometrics, Vol. 40, pp. 45-62. Engle R.F. e Granger C.W.J. (1987). Co-integration and Error Correction: Representation, Estimation and Testing, Econometrica, 55, 251-276. Fuller W. A. (1976). Introduction to Statistical Time Series, New York, Wiley. Hylleberg, S., R.F. Engle, C.W.J. Granger e B.S. Yoo (1990): “Seasonal Integration and Cointegration.” Journal of Econometrics, Vol. 44, pp. 215-38. Nelson C.R. e Kang H. (1984). Pitfalls in the Use of Time as an Explanatory Variable, Journal of Business and Economic Statistics, 2, 73-82. Nelson C.R. e Plosser C.I. (1982). Trends and Random Walks in Macroeconomic Time Series: some Evidence and Implications, Journal of Monetary Economics, 10, 139162. Pantula S.G. (1991). Asymptotic Distribution of the Unit Root Tests when the Process is Nearly Stationary, Journal of Business and Economic Statistics, 9, 63-71. Perron P. (1989). The Great Crash, the Oil Shock and the Unit Root Analysis, Econometrica, 57, 1361-1402. Phillips P.C.B. e Perron P. (1988). Testing for a Unit Root in Time Series Regression, Biometrika, 75, 335-346. Proietti, T. (1995). The Beveridge-Nelson Decomposition. Properties and Extensions. Journal of the Italian Statistical Society, 4, 1, 101-124. Proietti, T. (1996). Persistence of Shocks on Seasonal Processes. Journal Applied Econometrics, 11, 383-398. Said S.E. e Dickey D.A. (1984). Testing for Unit Roots in Autoregressive Moving Average Models of Unknown Order, Biometrika, 71, 599-607. Sargan J.D. e Barghava A. (1983). Testing Residuals from Least Squares Regression for Being Generated by the Gaussian Random Walk, Econometrica, 51, 153-174. Schwert G.W. (1989). Test for Unit Roots: a Monte Carlo Investigation, Journal of Business and Economic Statistics, 7, 147-159. Stock J.H. (1987). Asymptotic Properties of Least Squares Estimators of Cointegrating Vectors, Econometrica, 55, 1035-1056. Opere generali: 97 Banerjee, A., Dolado J., Galbraith J.W. e Henry D.F. (1993). Co-Integration, ErrorCorrection, and the Econometric Analysis of Non-Stationary Data., Oxford University Press. Cappuccio, N. e Orsi R. (1991). Econometria, Il Mulino, Bologna. Engle R.F. e Granger C.W.J. (a cura di) (1991). Long Run Economic Relationships Readings on Cointegration, Oxford University Press. J.D. Hamilton (1994). Time Series Analysis, Princeton University Press, New Jersey. Hatanaka M. (1996). Time-Series-Based Econometrics. Unit Roots and Cointegration, Oxford University Press. Johansen S. (1995). Likelihood-based inference in cointegrated vector autoregressive models, Oxford University Press. 98 Capitolo 6 I Modelli Strutturali per l’Analisi delle Serie Temporali 6.1 L’approccio modellistico e la classe dei modelli strutturali La classe dei modelli strutturali racchiude un insieme, più vasto di quanto si possa ritenere a prima vista, di approcci il cui tratto comune va ritrovato nella specificazione diretta del modello di scomposizione della serie temporale in termini di componenti non osservabili, identificabili con trend, ciclo, stagionalità etc.; in ciò esso raccoglie l’eredità dell’analisi classica. Nel seguito ci limiteremo a descrivere le proposte più importanti, dando particolare rilievo ai modelli strutturali di Harvey e dei suoi collaboratori, che tra l’altro forniscono un metodo di destagionalizzazione competitivo con X-12-ARIMA e TRAMO-SEATS. L’approccio ha molti punti in comune con quello AMB (Arima Model Based) di Maravall, che trova la sua implementazione nel software TRAMO-SEATS, correntemente utilizzato dall’Istituto Nazionale di Statistica italiano ai fini della destagionalizzazione delle serie temporali; in particolare, entrambi prendono le mosse dalla rappresentazione a componenti latenti di tipo ARIMA, detta UCARIMA, in cui tutte le componenti e, per aggregazione, la serie stessa, yt , hanno una rappresentazione ARIMA: K K X X θk (L) ξkt yt = (6.1) ykt = k=0 k=0 ∆k (L)φk (L) con ξkt ∼ NID(0, σk2 ). Le assunzioni comuni ai due approcci sono le seguenti: • I polinomi φk (L), θk (L) e ∆k (L) non presentano radici comuni; lo stesso vale per φk (L) e φh (L), θk (L) e θh (L), ∆k (L) e ∆h (L), ∀h, k = 0, . . . , K. 99 • I polinomi φk (L) sono stazionari e di ordine pk . • I polinomi θk (L) sono invertibili (anche se non strettamente invertibili) e di ordine qk . • Le radici dei polinomi ∆k (L) giacciono tutte sul cerchio di raggio unitario. • le innovazioni ξkt sono mutualmente incorrelate. Tali assunzioni implicano che yt ammette una rappresentazione lineare di tipo ARIMA (forma ridotta o forma osservabile): yt = θ(L) ξt ∆(L)φ(L) con ξt ∼ NID(0, σ 2 ). L’invertibilità della rappresentazione per yt è assicurata dall’assunzione che i polinomi MA θk (L) non possiedono radici comuni. Dal momento che esistono infiniti modi di scomporre yt secondo la (6.1), si richiede l’introduzione di un insieme di restrizioni nella rappresentazione delle componenti. Nel caso dei modelli strutturali si fa riferimento ad Hotta (1983), che ha fornito una condizione necessaria e sufficiente per l’identificabilità della scomposizione: per almeno K componenti si richiede che pk + dk ≥ qk + 1. L’approccio strutturale, pertanto, identifica le componenti restringendo l’ordine dei polinomi MA. L’approccio AMB assegna il noise ad una sola componente e rende le altre non invertibili (Maravall e Planas,1994), imponendo le restrizioni: • pk + dk ≥ qk per almeno K componenti • per le medesime componenti il minimo della densità spettrale è zero (non invertibilità a determinate frequenze). Le componenti per le quali vale la seconda condizione sono dette canoniche; in sintesi, si richiede che segnali quali il trend, la stagionalità ed il ciclo, non contengano rumore separabile. Per l’approccio AMB il punto di partenza è rappresentato dalla forma ridotta del modello, che è vincolante per la caratterizzazione dinamica delle componenti: si procede all’identificazione e stima del modello ARIMA per yt e si ottiene una rappresentazione delle componenti consistente con la forma ridotta. Nell’approccio strutturale, invece, quest’ultima non gioca alcun ruolo fondamentale nella specificazione del modello di scomposizione, che è definito a priori dal ricercatore. La linearità della rappresentazione (6.1) implica che le scomposizioni consentite sono l’additiva e la log-additiva. Il modello default è costituito dal cosidetto Modello Strutturale di Base (MSB) yt = µt + γt + t , t = 1, . . . , T, 100 (6.2) dove µt è il trend, γt è la componente stagionale e t ∼ WN(0, σ 2 ). Maravall (1987) ha mostrato la prossimità col modello Airline, il quale ultimo costituisce l’anello di congiunzione ed il riferimento comune delle varie tecniche di destagionalizzazione. La specificazione delle componenti è discussa nelle sezioni successive. Il modello può essere esteso al fine di comprendere effetti di calendario, cicli stocastici stazionari e un nucleo di regressione, che consente l’inclusione di variabili esogene, valori ritardati della variabile indipendente e variabili di intervento. 6.2 Trend Un trend lineare deterministico, µt = α + βt, può essere rappresentato in maniera ricorsiva come segue: µt = µt−1 + βt−1 , βt = βt−1 , con µ0 = α e β0 = β. Al fine di ottenere un trend stocastico possiamo introdurre degli shock casuali nelle equazioni che definiscono µt e βt . Questa è la genesi del modello lineare locale: µt = µt−1 + βt−1 + ηt βt = βt−1 + ζt (6.3) dove ηt e ζt sono due WN incorrelati con media nulla e varianza rispettivamente ση 2 e σζ 2 . Qualora σζ 2 = 0 il modello è una passeggiata aleatoria con drift costante: µt = µt−1 + β + ηt ; quando ση 2 = 0 si ha il cosidetto modello IRW (Integrated Random Walk) privilegiato da Young (1990) e Kitagawa e Gersch (1984), in quanto fornisce un trend caratterizzato da un grado di lisciamento più elevato. Il filtro di Hodrick & Prescott si ottiene nel caso particolare in cui ση 2 = 0 e σζ 2 = qσ 2 , per q = 1/1600. Infine, quando entrambe le varianze sono nulle, µt è un processo lineare deterministico. Nel modello con damped slope la seconda equazione è sostituita dal processo AR(1) stazionario: βt = ρβt−1 + ζt , con ρ ∈ (0, 1) Supponiamo che la serie yt abbia una rappresentazione trend + irregolare: yt = µt + t , t ∼ WN(0, σ 2 ) dove µt è un trend lineare locale (6.3) e si assume che t sia incorrelato con ηt e ζt . E’ immediato verificare che ∆2 yt = ∆ηt + ζt−1 + ∆2 t e che pertanto E(∆2 yt ) = 0. La funzione di autocovarianza, γ(k) = E(∆2 yt ∆2 yt−k ), è tale che γ(0) = 2ση 2 +σζ 2 +6σ 2 , γ(1) = −ση 2 −4σ 2 , γ(2) = σ 2 e γ(k) = 0, k > 2, che implica che yt ∼ ARIM A(0, 2, 2). La struttura del modello implica forti restrizioni nello spazio parametrico dei parametri MA: in particolare, la FAC a ritardo 1 è compresa tra -2/3 e 0 e quella a ritardo 2 tra 0 e 1/6. Infine, la funzione di previsione realizza uno smorzamento esponenziale del tipo di quello tipico della procedura di Holt & Winters. 101 6.3 La modellazione del ciclo economico Un ciclo deterministico, ψt = A1 cos λc t + A2 sin λc t, dove λc ∈ [0, π] rappresenta la frequenza angolare e (A21 + A22 )1/2 l’ampiezza dell’oscillazione, può essere scritto in forma ricorsiva: # " #" " # ψt cos λc sin λc ψt−1 = ∗ ψt∗ − sin λc cos λc ψt−1 con [ψ0 , ψ0∗ ] = [A1 , A2 ]. La versione stocastica del modello si ottiene introducendo un fattore di smorzamento, ρ, che assume valori nell’intervallo [0,1], e due disturbi stocastici mutualmente incorrelati e a varianza comune, κt , κ∗t : " ψt ψt∗ # =ρ " cos λc sin λc − sin λc cos λc #" ψt−1 ∗ ψt−1 # + " κt κ∗t # con κt ∼ WN(0, σκ2 ) e κ∗t ∼ WN(0, σκ2 ). La forma ridotta è un modello ARMA(2,1) con radici del polinomio AR complesse, di modulo ρ−1 e fase λc : (1 − 2ρ cos λc L + ρ2 L2 )ψt = (1 − ρ cos λc L)κt + ρ sin λc Lκ∗t , ad eccezione del caso λc → 0, π, in cui il modello si riduce ad un AR(1) di parametro rispettivamente positivo e negativo. Una rappresentazione equivalente si ottiene facendo variare nel tempo i coefficienti A1 e A2 che definiscono l’ampiezza dell’oscillazione: ψt = [cos λt, sin λt]At , At = [A1t , A2t ]0 A1,t = ρA1,t−1 + κ̃1t A2,t = ρA2,t−1 + κ̃2t dove κ̃1t ∼ WN(0, σκ2 ) e κ̃2t ∼ WN(0, σκ2 ). La possibilità di modellare il ciclo appare appetibile per le serie temporali economiche; tuttavia è sperimentato che la destagionalizzazione è relativamente insensibile all’introduzione del ciclo. In effetti, se il periodo del ciclo è sufficientemente elevato (ad es. è superiore a tre anni) il filtro di estrazione della componente stagionale ha una funzione di trasferimento pressoché nulla in corrispondenza delle frequenze cicliche e l’estrazione del ciclo interagisce essenzialmente con la componente tendenziale, che risulta più lisciata: generalmente quelle che vengono descritte come fluttuazioni cicliche vengono assorbite dalla componente βt . 102 6.4 Componente stagionale La componente stagionale, di periodo pari a s, ha due rappresentazioni fondamentali: dummy e trigonometrica. La prima è tale che S(L)γt = ωt , dove ωt ∼ WN(0, σω 2 ) e S(L) = 1 + L + · · · + Ls−1 , mentre nella seconda l’effetto stagionale risulta dalla combinazione di s/2 cicli stocastici integrati del primo ordine definiti alle frequenze stagionali λj = 2πj/s, j = 1, . . . , s/2: γt = s/2 X γit (6.4) j=1 dove " γjt ∗ γjt # = " cos λj sin λj − sin λj cos λj #" γj,t−1 ∗ γj,t−1 (1 + L)γ 2s ,t = ω 2s ,t # + " ωj,t ∗ ωjt # , (6.5) (6.6) ∗ ωjt e ωjt costituiscono un set di WN mutualmente incorrelati con varianza comune 2 σω . Si mostra che S(L)γt ha rappresentazione MA(s − 2). La formulazione trigonometrica è preferibile in termini di lisciamento, poiché dà luogo ad una componente che evolve meno rapidamente della corrispondente formulazione dummy. La restrizione di eguaglianza delle varianze degli shock è di sovraidentificazione e può essere rimossa (Bruce e Jurke (1996), Bell (1992)). L’evidenza mostra che rimuovendo tale restrizione migliora in maniera significativa l’adattamento del modello, soprattutto nel caso mensile, quando ad es. la frequenza fondamentale ha un ruolo più importante delle armoniche. Tuttavia, ciò richiede la stima di s/2 parametri in luogo di uno, con corrispondente allungamento del tempo computazionale e problemi di convergenza. 6.5 Il trattamento statistico del modello e la stima delle componenti La rappresentazione del modello nello spazio degli stati apre la via al trattamento statistico del modesimo. Ad essa si applica il filtro di Kalman (FK) che costituisce l’algoritmo fondamentale per il calcolare della funzione di verosimiglianza mediante la tecnica di scomposizione in errori di previsione uniperiodali. La verosimiglianza è massimizzata numericamente ricorrendo all’algoritmo di Broyden-FletcherGoldfarb-Shanno. Stime iniziali possono essere ottenute mediante l’algoritmo EM. 103 6.5.1 La rappresentazione nello spazio degli stati Sia y t una serie temporale multivariata che contiene N elementi; essa è collegata ad un vettore m × 1 di componenti latenti attraverso l’equazione di misurazione: t = 1, 2, . . . , T, y t = Z t αt + dt + t , (6.7) dove Z t è una matrice N × m, dt è un vettore N × 1 di grandezze deterministiche (esogene rispetto al sistema), αt è il vettore di stato, e t ∼ NID(0, H t ). Il modello dinamico che genera gli stati è fornito dalla equazione di transizione: αt = T t αt−1 + ct + Rt η t , t = 1, 2, . . . , T, (6.8) dove T t è la matrice di transizione (m × m), ct è un vettore m × 1 di grandezze deterministiche, η t ∼ NID(0, Qt ), un vettore g × 1 di disturbi stocastici, e Rt è una matrice m × g. La specificazione del modello è completata dall’assunzione che il vettore di stato iniziale abbia media a0 = E(α0 ) e matrice di covarianza P 0 = Cov(α0 ) e che α0 , t e η t siano mutualmente incorrelate per ogni t. Le matrici Z t , dt , H t , T t , ct , Rt , Qt , dette matrici del sistema, hanno natura non stocastica e per i modelli strutturali da noi considerati sono invarianti nel tempo (Z t = Z, etc.). Es. Modello ARIMA(p, d, q) Consideriamo il modello φ(L)∆d yt = µ + θ(L)ξt , ξt ∼ WN(0, σ 2 ) e sia m = max(p, q+1). Denotando φ = [φ1 , φ2 , . . . , φm ]0 and θ = [1, θ1 , θ2 , . . . , θm−1 ]0 ; il modello ARMA(p, q) per ∆d yt può essere rappresentato nello spazio degli stati definendo un vettore m × 1 che segue la seguente equazione di transizione: αt = T αt−1 + c + Rξt , dove R = θ, T = φ " I m−1 00 # , c = [µ, 0, . . . , 0]0 , I m−1 è la matrice identità di ordine (m − 1) e 0 è un vettore (m − 1) × 1 di 0. L’equazione di misurazione seleziona il primo elemento di αt : pertanto, definendo Z = [1, 00 ], si ha ∆d yt = Zαt . Infine, a0 = (I m − T )−1 c e P 0 soddisfa l’equazione P 0 = T P 0 T 0 + σ 2 Rt R0t . 104 6.5.2 Il filtro di Kalman Il filtro di Kalman è un algoritmo ricorsivo che calcola il valore atteso del vettore di stato al tempo t, αt , condizionato all’informazione disponibile al tempo t − 1, Y t−1 = {y 1 , y 2 , . . . , y t−1 }, che denoteremo at|t−1 = E(αt |Y t−1 ), assieme al suo errore quadratico medio di stima, P t|t−1 = E[(αt − at|t−1 )(αt − at|t−1 )0 |Y t−1 ]. Tale valore atteso rappresenta lo stimatore ottimale di αt sulla base di Y t−1 , nel senso che minimizza l’errore quadratico medio di stima nella classe degli stimatori lineari in y t . Sotto l’ipotesi di normalità, lo stimatore è ottimale tout court. Il filtro, inoltre, aggiorna la stima di αt quando l’informazione corrente, y t , si aggiunge al set informativo e consente il calcolo della funzione di verosimiglianza mediante la scomposizione in errori di previsione. Ai fini della derivazione del filtro supponiamo di trovarci al tempo t − 1 e di conoscere, sulla base del set informativo Y t−1 , lo stimatore ottimale di αt−1 condizionato a Y t−1 , che denotiamo at−1 = E(αt−1 |Y t−1 ), e la matrice di covarianza dell’errore di stima: P t−1 = E[(αt−1 − at−1 )(αt−1 − at−1 )0 |Y t−1 ]. Proponiamoci di prevedere un periodo in avanti il vettore di stato e di calcolare la matrice di covarianza del corrispondente errore di previsione; dall’equazione di transizione: at|t−1 = T t at−1 + ct (6.9) P t|t−1 = T t P t−1 T 0t + Rt Qt R0t Le equazioni (6.9) sono denominate equazioni di predizione. Consideriamo ora il problema di prevedere y t un periodo in avanti: dalla (6.7) si ottiene: ŷ t|t−1 = E(y t |Y t−1 ) = Z t at|t−1 + dt e, denotando con ν t l’errore di previsione, ν t = y t − Z t at|t−1 − dt , si ha E(ν t |Y t−1 ) = 0, F t = Cov(ν t ) = E(ν t ν 0t |Y t−1 ) = Z t P t|t−1 Z t0 + H t Supponiamo ora di trovarci al tempo t e di aver acquisito la più recente osservazione y t . E’ a questo punto possibile aggiornare la stima del vettore di stato utilizzando il set informativo Y t . Ciò dà luogo alle equazioni di aggiornamento: at = at|t−1 + P t|t−1 Z t0 F −1 t νt P t = P t|t−1 − P t|t−1 Z 0t F −1 t Z t P t|t−1 (6.10) Derivazione delle equazioni di aggiornamento Si parte dalla considerazione della distribuzione congiunta y t e αt condizionata a Y t−1 : yt αt ! " Z t P t|t−1 Z t0 + H t Z t at|t−1 + dt , Y t−1 , ∼ N P t|t−1 Z 0t T t at−1 + ct 105 Z t P t|t−1 P t|t−1 !# Al fine di ottenere il risultato si sfrutta un noto teorema per il quale la distribuzione di αt |Y t−1 , condizionata a y t ha valore atteso: E(αt |Y t ) = E(αt |Y t−1 ) + Cov(αt , y t |Y t−1 )[Cov(y t |Y t−1 )]−1 (y t − E(yt |Y t−1 )) che produce at = at|t−1 + P t|t−1 Z t0 F −1 t νt Inoltre, Cov(αt |Y t ) = Cov(αt |Y t−1 ) − Cov(αt , y t |Y t−1 )[Cov(y t |Y t−1 )]−1 Cov(y t , αt |Y t−1 ) che fornisce la seconda equazione di aggiornamento nella (6.10). Il filtro di Kalman può anche essere scritto compattando la fase di aggiornamento del filtro: dati i valori iniziali a1|0 , P 1|0 , νt = y t − Z t at − dt , Ft = Z t P t|t−1 Z 0t + H t K t = T t+1 P t|t−1 Z t0 F −1 t , at+1|t = T t+1 at|t−1 + K t ν t + ct , P t+1|t = T t+1 (P t|t−1 − P t|t−1 Z 0t F t−1 Z t P t|t−1 )T 0t+1 + Rt+1 Qt+1 6.5.3 Verosimiglianza e inizializzazione del filtro Le matrici del sistema dipendono da un insieme di parametri Ψ. La funzione di densità congiunta delle osservazioni, L(y 1 , . . . , y T ; Ψ) = T Y t=1 dove Pertanto f (y t |Y t−1 ) 1 f (y t |Y t−1 ) = (2π)N/2 |F t |−1/2 exp − ν t F −1 t νt 2 T T X X 1 ln L = − N T ln 2π + ln |F t | + ν t F −1 t νt 2 t=1 t=1 ! La massimizzazione rispetto ai parametri incogniti può essere effettuata mediante un algoritmo numerico. Tale espressione fornisce la verosimiglianza solo se a0 e P 0 sono noti, come avviene nel caso in cui αt è stazionario. Quando αt contiene d elementi non stazionari, si può mostrare che le prime d osservazioni possono essere utilizzate per ottenere i momenti della distribuzione di αd e pertanto, considerando dette osservazioni come fisse, T T X X 1 ν t F −1 N (T − d) ln 2π + ln |F t | + ln L = − t νt 2 t=d+1 t=d+1 106 Ai fini computazionali, una soluzione approssimata consiste nell’inizializzare il filtro mediante un diffuse prior: supponendo senza perdita di generalità che i primi m1 elementi siano non stazionari, si pone a0 = " 0m1 a20 # , " 0 κI m1 0 P m2 # dove κ è un numero sufficientemente “elevato”. DeJong (1991) ha introdotto un filtro di Kalman modificato che supera elegantemente il problema dell’inizializzazione e che consente di calcolare la funzione di verosimiglianza esatta. 6.5.4 Smoothing L’operazione che prende il nome di smoothing mira ad ottenere stime delle componenti condizionate all’intero set di osservazioni, Y T . Il tradizionale algoritmo di smoothing ad intervallo fisso (dal momento che opera su un set di dati fisso) è quello di Anderson e Moore (1979), ed è fornito dalle seguenti formule retro-ricorsive, inizializzate con aT |T = aT e P T |T = P T : at|T = at + P t∗ (at+1|T − T t+1 at ) 0 P t|T = P t + P ∗t (P t+1|T − P t+1|t )P t∗ dove at|T = E(αt |Y T ), P t|T = E[(αt − at|T )(αt − at|T )0 |Y T ] e P ∗t = P t T 0t+1 P −1 t+1|t . Si noti che l’algoritmo deve essere preceduto da un’applicazione del filtro di Kalman, passo nel quale le stime aggiornate e le matrici P t+1|t devono essere tenute in memoria. Inoltre, si richiede l’inversione di queste ultime. Ciò è inefficiente dal punto di vista computazionale e in letteratura sono disponibili versioni più efficienti per le quali rimandiamo a DeJong (1989) e Koopman (1993). Ai fini della destagionalizzazione, la serie aggiustata è ottenuta per sottrazione dalla serie delle stime smoothed della componente stagionale: at = yt − γ̃t|T . 6.5.5 Diagnostica Le innovazioni (standardizzate) del FK sono utilizzate in sede di verifica del modello e per la valutazione della bontà dell’adattamento. A tal fine vengono impiegati gli stessi strumenti diagnostici che sono utilizzati dalla modellistica ARIMA, il correlogramma, il periodogramma, il test di Ljung-Box, etc. 107 6.6 Componenti di calendario Dagum & Quenneville (1995) e Durbin & Quenneville (1997) considerano la seguente estensione del modello strutturale di base: yt = µt + γt + TDt + t , dove TDt = 6 X i=1 (6.11) δit (Dit − D7t ) Dit è il numero dei giorni di tipo i nel mese e gli effetti sono variabili nel tempo secondo un rw: δit = δi,t−1 + νit , νt ∼ WN(0, σν2 ) tale che νit , i = 1, . . . , 6 sono mutualmente incorrelati. Poiché può apparire eccessivo che gli effetti abbiano una variazione di periodo in periodo, si può semplificare il modello ponendo: δit = δi,t−s + νt . L’evidenza empirica mostra che la formulazione deterministica è generalmente appropriata. 6.7 Altre specificazioni della componente stagionale La destagionalizzazione cambia al variare della specificazione della componente stagionale. Il modello di Harrison e Stevens (1971) ha la rappresentazione γt = x0t χt , dove xt è un vettore s × 1 di selezione con 1 nella posizione corrispondente alla j-esima stagione e 0 altrove, mentre χt è un vettore s × 1 che segue la seguente equazione di transizione: χt = χt−1 + Ωt , con Ωt ∼ WN 0, σω2 [Is − (i0s is )−1 is i0s ] La forma ridotta è tale che S(L)γt ha una rappresentazione MA(s − 2). La densità spettrale è monotonicamente decrescente da 0 a π e, a differenza della specificazione trigonometrica non presenta un massimo relativo alla frequenza π. Conseguentemente, si ottiene una componente stagionale più lisciata (Proietti, 1997). Den Butter e Fase (1991) propongono la seguente specificazione: 1 γt = γt−s − S(L)γt−1 + ωt s che può essere riscritta (1 − ρs )S(L)γt = ωt , con ρs = 108 s−1 s Le proprietà di lisciamento sono abbastanza simili a quelle del modello di Harrison e Stevens, anche se S(L)γt ha rappresentazione AR(1). Il vincolo imposto dall’identificabilità del modello esclude la possibilità di rappresentare la componente stagionale con il modello γt = γt−s + ωt o con modelli la cui parte AR contiene il fattore ∆s (Engle, 1976). Altre estensioni per modellare l’eteroschedasticità stagionale e per trend stagionali sono disponibili. 109