Econometria Applicata - Facoltà di Scienze Statistiche

Transcription

Econometria Applicata - Facoltà di Scienze Statistiche
Econometria Applicata
Tommaso Proietti
Dipartimento di Scienze Statistiche
Università di Udine
Indice
1 Descrizione e Previsione di Serie Temporali
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Analisi esplorativa delle serie temporali . . . . . . . . . . . . . . .
1.2.1 La trasformazione logaritmica e le differenze della serie . .
1.2.2 Le sintesi della distribuzione del fenomeno . . . . . . . . .
1.2.3 Autocorrelazione . . . . . . . . . . . . . . . . . . . . . . .
1.3 Il modello classico di scomposizione di una serie temporale . . . .
1.4 Stima del modello . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Test di ipotesi e di significatività su un singolo coefficiente
1.4.2 Misura della bontà dell’adattamento . . . . . . . . . . . .
1.5 Previsione mediante modelli deterministici . . . . . . . . . . . . .
1.6 Previsione mediante livellamento esponenziale . . . . . . . . . . .
1.7 Previsione mediante il metodo di Holt-Winters . . . . . . . . . . .
1.8 Procedura di Holt-Winters stagionale . . . . . . . . . . . . . . . .
2 I modelli ARIMA
2.1 Premessa . . . . . . . . . . . . .
2.2 Generalità sui processi stocastici
2.3 Momenti campionari . . . . . .
2.4 Il teorema di Wold . . . . . . .
2.5 Autocorrelazione parziale . . . .
2.6 L’algebra dell’operatore L . . .
2.7 Processi Autoregressivi . . . . .
2.7.1 Processo AR(1) . . . . .
2.7.2 Processo AR(2) . . . . .
2.7.3 Processo AR(p) . . . . .
2.8 Processi media mobile . . . . .
2.8.1 Processo MA(1) . . . . .
2.8.2 Processo MA(q) . . . . .
2.9 Processi misti . . . . . . . . . .
2.10 Non stazionarietà . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
8
10
13
13
18
20
21
21
22
23
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
26
27
28
28
30
30
31
32
33
34
34
35
35
36
2.11 Stagionalità . . . . . . . . .
2.12 L’approccio di Box e Jenkins
2.12.1 Identificazione . . . .
2.12.2 Stima . . . . . . . .
2.12.3 Verifica . . . . . . .
2.13 Previsione . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
38
38
38
39
40
3 Analisi non parametrica delle serie temporali
3.1 Le medie mobili . . . . . . . . . . . . . . . . . .
3.2 Effetto fase ed effetto ampiezza . . . . . . . . .
3.3 L’effetto di Slutzky-Yule . . . . . . . . . . . . .
3.4 Polinomi locali; filtri di Macaulay . . . . . . . .
3.4.1 Varianza e distorsione . . . . . . . . . .
3.5 Medie mobili aritmetiche semplici . . . . . . . .
3.5.1 Componente stagionale di periodo s pari
3.6 Composizione di mm aritmetiche . . . . . . . .
3.7 Lisciamento e filtri di Henderson . . . . . . . . .
3.8 Il trattamento delle estremità della serie . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
44
44
45
46
47
49
49
50
50
51
51
.
.
.
.
.
.
.
.
.
.
.
52
52
54
55
56
57
59
59
61
62
63
63
.
.
.
.
64
64
65
65
4 La destagionalizzazione delle serie temporali
4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 La procedura X-12-ARIMA . . . . . . . . . . . . . . . . . .
4.3 Il filtro di destagionalizzazione (Enhanced X-11) . . . . . . .
4.3.1 Prima fase: stime iniziali . . . . . . . . . . . . . . . .
4.3.2 Seconda fase: fattori stagionali e destagionalizzazione
4.3.3 Terza fase: stima finale delle componenti . . . . . . .
4.4 Le proprietà teoriche del filtro . . . . . . . . . . . . . . . . .
4.5 Correzione dei valori anomali nell’X-11 . . . . . . . . . . . .
4.6 Le componenti di calendario . . . . . . . . . . . . . . . . . .
4.7 Diagnostica . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7.1 Test di stagionalità . . . . . . . . . . . . . . . . . . .
4.7.2 Nuova diagnostica su stagionalità residua e l’effetto
giorni lavorativi . . . . . . . . . . . . . . . . . . . . .
(3)
4.7.3 Test di casualità dei residui It . . . . . . . . . . . .
4.7.4 Bontà della destagionalizzazione . . . . . . . . . . . .
4.7.5 Diagnostiche basate sulla stabilità delle stime . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
del n.
. . . .
. . . .
. . . .
. . . .
5 Analisi Econometrica di Dati non Stazionari
71
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 Stazionarietà ed integrazione . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 Il test di Dickey e Fuller . . . . . . . . . . . . . . . . . . . . . . . . . 75
2
5.4
5.5
5.6
5.7
5.8
5.9
5.10
Il test ADF . . . . . . . . . . . . . . . . . . . . . .
Trend e RW nelle serie economiche . . . . . . . . .
Persistenza . . . . . . . . . . . . . . . . . . . . . .
Integrazione stagionale . . . . . . . . . . . . . . . .
Test di integrazione stagionale . . . . . . . . . . . .
Critiche all’applicazione dei test per radici unitarie
Le implicazioni econometriche . . . . . . . . . . . .
5.10.1 Modello nei livelli . . . . . . . . . . . . . . .
5.10.2 Modello nelle differenze . . . . . . . . . . . .
5.10.3 Regressione tra serie detrendizzate . . . . .
5.11 Modelli con meccanismo a correzione dell’errore . .
5.12 Cointegrazione . . . . . . . . . . . . . . . . . . . .
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
78
82
83
86
87
88
89
89
90
91
92
I Modelli Strutturali per l’Analisi delle Serie
Temporali
99
6.1
6.2
6.3
6.4
6.5
L’approccio modellistico e la classe dei modelli strutturali . . . .
Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La modellazione del ciclo economico . . . . . . . . . . . . . . . .
Componente stagionale . . . . . . . . . . . . . . . . . . . . . . .
Il trattamento statistico del modello e la stima delle componenti
6.5.1 La rappresentazione nello spazio degli stati . . . . . . . .
6.5.2 Il filtro di Kalman . . . . . . . . . . . . . . . . . . . . .
6.5.3 Verosimiglianza e inizializzazione del filtro . . . . . . . .
6.5.4 Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.5 Diagnostica . . . . . . . . . . . . . . . . . . . . . . . . .
6.6 Componenti di calendario . . . . . . . . . . . . . . . . . . . . .
6.7 Altre specificazioni della componente stagionale . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
101
102
103
103
104
105
106
107
107
108
108
Elenco delle tabelle
4.1
Filtro di Henderson: pesi hj per le m.m a 9, 13, 17 e 23 termini . . . 58
4
Elenco delle figure
1.1
1.2
1.3
Grafico di quattro serie temporali. . . . . . . . . . . . . . . . . . . . 9
Distribuzione dei rendimenti sul mercato azionario di Londra (FTSE). 12
Correlogramma della trasformazione ∆12 ln yt della serie delle vendite
(variazioni relative su base annua). . . . . . . . . . . . . . . . . . . . 14
4.1
4.2
4.3
. 53
. 68
Destagionalizzazione della serie Airline. . . . . . . . . . . . . . .
Pesi e funzioni di trasferimento per il filtro X-11 default . . . . . .
Pesi e funzioni di trasferimento per il filtro X-11 con filtro di Henderson a 17 termini . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Serie BDIGENGS: livello degli ordini e della domanda dall’interno
per il totale industria (saldi), ISCO. . . . . . . . . . . . . . . . . .
5
. 69
. 70
Capitolo 1
Descrizione e Previsione di Serie
Temporali
1.1
Introduzione
Una serie temporale costituisce una sequenza di osservazioni su un fenomeno y effettuate in istanti o intervalli (rispettivamente per le variabili di stock e di flusso) di
tempo consecutivi e solitamente, anche se non necessariamente equispaziati (stock)
o della stessa lunghezza (flussi). Un esempio di una variabile di stock è costituito dal
prezzo di un prodotto, mentre un esempio di flusso è rappresentato dalle vendite di
un particolare bene realizzate in un intervallo di tempo. Una tipologia intermedia è
costituita dalle medie temporali di uno stock (prezzi medi in un periodo di tempo).
Denotando con t = 1, . . . , T il tempo, indicheremo tale sequenza yt ; il tempo è
il criterio ordinatore che non può essere trascurato, per cui occorre conoscere anche
la posizione dell’osservazione lungo la dimensione temporale. Generalmente, si usa
rappresentare la coppia di valori (t, yt ) su diagramma cartesiano, con un grafico a
tratto continuo, come se il fenomeno fosse rilevato con continuità.
L’analisi univariata delle serie temporali, oggetto del presente capitolo, si propone di interpretare il meccanismo dinamico che ha generato la serie e di prevedere
le realizzazioni future del fenomeno: in queste operazioni l’informazione che viene
sfruttata riguarda esclusivamente la coppia (t, yt ), t = 1, . . . , T . Il punto fondamentale è che il passato ed il presente contengono informazioni rilevanti per prevedere
l’evoluzione futura del fenomeno.
Si può ritenere che l’analisi univariata sia troppo limitativa; solitamente si dispone di informazioni su fenomeni collegati a quello da prevedere e che andrebbero opportunamente incorporate al fine di migliorare la performance del modello
di previsione. Ciò nonostante, essa è un utile benchmark che consente di validare
alternative più sofisticate.
6
1.2
Analisi esplorativa delle serie temporali
L’analista aziendale è interessato a seguire nel tempo l’evoluzione dei fenomeni economici di interesse, quali la produzione e le vendite, le scorte di magazzino, i flussi
turistici, le quote di mercato etc. Molto spesso l’interesse non è incentrato sul valore
assoluto del fenomeno, ma piuttosto sulle variazioni relative, vale a dire sui tassi di
crescita.
In tal caso l’analista può assumere un istante o intervallo temporale di riferimento (detto base), che viene mantenuto fisso, e valutare la dinamica del fenomeno
relativamente alla base. Sia ad es. y0 il valore delle vendite di un particolare bene
al tempo base: il numero indice (percentuale) delle vendite al tempo t è fornito da
i0t = 100
yt
,
y0
mentre il tasso di variazione relativo è dato dal complemento a 100, i0t − 100; cosı̀,
se i04 = 105.2, il valore delle vendite nel periodo t = 4 è superiore a quello del tempo
base per una quota pari al 5.2%.
Altre volte è utile raffrontare il valore del fenomeno con quello del tempo precedente, considerando gli indici a base mobile e le variazioni percentuali
it−1,t = 100
yt
yt − yt−1
, it−1,t − 100 = 100
yt−1
yt−1
Un problema sorge quando il fenomeno è complesso, vale a dire risulta dalla
combinazione di più fenomeni elementari; si pensi alla costruzione di un indice dei
prezzi di vendita di un’impresa che produce beni differenziati (ad es. cioccolatini,
caramelle, panettoni etc.). Una soluzione pratica consiste nel costruire un indice di
tipo Laspeyres:
P
P
(pkt /pk0 )pk0 qk0
k pkt qk0
I0t = 100 P
= 100 k P
k pk0 qk0
k pk0 qk0
dove pkt rappresenta il prezzo del prodotto k al tempo t e qkt la quantità venduta
corrispondente.
Se il fenomeno è stagionale, presentando delle oscillazioni ricorrenti e periodiche
nell’arco dell’anno (le vendite sono più elevate nel mese di dicembre per effetto del
Natale), ha senso calcolare i tassi di variazione relativa con riferimento allo stesso
periodo dell’anno precedente, al fine di ottenere una valutazione non influenzata
dalla stagionalità. Nel caso di osservazioni mensili:
it−12,t = 100
yt
yt−12
,
it−12,t − 100 = 100
yt − yt−12
yt−12
Uno dei più efficaci strumenti esplorativi è senza dubbio il grafico della serie (e
delle sue trasformazioni), il quale può immediatamente rivelare alcuni fatti stilizzati,
7
come la presenza e la natura del trend, della stagionalità, di fluttuazioni di breve
periodo, di valori anomali o rotture strutturali (si veda [?], cap. 3, per alcune
”questioni di stile” concernenti le rappresentazioni grafiche delle serie temporali).
La figura 1.1 mette in luce che fenomeni diversi possono mostrare comportamenti molto differenziati: la prima serie, formata da 135 misurazioni del diametro
di componenti di un pistone prodotte ad intervalli di tempo regolari, si manifesta
piuttosto ”irregolare”, fluttuando attorno ad un valore medio (linea tratteggiata)
che può essere assunto costante. La seconda è la serie semestrale dei contratti per
telefonia cellulare e presenta un evidente trend di natura esponenziale. La terza
riguarda le vendite effettuate da una società anonima ed ha periodicità mensile; le
vendite mostrano un trend crescente, ma il fatto nuovo, non osservabile nelle altre
serie, è la presenza di una forte stagionalità, tale che il massimo annuale si ha in
corrispondenza del mese di novembre ed il minimo in quello di maggio. Inoltre,
l’ampiezza delle fluttuazioni stagionali cresce al crescere del trend. L’ultima serie
rappresenta il logaritmo dei prezzi giornalieri di chiusura sul mercato azionario di
Londra (FTSE); torneremo tra breve su questa serie.
1.2.1
La trasformazione logaritmica e le differenze della serie
Con riferimento all’ultima serie abbiamo utilizzato la trasformazione logaritmica;
esistono almeno due buone ragioni che possono giustificarne l’impiego. In primo
luogo essa stabilizza la variabilità della serie, quando questa si riveli crescente al
crescere del trend: questa circostanza si verifica per la serie delle vendite, la cui
trasformazione logaritmica non possiede più la caratteristica segnalata precedentemente riguardo alle fluttuazioni stagionali, che presenteranno ampiezza costante. In
effetti, se la serie può essere pensata come il risultato dell’interazione moltiplicativa
di più componenti, mediante la trasformazione logaritmica si rende tale relazione
puramente additiva.
In generale, si consideri una variabile casuale yt con media µt e varianza σ 2 µ2t ;
si desidera determinare la trasformazione f (yt ) tale che Var[f (yt )] sia costante.
L’approssimazione di Taylor del primo ordine attorno a µt della funzione f (yt ) è:
f (yt ) ≈ f (µt ) + f 0 (µt )(yt − µt )
e, pertanto, Var[f (yt )] ≈ f 0 (µt )2 µ2t σ 2 . Occorre dunque scegliere la funzione in modo
tale che:
1
f 0 (µt ) = ,
µt
da cui discende che la trasformazione richiesta è quella logaritmica (d ln y/dy = 1/y),
per cui f (·) = ln(·).
8
Figura 1.1: Grafico di quattro serie temporali.
Contratti Cellulari
0.0 e+00
35
40
1.5 e+07
45
3.0 e+07
Diametro pistone
0
20
40
60
80
120
1986
1990
1994
UK FTSE
7.8
200
8.0
400
8.2
600
8.4
8.6
800
Vendite della compagnia X
1965
1967
1969
1971
1992
9
1994
1996
1998
La seconda ragione attiene all’impiego della trasformazione in congiunzione alle
differenze della serie. Infatti, definendo
∆k ln yt = ln yt − ln yt−k ,
si ha che le differenze k-esime costituiscono un’approssimazione della variazione
relativa del fenomeno dal tempo t − k al tempo t, ovvero:
∆k yt ≈
yt − yt−k
.
yt−k
Per comprendere la natura dell’approssimazione si prenda, senza perdita di
generalità, il caso k = 1 (differenze prime logaritmiche):
yt
∆ ln yt = ln
yt−1
!
∆yt
= ln 1 +
yt−1
!
= ln(1 + rt )
dove rt = ∆yt /yt−1 è il tasso di variazione relativo rispetto al tempo precedente. Lo
sviluppo in serie di Taylor della funzione ln(1 + rt ) attorno al punto rt = 0 risulta:
1
1
ln(1 + rt ) = rt − rt2 + rt3 + · · · ,
2
3
per cui si può affermare che ∆ ln yt rappresenta l’approssimazione di Taylor del primo
ordine della variazione relativa. La bontà dell’approssimazione dipende dall’ordine
di grandezza di quest’ultima.
1.2.2
Le sintesi della distribuzione del fenomeno
Le sintesi del fenomeno effettuate mediante le medie e le varianze
• Media: ȳ = T −1
PT
t=1
• Varianza: S 2 = T −1
yt
PT
t=1 (yt
− ȳ)2
o altre statistiche descrittive (asimmetria, curtosi, etc.), che consideriamo nel prosieguo della discussione, hanno significato solo se sono stabili nel tempo.
Nel caso di variabili univariate siamo soliti andare a guardare la distribuzione
dei valori mediante la stima della densità della stessa (cfr. appendice ??). Questa
sintesi potrebbe non avere molto senso nel caso di serie temporali data la forte
interdipendenza nel tempo, e sarebbe sicuramente non informativa per tutte le serie
considerate ad eccezione della prima. In effetti, lo stima della distribuzione di un
fenomeno assume che le osservazioni a nostra disposizione costituiscano un campione
casuale proveniente da un’unica popolazione di valori, e risulta oltremodo difficile
ritenere che la distribuzione del fenomeno sia costante nel caso della serie delle
10
vendite, per il quale si osserva che in media il fenomeno è crescente e ha movimenti
stagionali.
Ciò non implica che lo studio della distribuzione sia del tutto privo di rilievo
anche con riferimento ad una trasformazione della serie. Si consideri, ad esempio,
la serie dei rendimenti (log return),
rt = ∆ ln yt = ln yt − ln yt−1 ,
calcolata con riferimento alla serie FTSE e presentata nel primo pannello della figura 1.2. Il grafico dei rendimenti contro i valori ritardati di un periodo mostra,
nella sostanza, che rt è incorrelato con rt−1 (questo implicherebbe che la conoscenza
del passato non è di aiuto per predire il futuro); tuttavia, si osservano dei periodi
in cui la volatilità della serie è più pronunciata, ed effettivamente, se consideriamo
la distribuzione dei rendimenti mediante l’istogramma e una stima non parametrica
della densità si nota la presenza del fenomeno noto come leptocurtosi: la distribuzione presenta un addensamento delle frequenze sui valori centrali e sulle code rispetto
al caso normale (l’ultimo riquadro riporta, accanto alla stima non parametrica, la
densità di una variabile casuale normale con media e varianza poste uguali a quelle
osservate per i rendimenti rt ); questo implica che la possibilità di osservare eventi
estremi è maggiore.
Due misure di sintesi molto utili al fine di caratterizzare la natura della distribuzione sono l’indice di asimmetria:
skewness =
e di curtosi:
“
T ’
yt − ȳ 3
1X
,
T t=1
S
’
“
T
yt − ȳ 4
1X
.
T t=1
S
Se la distribuzione è simmetrica il primo indice è pari a zero, mentre il valore teorico
di riferimento per il secondo è quello assunto sotto l’ipotesi di distribuzione normale,
pari a 3; valori superiori indicano che la distribuzione è leptocurtica.
Al fine di testare dal punto di vista formale la conformità con la distribuzione
normale si può utilizzare il test di Jarque e Bera [?], il quale è basato sulla statistica:
curtosi =
”
•
1
T
skewness2 + (curtosi − 3)2
JB =
6
4
che, sotto l’ipotesi nulla di normalità, ha distribuzione χ2 con 2 gradi di libertà.
Un ausilio grafico finalizzato alla valutazione di conformità con la distribuzione normale è il cosiddetto qqplot che costituisce il diagramma a dispersione dei quantili
della distribuzione empirica della serie osservata con quelli teorici della distribuzione
normale con stessa media e varianza; esso può essere ottenuto in R utilizzando la
funzione qqnorm(). Se la distribuzione del fenomeno è normale i punti si dispongono
lungo una linea retta.
11
Figura 1.2: Distribuzione dei rendimenti sul mercato azionario di Londra (FTSE).
rt versus rt−1
0.00 0.02 0.04
−0.04
−0.04
0.00 0.02 0.04
Rendimenti FTSE
1992
1994
1996
1998
−0.04
0.02
0.04
0 10 20 30 40 50 60 70
0 10 20 30 40 50 60 70
0.00
Confronto distribuzione normale
Distr. Rendimenti
−0.04
0.00
0.02
0.04
−0.04
12
0.00
0.02
0.04
1.2.3
Autocorrelazione
I fenomeni aziendali presentano una cosiddetta dipendenza temporale, o autocorrelazione, nel senso che il presente dipende dal passato; un semplice modo per verificare
se la serie è autocorrelata consiste nel rappresentare in un diagramma a dispersione
yt e yt−1 (la serie ritardata di un periodo - in generale definiamo la serie ritardata
di k periodi slittando la serie originaria k periodi in avanti, di modo che al tempo t
viene associato il valore yt−k ); se si ottiene una nuvola di punti che si muove attorno
ad una retta inclinata positivamente, allora si dice che yt presenta autocorrelazione
positiva e che quanto più il valore registrato nel periodo precedente è elevato, tanto
più è lecito attendersi un valore positivo ed alto per il tempo corrente; viceversa nel
caso di autocorrelazione negativa. Il coefficiente di correlazione tra yt e yt−1 misura
l’intensità del legame della serie con il passato. Si parla inoltre di autocorrelazione
di ordine k se yt è correlato con yt−k .
L’autocovarianza campionaria a lag, o ritardo, k è calcolata come segue:
ck = T
−1
T
X
t=1
(yt − ȳ)(yt−k − ȳ)
si osservi che a stretto rigore gli scarti dalla media delle osservazioni ritardate dovrebbero essere calcolati con riferimento alla media delle T − k osservazioni yt−k , t =
k + 1, . . . , T ; tuttavia, se T è sufficientemente elevato e il fenomeno non presenta
tendenza, questa non differisce dalla media globale. Il coefficiente di autocorrelazione al medesimo ritardo è fornito da ρk = ck /c0 . Osserviamo che a denominatore
dovremmo avere il prodotto degli scarti quadratici medi di yt , t = 1, . . . , T , e di
yt−k , t = k + 1, . . . , T ; anche in questo caso, sotto certe condizioni, il secondo non
√
differisce da c0 = S.
La tipologia di rappresentazione grafica che viene comunemente impiegata per
rappresentare le autocorrelazioni è il correlogramma, un diagramma ad aste che
contiene in ascissa i valori consecutivi del ritardo k e in ordinata i valori delle autocorrelazioni corrispondenti. Un esempio è fornito dalla figura 1.3 ed è stato prodotto
dalla funzione acf() della libreria ts di R.
La dipendenza del fenomeno dal passato è fortemente legata alla possibilità di
prevedere le realizzazioni future dalla conoscenza del comportamento nel tempo.
1.3
Il modello classico di scomposizione di una
serie temporale
Le serie temporali relative a fenomeni economico-aziendali presentano delle caratteristiche comuni, che sono state identificate come trend, ciclo, stagionalità (per
13
Figura 1.3: Correlogramma della trasformazione ∆12 ln yt della serie delle vendite
(variazioni relative su base annua).
−0.2
0.0
0.2
0.4
0.6
0.8
1.0
Series diff(log(sales), 12)
0.0
0.5
1.0
14
1.5
osservazioni subannuali); questi “segnali” possono essere contaminati da oscillazioni che a prima vista appaiono non strutturate e che possono essere identificate
come puramente casuali. L’analisi classica prende le mosse da questa naturale constatazione, proponendo i seguenti modelli di scomposizione della serie temporale
(rispettivamente modello additivo e modello moltiplicativo):
yt = µt + ψt + γt + t
yt = µt ψt γt t
(1.1)
dove, in generale, le componenti hanno natura deterministica ad eccezione di quella
irregolare; quest’ultima viene intesa come una componente puramente casuale, non
prevedibile dalla conoscenza delle sue realizzazioni passate e che si sovrappone ai
segnali senza avere una sistematicità. Nel caso additivo, un modello statistico per
catturare queste caratteristiche postula che t sia una sequenza di realizzazioni di
variabili casuali normali identicamente e distribuite in maniera indipendente con
media nulla e varianza costante; in simboli, t ∼ N ID(0, σ 2 ). Una versione più
debole non richiede la normalità, ma si limita ad assumere che t , t = 1, . . . , T siano
variabili causali incorrelate a media nulla e varianza costante. Nel seguito faremo
riferimento esclusivo al modello di scomposizione additivo, al quale si può ricondurre
il modello moltiplicativo in seguito all’applicazione della trasformazione logaritmica.
Il simbolo µt denota la componente tendenziale (trend), espressione della dinamica di lungo periodo della serie, generalmente rappresentata da una funzione
deterministica (ad es. un polinomio) del tempo, t:
• Trend costante (di grado 0): µt = β0
• Trend lineare: µt = β0 + β1 t
• Trend quadratico: µt = β0 + β1 t + β2 t2
• Trend logistico (per fenomeni caratterizzati da un livello di saturazione):
µt =
β0
1 + β1 exp(−β2 t)
• Trend esponenziale: µt = exp(β0 + β1 t)
La componente di breve periodo, detta anche ciclo, è denotata con ψt ed è
rappresentata da una funzione trigonometrica:
ψt = α cos(λt) + β sin(λt)
dove λ ∈ [0, π] rappresenta la frequenza angolare, tale che il periodo dell’oscillazione
√
è pari a P = 2π/λ e α e β determinano l’ampiezza dell’oscillazione (A = α2 + β 2 ).
La componente stagionale coglie le oscillazioni sistematiche della serie che hanno
periodo uguale all’anno; Hylleberg, [?] propone la seguente definizione:
15
Seasonality is the systematic, although not necessarily regular, intrayear movement caused by the changes of the weather, the calendar, and
timing of decisions, directly or indirectly through the production and
consumption decisions made by the agents of the economy. These decisions are influenced by endowments, the expectations and preferences of
the agents, and the production techniques available in the economy.
Harvey [?] fornisce una definizione incentrata sul problema della previsione, che
individua la stagionalità nella componente della serie che estrapolata si ripete costantemente per ogni periodo di tempo pari all’anno (periodicità) ed ha somma nulla
su quel periodo. Sebbene vi sia sufficiente consenso attorno a queste definizioni, che
lasciano aperta la possibilità che la componente stagionale evolva nel tempo, un
aspetto altrettanto importante è la loro traduzione operativa.
Supponiamo che la serie temporale sia osservata con periodicità s (dove s denota
il numero di stagioni in un anno, vale a dire s = 4 per dati trimestrali, s = 12 per dati
mensili, s = 52 per dati settimanali, etc.) e denotiamo con γt l’effetto stagionale al
tempo t. Ci sono due approcci equivalenti alla modellazione di un pattern stagionale
deterministico (vale a dire invariante nel tempo): nel dominio temporale, mediante
l’introduzione di particolari variabili indicatrici dette dummy stagionali; nel dominio
frequenziale, mediante una combinazione lineare di funzioni trigonometriche, seno e
coseno in particolare. Secondo il primo approccio,
γt =
s
X
δj Djt
(1.2)
j=1
dove Djt è una dummy stagionale, Djt = 1 nella stagione j e 0 altrimenti, e i
coefficienti δj misurano l’effetto associato al corrispondente periodo dell’anno. Se la
serie contiene anche una componente tendenziale e il modello di scomposizione è del
tipo
yt = β0 + β1 t +
s
X
δj Djt + t ,
j=1
si incontra immediatamente una difficoltà, consistente nel fatto che il modello non è
identificato, poiché esiste dipendenza lineare tra i regressori (infatti la somma delle
s dummy stagionali è pari all’unità e questo effetto viene confuso con l’intercetta).
A tale problema si rimedia vincolando i coefficienti δj ad avere somma nulla; tale
restrizione consente di identificare il modello (1.1) quando è presente il termine
di intercetta e, sotto l’ipotesi che la componente irregolare sia abbia distribuzione
t ∼ N ID(0, σ 2 ), il modello (1.1) può essere stimato mediante i minimi quadrati
(MQ) vincolati (cfr. [?]).
Invece di vincolare i coefficienti δj ad avere somma nulla, si possono utilizzare
strategie alternative che rendono praticabili le stime dei MQ ordinari.
16
• Una parametrizzazione equivalente si ottiene ponendo D̃jt = 1, t = j, mod
s, D̃jt = 0, t 6= j mod s, D̃jt = −1, t = s, mod s (vale a dire ponendo
D̃jt = Djt − Dst per j = 1, . . . , s − 1) e stimando il modello
yt = β0 + β1 t +
s−1
X
δj D̃jt + t
j=1
L’effetto stagionale associato alla stagione s si ottiene come segue:
δs = −
s−1
X
δj
j=1
• Una soluzione consiste nell’eliminare l’intercetta, stimando il modello
yt = β1 t +
s
X
δj∗ Djt + t
j=1
dove δj∗ = δj + β0 , mediante i MQO. Ottenute le stime dei parametri, si ottiene
P
β̂0 = 1/s δ̂j∗ e δ̂j = δ̂j∗ − β̂0 .
• Alternativamente, possiamo modellare la stagionalità introducendo soltanto
s − 1 dummy del tipo Djt , ad es. escludendo l’ultima:
yt = β0† + β1 t +
s−1
X
δj† Djt + t
j=1
In tal caso, β0† + δj† = β0 + δj , j = 1, . . . , s − 1, e β0† = β0 + δs ; sommando
rispetto a j si ottiene:
X †
1 s−1
δ
β0 = β0† +
s j=1 j
e successivamente si possono ricavare gli effetti originari δj .
Il modello trigonometrico è formulato nei termini di s−1 effetti associati all’ampiezza
di s/2 onde cicliche definite alle frequenze 2πj/s, j = 1, 2, . . . , s/2: per s pari,
γt =
s/2
X
[αj cos(λj t) + βj sin(λj t)]
(1.3)
j=1
La proprietà condivisa da tutte queste parametrizzazioni è che la somma degli
effetti stagionali su s unità temporali consecutive è identicamente nulla:
s−1
X
γt−j = 0.
j=0
17
1.4
Stima del modello
Il modello di scomposizione deterministico può essere rappresentato come segue:
yt = b1 xt1 + . . . + bk xtk + t = x0t b + t , t = 1, . . . , T,
con x0t = [xt1 , xt2 , . . . , xtk ] e b è un vettore contenente i k coefficienti di regressione. Ad esempio, il modello con trend lineare e s dummy stagionali ha xt0 =
[t, D1t , . . . , Dst ] e b = [β1 , δ1∗ , . . . , δs∗ ]0 , mentre il modello trend quadratico più irregolare, yt = β0 + β1 t + β2 t2 + t presenta xt = [1, t, t2 ]0 e b = [β0 , β1 , β2 ]0 .
Le T equazioni lineari possono essere riscritte in forma matriciale
y = Xb + ,
con y = [y1 , . . . , yt , . . . , yT ]0 e X = [x1 , x2 , . . . , xT ]0 . Il nostro obiettivo è stimare i
parametri incogniti (i coefficienti b e σ 2 ), fare inferenze, per verificare se soddisfano
le conoscenze a priori o altri vincoli, verificare che il modello costituisca una valida
interpretazione della realtà e prevedere le osservazioni future.
Sia b̂ una stima di b. In corrispondenza possiamo definire il vettore dei residui
(o scarti tra i valori osservati, y, e i valori interpolati, ŷ = X b̂):
e = y − X b̂.
Lo stimatore dei minimi quadrati (ordinari) si ottiene minimizzando la somma dei
quadrati dei residui:
0
0
S(b̂) = e0 e = (y − X b̂)0 (y − X b̂) = y 0 y − 2b̂ X 0 y + b̂ X 0 X b̂
Le condizioni del primo ordine:
∂S(b̂)
=0
∂ b̂
forniscono le cosiddette equazioni normali:
X 0 X b̂ = X 0 y,
le quali costituiscono un sistema di k equazioni in k incognite che ammette una
soluzione unica se la matrice X ha rango k: in tal caso la matrice (X 0 X) è non
singolare e la soluzione è
0
−1
0
b̂ = (X X) X y =
T
X
t=1
18
xt x0t
!−1 T
X
t=1
xt yt .
Le condizioni del secondo ordine affinché la soluzione individui un minimo della
funzione S(b̂) richiedono che la matrice hessiana sia definita positiva: ciò si verifica
in quanto
∂ 2 S(b̂)
0
0 = 2(X X) > 0.
∂ b̂∂ b̂
Il vettore dei valori predetti dal modello di regressione e dei residui del sono
forniti rispettivamente da ŷ = X b̂, con elemento generico ŷt = x0t b̂, e da e =
y − ŷ = y − X b̂, con elemento generico et = yt − x0t b̂.
y = X b̂ + e = ŷ + e
Sostituendo b̂ = (X 0 X)−1 X 0 y in S(b̂) si ottengono le seguenti espressioni equivalenti per la somma dei quadrati dei residui:
e0 e =
=
=
=
0
y 0 y − b̂ X 0 X b̂
y 0 (I − X(X 0 X)−1 X 0 )y
0
y 0 y − b̂ X 0 y
y 0 y − y 0 X b̂
Si osservi che se la prima colonna di X è il vettore unitario, i (il modello contiene
il termine di intercetta), le equazioni normali
X 0 e = X 0 (y − X b̂) = 0,
implicano che :
• i residui dei minimi quadrati hanno somma (media) nulla: i0 e = 0 e sono
ortogonali rispetto alle variabili indipendenti.
• L’iperpiano di regressione passa per il centroide ȳ = x̄0 b̂
• La media dei valori predetti, ŷ = X b̂, coincide con la media dei valori
osservati.
Proprieta statistiche in campioni finiti Se si assume che E() = 0, lo stimatore
b̂ è corretto:
E(b̂) = E[(X 0 X)−1 X 0 y] = b + E[(X 0 X)−1 X 0 ] = b,
e ha matrice di covarianza:
Var(b̂) = σ 2 (X 0 X)−1
19
Inoltre, sotto l’assunzione di sfericità degli errori, E(0 ) = σ 2 I, si può dimostrare
che esso presenta varianza minima all’interno della classe degli stimatori lineari.
Tale risultato è noto come teorema di Gauss-Markov.
Lo stimatore è inoltre una combinazione lineare di y e quindi di . Se si assume
che  sia distribuito normalmente, b̂ ∼ N(b, σ 2 (X 0 X)−1 ). Tale risultato viene utilizzato per la costruzione di statistiche test per la verifica di ipotesi sui coefficienti
b. Senza l’assunzione di normalità la distribuzione degli stimatori MQO non è nota;
tuttavia, in campioni di grandi dimensioni, si può invocare il teorema del limite
centrale per trattare b̂ come approssimativamente normale.
Stima di σ 2 e della varianza di b̂ Uno stimatore corretto di di σ 2 è
P
T
2
e0 e
t=1 et
s =
=
.
T −k
T −k
2
La radice quadrata, s, è denominata errore standard della regressione. Il risultato
viene utilizzato per ottenere una stima della matrice di covarianza delle stime OLS:
ˆ b̂) = s2 (X 0 X)−1 .
Var(
1.4.1
Test di ipotesi e di significatività su un singolo coefficiente
Sotto l’assunzione di normalità è stato desunto il risultato b̂ ∼ N(b, σ 2 (X 0 X)−1 ).
Se aii denota l’elemento i-esimo sulla diagonale principale di (X 0 X)−1 :
b̂i − bi
√ ∼ N(0, 1).
σ aii
Inoltre, si può mostrare che (T − k)s2 /σ 2 ∼ χ2n−k e che tale statistica è distribuita in
maniera indipendente da b̂. Applichiamo ora il noto risultato per cui dividendo una
variabile casuale normale standardizzata per la radice di una v.c. χ2n−k indipendente
divisa per il numero dei gradi di libertà si ottiene una v.c. tn−k :
b̂i − bi
∼ tn−k
t= √
s aii
Il risultato può essere utilizzato per testare ipotesi su un singolo coefficiente e
per costruire intervalli di confidenza. Il test di H0 : bi = 0 è anche detto test di
significatività.
20
1.4.2
Misura della bontà dell’adattamento
Qualora il modello contenga un intercetta possiamo ottenere una misura sintetica
(scalare) della capacità esplicativa del modello che assume valori compresi tra 0 e
1; in particolare, possiamo calcolare la quota di varianza della serie spiegata dalle
variabili esplicative incluse nel modello di regressione. La misura in questione prende
il nome di R-quadro ed è fornita dalla seguente espressione:
2
R =1− P
P
2
t et
t (yt
1.5
− ȳ)2
.
Previsione mediante modelli deterministici
Al fine di illustrare la previsione effettuata mediante un modello deterministico di
scomposizione della serie temporale, consideriamo il seguente modello:
yt = β0 + β1 t + t = b0 xt + t
dove b = (β0 , β1 )0 , xt = (1, t)0 e t ∼ NID(0, σ 2 ). Sia inoltre b̂ il vettore che contiene
le stime MQO. Il valore predetto al tempo t = 1, . . . , T, è ottenuto come segue:
0
ŷt = b̂ xt = E[yt |xt ]; la previsione l periodi in avanti è fornita da:
0
ŷT +l = b̂ xT +l
dove xT +l = (1, T + l)0 .
Tale previsione è “corretta” nel senso che l’errore di previsione ha valore atteso
nullo:
E[yT +l − ŷT +l ] = E[(b − b̂)0 xT +l + T +l ] = 0
ed ottimale, nel senso che minimizza l’errore quadratico medio di previsione (questa
è una conseguenza del teorema di Gauss-Markov). Infine, la varianza dell’errore di
previsione risulta pari a:
2
0
Var[yT +l − ŷT +l ] = E[(b
h − b̂) xT +l + T +l ] = 0i
= σ 2 1 + xT0 +l (X 0 X)−1 xT +l
dove X è la matrice T × 2 la cui riga t è data da xt0 . Essa può essere stimata
sostituendo σ̂ 2 = SSE/(T − 2) nell’espressione precedente.
Modello livello + irregolare : nel caso particolare in cui yt = β0 + t , ŷT +l =
P
β̂0 = ȳ, dove ȳ = T −1 yt . Inoltre,
’
ˆ T +l − ŷT +l ) = σ̂ 2 1 + 1
Var(y
T
21
“
con σ̂ 2 = (T −1)−1
ŷT +l è:
P
(yt −ȳ)2 . L’intervallo di confidenza all’(1−α)% per la previsione
s
1
,
T
è il percentile della distribuzione t di Student con T −1 gradi di libertà.
ȳ ± tα/2,T −1 σ̂ 1 +
dove tα/2,T −1
1.6
Previsione mediante livellamento esponenziale
In ambito aziendale sono spesso richieste previsioni a breve termine di un gran
numero di serie (vendite disaggregate per tipo di bene prodotto) per la pianificazione
della produzione e del magazzino. Un insieme di procedure di previsione ad hoc è
stato introdotto in questo contesto, caratterizzate da semplicità computazionale e
da immediatezza interpretativa, come dovrebbe essere per tecniche di applicazione
routinaria.
Consideriamo un fenomeno che oscilla attorno ad un valore medio approssimativamente costante, e supponiamo di disporre di informazioni sino al tempo t incluso:
{y1 , y2 , . . . , yt }. Ci proponiamo ora di prevedere il valore del fenomeno un periodo
in avanti, al tempo t + 1.
Una previsione elementare può essere costruita a partire dalla media aritmetica
semplice delle osservazioni disponibili:
1
ŷt+1|t = ȳ = (yt + yt−1 + · · · + y2 + y1 )
t
Si noti che tutte le osservazioni, anche le più lontane nel tempo, ricevono un peso
costante pari a 1/t.
Potrebbe essere desiderabile ponderare le osservazioni in ragione della loro distanza dal tempo corrente, assumendo che le osservazioni più recenti presentino
un contenuto informativo più elevato a fini previsivi. Ciò conduce a formulare la
previsione come segue:
ỹt+1|t = w0 yt + w1 yt−1 + w2 yt−2 + · · ·
dove wj , j = 0, 1, 2, . . . è un insieme di coefficienti di ponderazione decrescenti al
P
crescere di j e a somma unitaria: j wj = 1. Al fine di ottenere l’effetto desiderato
si può prendere wj = λ(1 − λ)j , dove λ è una costante di livellamento compresa tra
0 e 1. In tal caso i pesi seguono una progressione geometrica di ragione (1 − λ):
w0 = λ, w1 = λ(1 − λ), w2 = λ(1 − λ)2 , . . .
(ad es. se λ = 0.8, w0 = 0.8, w1 = 0.16, w2 = 0.032, per cui il peso dato all’ultima
osservazione è molto più elevato di quello assegnato alle osservazioni precedenti, che
22
diventa molto piccolo già a partire dalla terzultima osservazione; nel caso in cui
λ = 0.1, i pesi risultano nell’ordine 0.1, 0.09, 0,081,. . . , presentando una variazione
molto più limitata).
Riscriviamo ora la previsione dopo aver sostituito l’espressione per wj :
ỹt+1|t = λyt + λ(1 − λ)yt−1 + λ(1 − λ)2 yt−2 + · · ·
analogamente, se disponessimo soltanto delle osservazioni fino al tempo t − 1 si
avrebbe:
ỹt|t−1 = λyt−1 + λ(1 − λ)yt−2 + λ(1 − λ)2 yt−3 + · · ·
Moltiplicando quest’ultima espressione per (1 − λ) e sottraendo membro a membro
si ottiene:
ỹt+1|t − (1 − λ)ỹt|t−1 = λyt ,
ovvero
o equivalentemente
ỹt+1|t = λyt + (1 − λ)ỹt|t−1
ỹt+1|t = ỹt|t−1 + λ(yt − ỹt|t−1 )
Si ottengono due formule ricorsive che forniscono la previsione un periodo in
avanti in funzione del valore corrente della serie, yt , del valore previsto al tempo
precedente, ỹt|t−1 , e della costante λ. La seconda espressione indica che nel formulare la previsione al tempo corrente modifichiamo la previsione precendente in
proporzione all’errore di previsione che abbiamo commesso nel prevedere yt . Per
l’inizializzazione delle formule ricorsive sono state avanzate diverse proposte: le più
P
famose sono ỹ1|0 = y1 , ỹ1|0 = s−1 st=1 yt , la media delle prime s osservazioni (es.
s = 6).
Questo modo di effettuare le previsioni viene detto livellamento esponenziale. Il
problema fondamentale sta nella determinazione di λ. Essa può essere effettuata
minimizzando la somma dei quadrati degli errori di previsione:
min S(λ) =
λ
T
X
t=1
(yt − ỹt|t−1 )2
ciò può essere effettuato mediante una ricerca a griglia nell’intervallo (0,1). Si noti che per λ = 1, ỹt+1|t = yt e la previsione coincide con l’ultima osservazione
disponibile. Viceversa, per λ tendente a 0 si assegna lo stesso peso alle osservazioni.
1.7
Previsione mediante il metodo di Holt-Winters
Un fenomeno che presenta un trend lineare può essere interpretato mediante il
modello trend più irregolare:
yt = α + βt + t , t = 1, 2, . . . , T.
23
I coefficienti α e β possono essere stimati mediante il metodo dei minimi quadrati e
il modello può essere utilizzato per prevedere il fenomeno un periodo in avanti:
ŷt+1|t = α + β(t + 1) = α + βt + β;
in generale
ŷt+l|t = α + β(t + l) = α + βt + lβ;
Le previsioni si muovono lungo una retta, e il modello potrebbe rivelarsi scarsamente
flessibile se il fenomeno presenta un trend locale. In tal caso ha senso estrapolare la
tendenza indicata dai dati più vicini al tempo corrente.
Ora, ponendo mt = α + βt, si ha che mt rappresenta il livello del trend al tempo
t, mentre bt = β rappresenta l’incremento (costante), vale a dire la quantità che
occorre aggiungere a mt per ottenere ŷt+1|t ; pertanto,
ŷt+1|t = mt + bt
Si noti che mt (livello) e bt (incremento) possono essere riscritti nei termini di una
formula ricorsiva:
mt = mt−1 + bt−1
bt =
bt−1
con valori iniziali m0 = α e b0 = β. Risulta evidente che le osservazioni non giocano
alcun ruolo nell’aggiornamento dei valori di mt e bt .
Le formule precedenti possono essere generalizzate in maniera flessibile mediante
le formule di Holt & Winters:
ỹt+1|t = mt + bt
mt = λ0 yt
+ (1 − λ0 )(mt−1 + bt−1 )
bt = λ1 (mt − mt−1 ) + (1 − λ1 )bt−1
la prima equazione fornisce la nuova stima del livello come media ponderata dell’ultima osservazione e della previsione effettuata al tempo precedente ed è pertanto
analoga all’equazione di aggiornamento del livellamento esponenziale; l’equazione
per l’aggiornamento di bt opera una media ponderata tra il valore precedente e la
differenza tra il livello al tempo t e al tempo t − 1.
La previsione l periodi in avanti giace su una retta
ŷt+1|t = mt + lbt
con origine in mt e coefficiente angolare bt . Quando una nuova osservazione si rende
disponibile, queste quantità vengono aggiornate.
24
Le due costanti di livellamento, λ0 e λ1 , sono comprese tra 0 e 1 e possono essere
determinate minimizzando la somma dei quadrati degli errori di previsione
S(λ0 , λ1 ) =
T
X
t=2
(yt − ỹt|t−1 )2
Dalla relazione mt−1 + bt−1 = ỹt|t−1 , dopo qualche passaggio algebrico, possiamo
riscrivere:
mt = mt−1 + bt−1 + λ0 et|t−1
bt =
bt−1 + λ0 λ1 et|t−1
dove et|t−1 = yt − ỹt|t−1 . La tecnica di previsione nota come livellamento esponenziale
doppio è un caso particolare del metodo di Holt & Winters, per cui si fanno dipendere
λ0 e λ1 da un unico parametro, ω:
λ0 = 1 − ω 2 ,
λ1 =
1−ω
1+ω
Per quanto riguarda l’inizializzazione delle formule ricorsive, si possono prendere
m2 = y2 e b2 = y2 − y1 .
1.8
Procedura di Holt-Winters stagionale
Consideriamo ora una serie stagionale di periodo s e prendiamo a riferimento il
modello di scomposizione moltiplicativo: yt = ȳt gt , dove ȳt denota la serie destagionalizzata e gt è un fattore stagionale che misura l’espansione o la contrazione del
fenomeno nelle stagioni dell’anno. La previsione l = 1, 2, . . . , s, periodi in avanti al
tempo t sarà: ŷt+l|t = (mt + bt l)gt+l−s ,
mt = λ0 (yt /gt )
+ (1 − λ0 )(mt−1 + bt−1 )
bt = λ1 (mt − mt−1 ) + (1 − λ1 )bt−1
+ (1 − λs )gt−s
gt = λs (yt /mt )
con λs ∈ (0, 1). L’inizializzazione può avvenire al tempo t = s prendendo ms =
Ps
s−1 k=1
yk (in alternativa si può prendere la media geometrica delle prime s osservazioni), bs = 0, gj = yj /ms , j = 1, 2, . . . , s.
Nel caso additivo si avranno le seguenti formule ricorsive:
+ (1 − λ0 )(mt−1 + bt−1 )
mt = λ0 (yt − gt )
bt = λ1 (mt − mt−1 ) + (1 − λ1 )bt−1
+ (1 − λs )gt−s
gt = λs (yt − mt )
25
Capitolo 2
I modelli ARIMA
2.1
Premessa
Prenderemo in considerazione quello che, forse con terminologia inappropriata, è
conosciuto come approccio “moderno” delle serie temporali, il cui elemento di differenziazione sta nel considerare la serie yt come realizzazione finita di un processo
stocastico. Il problema inferenziale è risalire da yt al processo generatore e, in tale
contesto, la modellistica ARIMA semplifica il problema mediante una restrizione
della classe dei processi stocastici. La pretesa è quella di fornire una rappresentazione unitaria ad una vasta gamma di fenomeni reali; ovviamente, la generalità va
a scapito della possibilità di interpretare il modello in termini di variabili latenti,
per cui nell’ambito dell’approccio moderno, si sono affermati i cosiddetti approcci “strutturali”. Il riferimento bibliografico più rilevante per questo capitolo è la
monografia di Box, Jenkins e Reinsel [?]
2.2
Generalità sui processi stocastici
Un processo stocastico,{Yt }, può essere definito come una successione ordinata di
variabili casuali Yt indicizzate dal parametro t appartenente ad un insieme parametrico T . Poiché nel seguito ci limiteremo a considerare la classe dei processi stocastici
continui a parametro discreto, avremo T = 1, 2, . . . e {Yt } = {Y1 , Y2 , . . .}.
Il p.s. è noto se è nota la funzione di ripartizione P (Y1 ≤ a1 , Y2 ≤ a2 , . . . , YT ≤
aT ) per ogni T -upla (a1 , . . . , aT ); in altre parole, se è nota la densità congiunta di ogni
evento nello spazio reale a T dimensioni. Nelle applicazioni si dispone, per ogni t, di
una singola realizzazione della v.c. yt , per cui il processo inferenziale presenterebbe
complicazioni insuperabili se non venissero imposte due classi di restrizioni sulle
caratteristiche del processo: la stazionarietà e l’ergodicità.
In particolare, diremo che un processo stocastico è stazionario in senso forte se
26
la distribuzione di probabilità congiunta di {Yt , Yt+1 , . . . , Yt+r } è indipendente da t,
∀r. Condizione necessaria e sufficiente perché ciò si verifichi è che tutti i momenti
della v.c. multipla {Yt , Yt+1 , . . . , Yt+r } siano finiti ed indipendenti da t. La struttura
dinamica è dunque invariante nel tempo. Ora, per un p.s. gaussiano la densità
congiunta dipende esclusivamente dal vettore delle medie delle v.c. Yt , Yt+1 , . . . , Yt+r
e dalla loro matrice di covarianza; pertanto, esso è stazionario se i suoi momenti fino
al secondo sono finiti ed indipendenti da t, vale a dire
= µ
E(Yt )
2
E(Yt − µ)
= γ(0) < ∞
E[(Yt − µ)(Yt−k − µ)] = γ(k) < ∞
∀t, k, dove γ(k) denota l’autocovarianza tra Yt e Yt−k , che si assume essere funzione
esclusivamente di k. Si noti che come conseguenza della stazionarietà la funzione di
autocovarianza è simmetrica rispetto a k: γ(k) = γ(−k). Un p.s. non gaussiano i
cui momenti µ e γ(k) sono indipendenti da t si dice stazionario in senso debole (in
covarianza). In tal caso la stazionarietà in covarianza non implica quella in senso
forte, ma è generalmente sufficiente per ottenere i risultati più rilevanti.
Utili strumenti per la caratterizzazione di un processo stazionario nel dominio
temporale e frequenziale sono la funzione di autocorrelazione (FAC) e la densità
spettrale; la prima è definita ρ(k) = γ(k)/γ(0), k = 0, 1, . . . , mentre la seconda da
#
"
∞
X
1
f (ω) =
γ(0) + 2
γ(k) cos ωk ,
2π
k=1
dove ω è la frequenza in radianti che assume valori in [0, π]. E’ immediato dimostrare
che la FAC gode delle seguenti proprietà: i) ρ(0) = 1, ii) |ρ(k)| < 1, iii) ρ(k) = ρ(−k).
White Noise (WN). Il processo stazionario più elementare è costituito da una sequenza di variabili casuali incorrelate a media nulla e varianza costante: esso è denominato white noise, e viene indicato con εt ∼ W N (0, σ 2 ), dove E(εt ) = 0, E(εt2 ) = σ 2
e E(εt εt−k ) = 0 per k 6= 0.
2.3
Momenti campionari
Dalla sezione precedente è emerso che un processo stazionario (in senso debole) è
completamente caratterizzato dai parametri µ e γ(k). A partire da una realizzazione
finita, {yt }Tt=1 possiamo costruire le seguenti statistiche:
• Media campionaria: ȳ = µ̂ = T −1
PT
• Varianza campionaria: γ̂(0) = T −1
t=1
PT
27
yt
t=1 (yt
− ȳ)2
• Autocovarianza campionaria a lag k: γ̂(k) = T −1
PT
t=1 (yt
− ȳ)(yt−k − ȳ)
Se il p.s. è ergodico queste statistiche convergono (in media quadratica) ai momenti del processo, rispettivamente µ, γ(0) e γ(k). L’ergodicità richiede invece che
la “memoria” del processo sia limitata cosı̀ che eventi distanti nel tempo abbiano un
basso grado di dipendenza; si dimostra che un p.s. gaussiano stazionario è ergodico
se
∞
X
k=0
|γ(k)| < ∞.
La funzione di autocorrelazione viene stimata mediante il rapporto: ρ̂(k) =
γ̂(k)/γ̂(0); il grafico ad aste delle coppie (k, ρ̂(k)) è noto come correlogramma; come
vedremo in seguito esso rappresenta uno degli strumenti cardine per l’identificazione
del processo stocastico che ha generato la serie.
Per un processo WN, tale che ρ(k) = 0, ∀k =
6 0, vale inoltre il risultato che ρ̂(k)
ha distribuzione asintotica normale con media nulla e varianza pari a T −1 . Tale
risultato viene solitamente utilizzato al fine di costruire bande di confidenza approssimate al 95% attorno allo zero per valutare la significatività delle autocorrelazioni
stimate: queste sono
non significativamente diverse da zero se sono interne
√ giudicate
√
all’intervallo [−2/ T , 2/ T ].
2.4
Il teorema di Wold
Alla classe dei processi stazionari si applica un importante risultato noto come teorema di Wold: esso afferma che ogni p.s. stazionario (in senso debole) può essere
scomposto in due processi stocastici mutualmente incorrelati, uno dei quali è lineare deterministico, c(t), mentre l’altro (indeterministico) è una sequenza infinita di
variabili causali incorrelate (processo lineare):
P
Yt = c(t) + εt + ψ1 εt−1 + ψ2 εt−2 + · · · ,
con |ψj | < ∞ e E[c(t)t−j ] = 0, ∀t, j. Il termine t è WN e rappresenta l’errore di
previsione uniperiodale: t = Yt −E(Yt |Yt−1 , Yt−2 , . . .), ed è anche detto innovazione.
Un processo è deterministico se può essere previsto senza errore a partire dai
valori passati di Yt ; solitamente la parte deterministica corrisponde alla media del
processo, c(t) = µ. Come vedremo, il teorema consente di derivare la classe dei
processi ARMA, imponendo particolari restrizioni sull’insieme dei coefficienti ψj .
2.5
Autocorrelazione parziale
Il coefficiente di autocorrelazione parziale è una misura dell’associazione lineare tra
Yt e Yt−k “depurata” della correlazione dovuta alle v.c. intermedie Yt−1 , . . . , Yt−k+1 .
28
Consideriamo un processo stazionario Yt , assumendo c(t) = 0 nella rappresentazione di Wold, e proponiamoci di costruire il miglior previsore lineare non distorto di Yt sulla base della conoscenza di Yt−1 , Yt−2 , . . . , Yt−k ; denotato con X t−1 =
[Yt−1 , Yt−2 , . . . , Yt−k ]0 il vettore contenente il set informativo di riferimento, si dimostra che il previsore ottimale è
φ0 X t−1 = φk1 Yt−1 + φk2 Yt−2 + · · · + φkk Yt−k ,
(2.1)
dove il vettore dei coefficienti della combinazione lineare, φ = [φk1 , φk2 , . . . , φkk ]0 , si
ottiene dalla relazione E[(Yt − φ0 X t−1 )X 0t−1 ] = 0, che fornisce
0
φ = E[X t−1 X t−1
]−1 E[X t−1 Yt ].
Il coefficiente associato a Yt−k , φkk , è detto coefficiente di autocorrelazione parziale a ritardo k, poiché fornisce una misura del legame lineare tra le v.c. al netto della
correlazione esistente con le v.c. intermedie. Tale interpretazione è dovuta al fatto
che φkk = ∂Yt /∂Yt−k . Analogamente, si definisce il coefficiente di autocorrelazione
parziale come il coefficiente di correlazione lineare tra Yt − E(Yt |Yt−1 , . . . , Yt−k+1 ) e
Yt−k .
Si noti che la matrice E[X t−1 X 0t−1 ] contiene le autocovarianze ed è una matrice
di Toeplitz, tale che, cioè l’elemento di posto (i, j) è pari a γ(|i − j|), mentre il
vettore E[X t−1 Yt ] = [γ(1), γ(2), . . . , γ(k)]0 . Pertanto, i coefficienti φkj possono essere
ottenuti in maniera equivalente dal sistema di equazioni seguente, detto sistema di
0
Yule-Walker (si premoltiplica (2.1) per E[X t−1 X t−1
] e si dividono entrambi i membri
per γ(0)):









ρ(1)
ρ(2)
...
ρ(k − 1)
ρ(k)










=








1
ρ(1)
..
.
· · · ρ(k − 2) ρ(k − 1)
· · · ρ(k − 3) ρ(k − 2)
..
..
...
.
.
ρ(k − 2) ρ(k − 3) · · ·
1
ρ(1)
1
ρ(k − 1) ρ(k − 2) · · ·
ρ(1)
ρ(1)
1
..
.









φk1
φk2
..
.







φk,k−1 

φkk
ovvero, ρ = P φ. La soluzione per φkk si ottiene applicando la regola di Cramer:
φkk =
|P ∗ |
|P |
dove P ∗ si ottiene sostituendo l’ultima colonna di P con ρ.
Il grafico dei valori {φ00 , φ11 , φ22 , . . . , φkk } contro k, viene detto correlogramma
parziale, mentre la sequenza φkk è la funzione di autocorrelazione parziale (FACP).
Ovviamente, φ00 = 1 e φ11 = ρ(1).
29
2.6
L’algebra dell’operatore L
Uno strumento molto importante è l’operatore ritardo (lag), L, che, applicato ad Yt ,
produce il valore ritardato di un periodo Yt−1 :
LYt = Yt−1
In generale, Lk Yt+r = Yt+r−k , k = 0, ±1, . . .. Un polinomio di ordine m nell’operatore
ritardo è definito come segue:
α(L) = 1 + α1 L + α2 L2 + · · · + αm Lm
Le radici del polinomio si ottengono ponendo α(L) = 0 e risolvendo rispetto a L.
Le radici saranno reali o complesse coniugate: si dice che esse giacciono al di fuori
del (sul) cerchio di raggio unitario se il loro modulo è superiore (uguale) a 1. In
particolare, definendo il polinomio infinito
ψ(L) = 1 + ψ1 L + ψ2 L2 + · · ·
possiamo riscrivere la rappresentazione di Wold in maniera più sintetica: Yt = c(t) +
ψ(L)t .
Importanti operatori (filtri) lineari possono essere definiti in funzione di L; di
particolare rilievo è l’operatore differenza, ∆ = 1 − L, tale che ∆Yt = Yt − Yt−1 . Le
differenze di ordine d sono date ∆d Yt ; ad esempio, per d = 2, ∆2 Yt = (1 − 2L +
L2 )Yt = Yt − 2Yt−1 + Yt−2 . Nel caso di processi mensili, la variazione rispetto allo
stesso mese dell’anno precedente viene detta differenza stagionale:
∆12 Yt = (1 − L12 )Yt = Yt − Yt−12
2.7
Processi Autoregressivi
Dal teorema di Wold abbiamo appreso che qualunque processo stazionario può essere
espresso come una combinazione lineare di processi WN; tuttavia, la struttura dei
ritardi in t è di ordine infinito, e non possiamo ambire a stimare infiniti parametri
a partire da una realizzazione finita. In questa sezione mostreremo che notevole
parsimonia nel numero dei parametri richiesti per descrivere la struttura dinamica
del processo è resa possibile dall’introduzione dei processi autoregressivi.
Un processo autoregressivo di ordine p, AR(p), è definito come segue:
Yt = m + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + t
con t ∼ WN(0, σ 2 ). Nel seguito assumeremo m = 0 e riscriveremo il processo
φ(L)Yt = t , dove φ(L) = 1 − φ1 L − · · · − φp Lp è il polinomio autoregressivo di
ordine p.
30
2.7.1
Processo AR(1)
Il processo autoregressivo del primo ordine è tale che Yt si ottiene moltiplicando per
un coefficiente φ il valore precedente Yt−1 ed aggiungendo un p.s. t ∼ WN(0, σ 2 ):
Yt = φYt−1 + t
Il processo è stazionario se |φ| < 1; infatti, mediante sostituzione successiva si ottiene
la rappresentazione di Wold:
Yt = t + φt−1 + · · · + φk t−k + · · · ;
la successione (geometrica) dei pesi ψj = φj risulta convergente se e solo se vale φ
P
giace nell’intervallo (−1, 1). Infatti, |φ|j = 1/(1 − |φ|). Si noti che in tal caso
le realizzazioni passate della v.c. t hanno un peso geometricamente decrescente al
crescere della loro distanza dal tempo corrente (funzione di risposta all’impulso):
∂Yt
= φj −→j→∞ 0
∂t−j
La condizione di stazionarietà può essere riferita alle radici del polinomio φ(L) =
1 − φL: in particolare, il p.s. è stazionario se e solo se la radice del polinomio,
ottenuta risolvendo per L l’equazione 1 − φL = 0, è in modulo superiore all’unità.
Deriviamo ora i momenti del processo quando φ è nella regione di stazionarietà:
E(Yt ) = 0
γ(0) = Var(Yt ) = E(Yt2 ) = E[(φYt−1 + t )Yt ]
= φγ(1) + σ 2
poiché E(Yt t ) = E[(t + φt−1 + · · ·)t ] = σ 2 .
γ(1) = E(Yt Yt−1 ) = E[(φYt−1 + t )Yt−1 ]
= φγ(0)
poiché E(Yt−1 t ) = E[(t−1 + φt−2 + · · ·)t ] = 0. Sostituendo l’espressione per γ(1)
in quella per γ(0) si ottiene:
σ2
γ(0) =
1 − φ2
γ(2) = E(Yt Yt−2 ) = E[(φYt−1 + t )Yt−2 ]
= φγ(1)
= φ2 γ(0)
In generale,γ(k) = φk γ(0), e, ricordando la definizione di FAC, ρ(k) = φk . Pertanto
la FAC di un p.s. AR(1) è una successione geometrica decrescente di ragione φ. Per
quanto concerne la FACP, basta riflettere su fatto che, dato Yt−1 , Yt è incorrelato
con Yt−2 , . . . , per comprendere che φkk = 0 per k > 1. Inoltre, φ11 = ρ(1) = φ.
31
Note i) Se m 6= 0, E(Yt ) = m/(1−φ); ii) Per φ = 1 si ottiene il p.s. non stazionario
Yt = Yt−1 + t , noto come random walk (passeggiata aleatoria). E’ facile vedere che
le innovazioni passate hanno tutte peso unitario ed i momenti dipendono dal tempo:
ad es. la varianza è lineare in t, Var(Yt ) = tσ 2 .
2.7.2
Processo AR(2)
Il processo autoregressivo del secondo ordine è generato dall’equazione:
Yt = m + φ1 Yt−1 + φ2 Yt−2 + t
Per processi di ordine superiore al primo è più semplice definire la condizione di
stazionarietà con riferimento alle radici del polinomio φ(L): si dimostra infatti che
Yt è stazionario se le radici di 1 − φ1 L − φ2 L2 = 0 sono in modulo superiori ad
1. Nel caso in questione si ha che ψ(L) = φ(L)−1 e pertanto i coefficienti della
rappresentazione di Wold possono essere ottenuti eguagliando i termini associati
alle potenze di L in ψ(L)(1 − φ1 L − φ2 L2 ) = 1. Ne consegue che essi sono forniti
dalla formula ricorsiva ψj − φ1 ψj−1 − φ2 ψj−2 = 0 con valori iniziali ψ0 = 1 e ψ1 = φ1 .
P
Si verifica, appunto, che j |ψj | è convergente se e solo se φ(L) = 0 per |L| > 1.
La condizione di stazionarietà impone i seguenti vincoli sullo spazio parametrico
(φ1 , φ2 ): i) φ1 +φ2 < 1 ii) φ2 −φ1 < 1 e iii) φ2 > −1, per cui la regione di stazionarietà
dei parametri (φ1 , φ2 ) è interna al triangolo di vertici (-2,-1),(2,-1),(0,1). Inoltre, si
avrà una coppia di radici complesse coniugate quando φ21 + 4φ2 < 0.
Se Yt è stazionario (e gaussiano), esso è completamente caratterizzato dai momenti:
• Valore atteso: E(Yt ) = µ = m/(1 − φ1 − φ2 ).
• La funzione di autocovarianza è data dalla formula ricorsiva
γ(k) = φ1 γ(k − 1) + φ2 γ(k − 2), k = 2, 3, . . .
con valori iniziali:
γ(0) =
e γ(1) = φ1 γ(0)/(1 − φ2 ).
(1 − φ2 )σ 2
(1 + φ2 )([(1 − φ2 )2 − φ21 ]
(2.2)
• La FAC è data dalla formula ricorsiva
ρ(k) = φ1 ρ(k − 1) + φ2 ρ(k − 2),
k = 2, 3, . . .
con valori iniziali: ρ(0) = 1 e ρ(1) = φ1 /(1 − φ2 ). Il comportamento della FAC
è tale che ρ(k) → 0 per k → ∞; se le radici del polinomio AR sono complesse
la FAC percorre un’onda ciclica smorzata.
32
• La FACP è tale che φkk = 0 per k > 2; ciò è intuitivo dal momento che, dati
Yt−1 e Yt−2 , Yt è incorrelato con Yt−3 , Yt−4 , etc.
Il risultato per γ(k) è derivabile nella maniera seguente: supposto m = 0,
γ(0)
=
=
γ(1) =
=
γ(2) =
=
··· ···
γ(k) =
=
E[(φ1 Yt−1 + φ2 Yt−2 + t )Yt ]
φ1 γ(1) + φ2 γ(2) + σ 2
E[(φ1 Yt−1 + φ2 Yt−2 + t )Yt−1 ]
φ1 γ(0) + φ2 γ(1)
E[(φ1 Yt−1 + φ2 Yt−2 + t )Yt−2 ]
φ1 γ(1) + φ2 γ(0)
···
E[(φ1 Yt−1 + φ2 Yt−2 + t )Yt−k ]
φ1 γ(k − 1) + φ2 γ(k − 2)
dalla seconda equazione si ricava γ(1), e sostituendo nella terza equazione si fa
dipendere γ(2) soltanto da γ(0) (e dai parametri AR); sostituendo le espressioni
trovate nella prima equazione si ottiene il risultato (2.2).
Esempio: Consideriamo il processo AR(2) con m = 0, φ1 = 1.1, φ2 = −0.18 e
σ 2 = 1: le radici dell’equazione (1 − 1.1Lq+ 0.18L2 ) sono reali ed in modulo superiore
ad uno: L1 = 1.1̄ e L2 = 5 (L = (1.1 ± 1.12 − 4(.18))/(2 × 0.18)). Per esercizio si
calcoli ρ(k) per k = 1, 2, 3.
2.7.3
Processo AR(p)
I risultati ottenuti precedentemente possono essere generalizzati al caso AR(p), (1 −
φ1 L − · · · − φp Lp )Yt = m + t , nel modo seguente:
• Yt è stazionario se le p radici del polinomio φ(L) sono in modulo superiori
all’unità.
• Il valore medio del processo è µ = m/φ(1), dove φ(1) = 1 − φ1 − · · · − φp . Si
può riscrivere Yt − µ = φ1 (Yt−1 − µ) + · · · + φp (Yt−p − µ) + t .
• La funzione di autocovarianza si ottiene moltiplicando l’espressione precedente
per (Yt−k − µ) e prendendo il valore atteso.
γ(k) = φ1 γ(k − 1) + · · · + φp γ(k − p),
per k > 0
2
γ(k) = φ1 γ(k − 1) + · · · + φp γ(k − p) + σ , per k = 0
• La FAC dà luogo al sistema di equazioni di Yule-Walker:
ρ(k) = φ1 ρ(k − 1) + φ2 ρ(k − 2) + · · · + φp ρ(k − p),
k = 1, 2, . . . , p
• La FACP di un processo AR(p) è identicamente nulla per k > p
33
2.8
Processi media mobile
I processi media mobile (MA) si ottengono dalla rappresentazione di Wold assumendo ψj = θj , j ≤ q e ψj = 0, j > q. Pertanto,
Yt = µ + t + θ1 t−1 + θ2 t−2 + · · · + θq t−q
dove t ∼ WN(0, σ 2 ). Il termine MA viene dal fatto che Yt è una somma ponderata
dei valori più recenti di t . Si noti che un processo MA soddisfa sempre la condizione
P
j |ψj | < ∞ ed è dunque sempre stazionario. A differenza del caso AR la parsimonia
nel numero dei parametri necessari per descrivere la struttura dinamica del processo
è ottenuta troncando i coefficienti ψj ad un ritardo prefissato.
2.8.1
Processo MA(1)
Il processo MA del primo ordine è fornito dall’espressione:
Yt = µ + t + θt−1 = µ + (1 + θL)t
E(Yt ) = µ + E(t ) + θE(t−1 ) = µ
γ(0) = E[(Yt − µ)2 ] = E[(t + θt−1 )2 ] = E(t2 ) + 2θE(t t−1 ) + θ2 E(2t−1 )
= σ 2 (1 + θ2 )
γ(1) = E[(Yt − µ)(Yt−1 − µ)] = E[(t + θt−1 )(t−1 + θt−2 )]
= θσ 2
γ(k) = 0,
k>1
La FAC è identicamente nulla a partire da k = 2:
ρ(0) = 1
θ
ρ(1) = 1+θ
2
ρ(k) = 0,
k>1
La FACP non si annulla mai, ma tende esponenzialmente a zero secondo l’andamento dettato dal parametro θ.
Invertibilità Il MA(1) è invertibile se |θ| < 1. Nel seguito restringeremo la nostra
attenzione alla classe dei processi MA(q) invertibili, per cui opereremo opportune
restrizioni nello spazio dei parametri MA. Per motivare la scelta, inizieremo col mostrare che per ogni rappresentazione MA(1) invertibile esiste una rappresentazione
MA(1) non invertibile, di parametro |θ̃| > 1, che possiede gli stessi momenti. Si
consideri dunque il processo
Ỹt = µ + ˜t + θ̃˜t−1
34
con θ̃ = 1/θ e ˜t ∼ WN(0, σ̃ 2 ). Si verifica immediatamente che γ(0) e γ(1) sono eguali
a quelle del processo Yt = µ+t +θt−1 con σ 2 = θ̃2 σ̃ 2 ; inoltre, ρ(1) = θ−1 /(1+θ−2 ) =
θ/(1 + θ2 ). I due processi hanno identiche proprietà e dunque sarebbe impossibile
discriminarli a partire da una serie storica. Tale problema di identificazione viene
risolto appunto vincolando il parametro θ nell’intervallo (-1,+1). Il vincolo appare arbitrario, ed ha comunque una giustificazione pratica. Il termine invertibilità
deriva dalla possibilità di riscrivere il processo come un AR(∞) con coefficienti πj
convergenti:
Yt + π1 Yt−1 + π2 Yt−2 + · · · + πk Yt−k + · · · = m + t ,
∞
X
j=1
|πj | < ∞
Nel caso in questione la sequenza πj = (−θ)j è convergente se e solo se |θ| < 1.
2.8.2
Processo MA(q)
Il processo
Yt = µ + t + θ1 t−1 + · · · + θq t−q
è sempre stazionario; è invertibile se le soluzioni dell’equazione
(1 + θ1 L + θ2 L2 + · · · + θq Lq ) = 0
sono in modulo superiori ad 1.
E(Yt ) = µ
γ(0) = E[(Yt − µ)2 ] = E[(t + θ1 t−1 + · · · + θq t−q )2 ]
= (1 + θ12 + · · · + θq2 )σ 2
γ(k) = E[(t + θ1 t−1 + · · · + θq t−q )(t−k + θ1 t−k−1 + · · · + θq t−q−k )
= (θk + θ1 θk+1 + θ2 θk+2 + · · · + θq−k θq )σ 2
γ(k) = 0,
k>q
Pertanto, la FAC è identicamente nulla per k > q. La PACF non si annulla mai e
tende a zero al crescere di k.
Esercizio: calcolare la FAC per il processo MA(2): Yt = (1 + 2.4L + 0.8L2 )ut ,
ut ∼ NID(.5, 1). Indicare inoltre se il processo è invertibile.
2.9
Processi misti
P
∞
Il processo Yt = µ + j=0
ψj t−j può essere rappresentato in maniera parsimoniosa
da un processo ARMA(p, q), il quale può essere pensato come una generalizzazione
35
di un p.s. AR(p) con innovazioni che seguono un processo MA(q), ovvero come un
processo MA(q) che dipende ulteriormente dai suoi p valori passati.
Yt = m + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + t + θ1 t−1 + · · · + θq t−q
ovvero, φ(L)Yt = m + θ(L)t .
Le condizioni sotto le quali il processo è stazionario sono le stesse per le quali
il processo AR è stazionario, vale a dire le p radici del polinomio φ(L) devono
essere esterne al cerchio di raggio unitario. Il processo è invertibile se le q radici del
polinomio θ(L) sono esterne al cerchio di raggio unitario.
La FAC e la FACP presentano un comportamento che rappresenta una mistura
di quelli che caratterizzano processi puramente AR e MA: in particolare, esse non si
annullano mai; la FAC tende a 0 a partire dal lag q, mentre la FACP a partire dal
lag p.
Il processo ARMA stazionario ed invertibile è identificabile se non esistono fattori
comuni: ad es. il processo ARMA(1,1), (1 − αL)Yt = (1 − αL)t , è equivalente a
Yt ∼ WN(0, σ 2 ).
2.10
Non stazionarietà
Definizione: Ordine di integrazione. Il processo Yt è integrato di ordine d, e scriveremo Yt ∼ I(d), se le differenze d-esime, ∆d Yt , ammettono una rappresentazione di
Wold stazionaria e invertibile.
In altre parole applicando d volte l’operatore differenza, ∆ = 1 − L, si ottiene
d
∆ Yt = µ + ψ(L)t ,
∞
X
j=0
|ψj | < ∞
Es.: Yt = 2Yt−1 − Yt−2 + t + θt−1 , Yt ∼ I(2) ⇐⇒ |θ| < 1 ;
L’esempio più elementare di p.s. non stazionario è il random walk, definito dalla
relazione Yt = Yt−1 + t ; esso è tale che le sue differenze prime sono WN. Il processo
∆Yt = µ + t è detto RW con drift. Mediante sostituzione successiva si ha:
Yt = Y0 + µt + t + t−1 + · · · + 1 ,
che mostra che l’innovazione t−k ha effetti persistenti sul livello della serie (viene
per intero accumulata, o integrata, nel livello).
Al fine di estendere la classe dei processi che possono essere trattati si introduce la
classe dei processi ARIMA(p, d, q), tali che le differenze d-esime seguono un modello
ARMA(p, q) stazionario e invertibile:
φ(L)∆d Yt = µ + θ(L)t
36
2.11
Stagionalità
Serie osservate con cadenza subannuale (mensile o trimestrale) possono manifestare
un comportamento periodico, con oscillazioni che hanno ciclo annuale. Tipico è il
caso della produzione industriale, caratterizzata da una caduta in corrispondenza
del mese di agosto, e delle vendite al minuto, che hanno un’impennata in dicembre.
La stagionalità si ritrova nella funzione di autocorrelazione con valori alti a ritardi
stagionali (k = 12, 24, 36... per serie mensili).
Per catturare tali dinamiche occorre estendere adeguatamente la classe dei processsi ARIMA. Può darsi il caso che le differenze stagionali del processo, ∆s Yt = Yt −
Yt−s (s = 4, 12) siano non stagionali ed ammettano una rappresentazione ARIMA(p, d, q).
In tal caso si dice che Yt è integrato stagionalmente di ordine 1. Estendendo tale
concetto, Yt è integrato stagionalmente di ordine D se occorre applicare D volte
l’operatore ∆s .
Un processo AR stagionale del primo ordine è:
Yt = ΦYt−s + t , |Φ| < 1
è facile mostrare che la FAC assume la forma: ρ(k) = Φk/s per k = s, 2s, 3s, .., ed
è zero altrimenti. La condizione di stazionarietà è ovviamente riferita alle radici
del polinomio (1 − ΦLs ) = (1 − ΦL)(1 + ΦL + ΦL2 + · · · + ΦLs−1 ). In generale, il
modello ARIMA può essere generalizzato al fine di includere coefficienti AR e MA a
ritardi stagionali. Tuttavia, la rappresentazione più in auge ha natura moltiplicativa
e conduce al processo ARIMA(p, d, q) × (P, D, Q)s :
φ(L)Φ(Ls )∆d ∆sD Yt = µ + θ(L)Θ(Ls )t
dove Φ(Ls ) = 1 − Φ1 Ls − Φ2 L2s − · · · − ΦP LP s , è il polinomio AR stagionale in Ls di
ordine P , e Θ(Ls ) = 1 + Θ1 Ls + Θ2 L2s + · · · + ΘQ LQs è il polinomio MA stagionale
di ordine Q. Un caso di particolare rilevanza (per le serie temporali economiche) è
il cosidetto processo Airline: ARIMA(0, 1, 1) × (0, 1, 1)s
(1 − L)(1 − Ls )Yt = (1 + θL)(1 + ΘLs )t ,
con |θ| < 1, |Θ| < 1. Per tale processo la funzione di autocovarianza presenta la
semplice struttura:
γ(0)
γ(1)
γ(k)
γ(s − 1)
γ(s)
γ(s + 1)
γ(k)
=
=
=
=
=
=
=
(1 + θ2 )(1 + Θ2 )σ 2
θ(1 + Θ2 )σ 2
0
per k = 2, . . . , s − 2
θΘσ 2
Θ(1 + θ2 )σ 2
θΘσ 2
0
per k > s + 1
37
Esercizio: calcolare la FAC per il processo MA stagionale: Yt = t +.8t−12 . Mostrare
che esiste un processo non invertibile caratterizzato dalla medesima FAC.
2.12
L’approccio di Box e Jenkins
Nelle sezioni precedenti abbiamo cominciato ad avere una certa familiarità con i
processi stocastici; essi dovrebbero essere riconoscibili in base alle loro proprietà,
espresse dalla FAC e dalla FACP. Ora, le serie temporali, che costituiscono una
realizzazione di tali processi, dovrebbero rispecchiarne le proprietà, fermo restando
che la limitatezza dell’intervallo di osservazione può in concreto alterarne alcune.
Box e Jenkins hanno proposto una metodologia per l’adattamento di un modello
ARIMA alla serie temporale, yt , che consiste nell’iterare il seguente schema a tre
fasi: i) identificazione del modello; ii) stima e iii) verifica.
2.12.1
Identificazione
La fase di identificazione mira in primo luogo a determinare la trasformazione della
serie che induce la stazionarietà in media, varianza e covarianza. Es. trasformazione
di Box-Cox. Nelle serie temporali macroeconomiche è usuale la trasformazione zt =
∆ ln yt , che corrisponde approssimativamente al tasso di variazione del fenomeno:
∆yt ≈
yt − yt−1
yt−1
Successivamente si passa a selezionare il modello ARMA (gli ordini p e q) sulla
base della FAC, ρ̂(k), e FACP φ̂kk della serie trasformata. I correlogrammi forniscono lo strumento più importante di identificazione; dal confronto dei correlogrammi
stimati con quelli teorici che caratterizzano i p.s. al variare degli ordini p e q si
ottengono indicazioni circa i medesimi. Ad esempio, se ρ̂(k) ha un salto a ritardo
q, oltre il quale è prossima a zero, si identifica un processo MA(q). L’ordine di un
processo AR è più difficile a determinarsi a partire dalla sola FAC, ma soccorre la
FACP.
2.12.2
Stima
La stima avviene mediante il metodo della massima verosimiglianza (MV), sotto l’assuzione di normalità delle osservazioni; una semplificazione si ottiene condizionando
rispetto alle prime p + q osservazioni, poiché in tal caso il problema si riconduce alla
minimizzazione di una somma dei quadrati dei residui. Nel caso dei processi AR
le stime di MV condizionate sono equivalenti a quelle dei minimi quadrati ottenute
38
dalla regressione di yt su p valori ritardati. In tal caso esiste una soluzione esplicita
per le stime. Ad esempio, nel caso di un AR(1) senza costante,
PT
yt−1 yt
t=2 yt−1
φ̂ = Pt=2
T
−1
Analogamente, il sistema di equazioni di Yule-Walker: φ = P̂ ρ̂, dove φ =
[φ1 , . . . , φp ]0 , fornisce stime consistenti dei parametri autoregressivi di un processo
puro AR(p).
Nel caso di processi MA o misti la somma dei quadrati dei residui è non lineare
nei parametri θ e la minimizzazione utilizza algoritmi iterativi, non esistendo una
soluzione esplicita. Ad esempio, nel caso di un MA(1), la funzione obiettivo è data
P
P
da S = 2t = (yt − θt−1 )2 ; ora, t−1 dipende a sua volta da θ, per cui ∂S/∂θ è
pari alla somma dei termini
!
∂t−1
.
− t−1 + θ
∂θ
2.12.3
Verifica
• Test di significatività dei parametri
• Analisi dei residui
et =
1 − φ̂1 L − · · · − φ̂p Lp
1 + θ̂1 L + · · · + θ̂q Lq
yt
Si tratta di sottoporre a verifica tre proprietà: normalità, omoschedasticità e
incorrelazione. Un test formale di normalità è quello di Bowman e Shenton,
basato sulla statistica N = N1 + N2 , avente distribuzione χ2 (2). N1 è il test
per l’asimmetria dei residui che √
fa riferimento al momento terzo rispetto alla
media: N1 = (T − 1)b1 /6, dove b1 è il momento terzo centrato di et , ed ha
distribuzione asintotica χ2 (1). N2 = (T − 1)(b2 − 3)2 /24, dove b2 rappresenta
il momento quarto centrato, è il statistica test per la presenza di curtosi e si
distribuisce secondo una χ2 (1).
Per la presenza di eteroschedasticità possono essere utilizzati metodi grafici e
test formali; se si sospetta che vi sia stato un cambiamento ad un tempo t∗ ,
si può spezzare il campione in due sottoperiodi e testare l’ipotesi che σ̂ 2 sia
uguale nei due sottoperiodi, mediante un opportuno test F .
Per testare l’autocorrelazione dei residui, oltre al consueto test DW, solitamente si costruisce il correlogramma globale ρ̂e (k), e parziale φ̂e,kk , e si valuta
√
la presenza di valori che fuoriescono dalle bande di confidenza al 5% (±2/ T ).
39
La statistica test per l’ipotesi nulla H0 : ρ (1) = · · · = ρ (m) = 0 è fornita
dalla statistica di Ljung-Box, Q(m), basata su m autocorrelazioni dei residui.
Q(m) = T (T + 2)
m
X
(T − j)−1 ρ̂e2 (j)
j=1
Sotto H0 , Q(m) si distribuisce come una v.c. χ2 con m − (p + q) gradi di
libertà.
• Bontà dell’adattamento: se la serie è non stazionaria e l’ordine di differenziazione è d = 1, il coefficiente di determinazione viene calcolato come segue:
2
= 1 − SSE/SSD, dove SSE = (T − 1)σ̂ 2 e SSD è la somma dei quadrati
RD
delle differenze prime corrette della media. Il coefficiente, che può anche risultare negativo, indica se l’adattamento è migliore o peggiore di un semplice
ARIMA(0,1,0).
Spesso, soprattutto quando si ha a che fare con modelli misti, si procede
per tentativi, scoprendosi che diversi modelli sono compatibili, nel senso che
generano residui WN. La scelta tra di essi può essere effettuata mediante un
criterio di informazione: per dati ordini massimi p∗ , q ∗ , si stimano tutti i p∗ q ∗
modelli di ordine inferiore e si sceglie quello che
š
›
p+q
min AIC(p, q) = ln σ̂ + 2
,
T
oppure
2.13
2
š
›
p+q
min BIC(p, q) = ln σ̂ + ln T
.
T
2
Previsione
Data la disponibilità della serie temporale fino al tempo T , ci proponiamo ora di
prevedere il fenomeno l periodi in avanti. Il set informativo a cui facciamo riferimento
è denotato FT = {y1 , y2 , . . . , yT −1 , yT }
Sfrutteremo il risultato fondamentale secondo il quale il previsore ottimale di
yT +l è il suo valore atteso condizionato all’informazione FT :
ỹT +l|T = E[yT +l |FT ]
L’ottimalità va intesa nel senso che ỹT +l minimizza l’errore quadratico medio di
previsione. Inoltre, l’errore di previsione, yT +l − ỹT +l|T , ha valore atteso nullo e
varianza che denotiamo Var(ỹT +l|T ).
La funzione di previsione verrà ottenuta sotto le seguenti assunzioni:
1. t ∼ NID(0, σ 2 )
40
2. I parametri φ1 , . . . , φp , θ1 , . . . , θq , µ, σ 2 sono noti
3. Si dispone di una realizzazione infinita: FT = {yT , yT −1 , . . . , y1 , y0 , y−1 , . . .}:
L’assunzione 1 è più forte di t ∼ WN(0, σ 2 ) poiché postula l’indipendenza (oltre
l’incorrelazione) tra le v.c. t ; la seconda implica che i parametri sono stimati senza
errore. La terza assunzione assume rilievo quando si ha a che fare con processi MA
o misti ed implica che le realizzazioni passate e corrente della v.c. t sono note. Ad
esempio, per un MA(1) essa consente di “invertire” il modello al fine di ottenere
t = yt /(1 + θL); al tempo T ,
T = yT − θT −1 = yT − θyT −1 + θ2 yT −2 − θ3 yT −3 + . . . =
∞
X
(−θ)j yT −j
j=0
e pertanto E(T |FT ) = T è noto, poiché dipende dai valori passati di y. Nella pratica, in cui si dispone esclusivamente di un campione finito, la sequenza t è generata
ricorsivamente ipotizzando 0 = 0: 1 = y1 − θ0 = y1 ; 2 = y2 − θy1 ; . . . , T =
yT − θT −1 .
La previsione da modelli ARIMA viene effettuata applicando le seguenti regole
generali, che discendono direttamente dalle assunzioni precedenti:
ỹT +j|T = y(T +j
T +j
˜T +j|T =
0
per j ≤ 0
per j > 0
per j ≤ 0
Infatti, quando j > 0, il miglior previsore lineare non distorto dei valori futuri di t
è la media incondizionata, ˜T +j|T = E[T +j |FT ] = 0.
L’assunzione 1 implica che l’intervallo di confidenza al 95% attorno al valore
previsto è fornito da:
yT +l = ỹT +l|T ± 1.96[Var(ỹT +l|T )]1/2
Previsione da un modello AR(1): yt = φyt−1 + t
ỹT +1|T =
=
=
ỹT +2|T =
=
=
=
E[yT +1 |FT ]
φE[yT |FT ] + E[T +1 |FT ]
φyT ;
E[yT +2 |FT ]
φE[yT +1 |FT ] + E[T +2 |FT ]
φE[(φyT + T +1 )|FT ] + E[T +2 |FT ]
φ2 yT ;
In generale, le previsioni seguono la formula ricorsiva ỹT +l|T = φỹT +l−1|T , con valore iniziale (l = 0) pari all’ultimo valore osservato, yT . Nei termini di quest’ultimo,
ỹT +l|T = φl yT .
41
Calcoliamo ora la varianza dell’errore di previsione:
Var(ỹT +1|T ) =
=
=
Var(ỹT +2|T ) =
=
=
Var(ỹT +l|T ) =
=
E[(yT +1 − ỹT +1|T )2 ]
E[(φyT + T +1 − φyT )2 ]
σ2;
E[(yT +2 − ỹT +2|T )2 ]
E[(φ2 yT + φT +1 + T +2 − φyT2 )2 ]
σ 2 (1 + φ2 );
E[(yT +l − ỹT +l|T )2 ]
σ 2 (1 + φ2 + φ4 + · · · + φ2(l−1) );
Pertanto,
lim Var(ỹT +l|T ) =
l→∞
σ2
1 − φ2
Previsione da un modello ARIMA(0,1,1) Consideriamo il modello ∆yt =
t + θt−1 :
ỹT +1|T = E[yT +1 |FT ]
= E[yT |FT ] + E[T +1 |FT ] + θE[T |FT ]
= yT + θt ;
ỹT +2|T = E[yT +2 |FT ]
= E[yT +2 |FT ] + E[T +2 |FT ] + θE[T +1 |FT ]
= ỹT +1|T = yT + θt ;
Per l > 1,ỹT +l|T = ỹT +l−1|T = yT + θt e la funzione di previsione è costante. Si
verifica facilmente che se −1 < θ < 0 si effettua un livellamento esponenziale, vale a
dire il valore previsto è una media ponderata dei valori passati della serie, con pesi
decrescenti secondo i termini di una progressione geometrica di ragione −θ:
ỹT +l|T = (1 + θ)
TX
−1
j=0
(−θ)j yT −j
Analogamente si dimostra che le previsioni dal modello
∆2 yt = (1 + θ1 L + θ2 L2 )t
sono equivalenti a quelle dello schema di Holt & Winters, sotto particolari restrizioni
sui parametri θ1 e θ2 .
Esercizio: Calcolare le previsioni l = 1, 2, 3 periodi in avanti effettutate a partire dai
modelli di seguito elencati
yt = 0.5 − .7yt−1 + t , t ∼ W N (0, .1)
∆yt = 0.5 − .7∆yt−1 + t , t ∼ W N (0, .1)
42
yt = 0.2 + t + .4t−1 ,
t ∼ W N (0, .1)
∆yt = 0.2 + t − .4t−1 , t ∼ W N (0, .1)
noto che yT = .40, yT −1 = .35 e T = 0.001, T −1 = −0.031. Calcolare inoltre la varianza dell’errore di previsione.
43
Capitolo 3
Analisi non parametrica delle serie
temporali
3.1
Le medie mobili
Una media mobile (mm) non è altro che una media aritmetica semplice o ponderata
di k osservazioni consecutive della serie temporale. In maniera più formale possiamo
definirla come una trasformazione lineare della serie che può essere rappresentata
come combinazione lineare delle potenze positive e negative dell’operatore ritardo,
L.
m
M=
2
X
wi Li
i=−m1
Pertanto, M yt = w−m1 yt−m1 + · · · + w0 yt + · · · + wm2 yt+m2 .
Il numero delle osservazioni consecutive, m1 + m2 + 1 è denominato ordine della
mm. Una mm si dice centrata qualora m1 = m2 = m; in tal caso
M = L−m (w−m + w−m+1 L + · · · + wm L2m ) = L−m w(L)
dove w(L) è un polinomio di grado 2m in L, detto polinomio associato alla mm.
Inoltre, una mm centrata è simmetrica se w−i = wi , i = 1, . . . , m; il polinomio
associato è simmetrico e L−m w(L) = Lm w(L−1 ).
Valgono le seguenti proprietà: a) la composizione di due mm è ancora una mm;
b) la composizione di due mm centrate è ancora una mm centrata; c) l’insieme delle
mm simmetriche è chiuso rispetto alla composizione.
Nullità di una media mobile Si chiama nullità (spazio nullo) di una media
mobile M l’insieme delle serie temporali yt tali che M yt = 0:
M yt = w−m yt−m + · · · + wm yt+m = 0, ∀t
44
ovvero w(L)yt = 0. Gli elementi dello spazio nullo sono le soluzioni dell’equazione
caratteristica w(r) = 0. Esempio: si consideri la serie {−1, 1, −1, 1, −1, 1}; la media
mobile asimmetrica (1 + L)yt genera {NA, 0, 0, 0, 0, 0}.
Invarianza e nucleo Una serie temporale è invariante rispetto alla mm M se e
solo se M yt = yt ; le serie invarianti soddisfano
M yt = w−m yt−m + · · · + wm yt+m = yt
e si ottengono a soluzione dell’equazione alle differenze finite [w(L) − Lm ]yt = 0.
La mm preserva i polinomi di grado non superiore a p se r = 1 è una radice di
molteplicità p+1 dell’equazione caratteristica w(r)−rm = 0. In tal caso il polinomio
[w(L) − Lm ] contiene il fattore ∆p+1 .
Si consideri ad esempio m = 2, wi = 1/5, i = 0, ±1, ±2; si ha [w(L) − Lm ] =
(1/5)[(1 − L2 ) + (L − L2 ) + (L3 − L2 ) + (L4 − L2 )] = (1/5)(1 − L)2 (1 + 3L + L2 ), il
quale contiene la radice 1 con molteplicità 2.
Teorema Una mm preserva una serie costante se e solo se w(1) = 1, vale a dire
m
X
wi = 1
i=−m
Teorema Una mm simmetrica che preserva la costante preserva anche i polinomi
di primo grado. Sia yt = a + bt; M yt = M a + M bt = a + bM t, ma M t = w−m (t −
m) + · · · + w0 t + · · · wm (t + m) = t.
Teorema Il nucleo di una composizione di medie mobili è dato dall’intersezione
dei nuclei delle mm componenti. Pertanto il prodotto di due mm che preservano
entrambe i polinomi di grado non superiore a p preserva anche esso tali polinomi.
3.2
Effetto fase ed effetto ampiezza
L’applicazione di una media mobile ad una serie determina due effetti: si viene a
modificare l’ampiezza delle fluttuazioni (ad es. i punti di massimo e di minimo
risultano amplificati o attenuati) e si determina uno spostamento di fase, vale a dire
uno spostamento dell’oscillazione lungo l’asse dei tempi.
Dato il generico filtro lineare W (L), si chiama funzione di risposta frequenziale
il termine W (e−ıλ ) che si ottiene sostituendo eıλ = cos λ + ı sin λ a L.
L’effetto relativo all’ampiezza è misurato dal guadagno (gain), il cui quadrato è
denominato funzione di trasferimento
|W (e−iλ )| = [W (e−iλ )W (eiλ )]1/2 .
45
Infatti, data la serie yt , con spettro fy (λ), la densità spettrale di W (L)yt è pari a
|W (e−iλ )|2 fy (λ). Il guadagno (o la funzione di trasferimento) fornisce informazioni
importanti sull’operatività del filtro; ad esempio se è 1 attorno alle frequenze basse,
la mm preserva il trend; se è zero o prossimo a zero in un intorno di alcune frequenze
il filtro elimina le componenti oscillatorie corrispondenti a quelle frequenze.
La fase è rappresentata da
"
W † (λ)
P h(λ) = arctan − ∗
W (λ)
#
dove W † (λ) è la parte reale di W (e−ıλ ) mentre W ∗ (λ) è la parte immaginaria.
La categoria dei filtri bidirezionali simmetrici presenta l’importante caratteristica
di lasciare inalterata la posizione dei punti di svolta delle fluttuazioni dal momento
che la loro fase è nulla ∀λ: infatti essi ammettono la rappresentazione
W (L) = w0 +
m
X
wj (L + L−1 );
W (e−ıλ ) = w0 + 2
j=1
m
X
wj cos λj
j=1
Pertanto, la parte immaginaria della funzione di risposta è nulla e la funzione di fase
assume valore 0 (nessuno spostamento di fase) o π (inversione di fase) se W (e−ıλ ) è
negativa (caso irrilevante). Il guadagno della media mobile è in questo caso G(λ) =
P
|w0 + 2 m
j=1 wj cos λj|.
3.3
L’effetto di Slutzky-Yule
Il filtraggio di un processo t ∼ WN(0, σ 2 ) mediante una mm M conduce ad un
processo M t con media nulla e varianza
Var(M t ) = σ 2
m
X
wj2
j=−m
Il rapporto Var(M t )/σ 2 rappresenta il fattore di inflazione della varianza, che se
inferiore all’unità misura il lisciamento indotto dalla mm. Il processo M t sarà ora
autocorrelato e presenterà in generale 2m autocorrelazioni diverse da zero.
In relazione al filtro utilizzato possono prodursi ciclicità spurie evidenziate dalla
presenza di un massimo relativo nella funzione di trasferimento del filtro. Ai fini del
calcolo approssimato del periodo si può utilizzare la formula 2π/(arccos ρ(1)) dove
ρ(1) è l’autocorrelazione a ritardo 1 di M t . L’effetto di Slutzky-Yule è funzione
crescente del fattore di inflazione della varianza.
46
3.4
Polinomi locali; filtri di Macaulay
Una importante classe di mm si ottiene dall’adattamento di un polinomio a 2h + 1
termini consecutivi di una serie; il polinomio stimato viene utilizzato per stimare il trend nella modalità centrale. Dal momento che la stima dei coefficienti
del polinomio risulta lineare nelle osservazioni, anche la stima del trend lineare. yt = m(t) + t , dove m(t + j) ≈ mt (j) (approssimazione polinomiale locale),
mt (j) = β0 + β1 j + · · · + βp j p , j = −h, . . . , h.
L’obiettivo è quello di ottenere un lisciamento (smoothing) della serie, rimuovendo le fluttuazioni irregolari e isolando una stima del trend ovvero del valore atteso
di yt . L’ idea di fondo è che tale valore atteso varia debolmente nel tempo e che pertanto possa essere approssimato (nel senso dell’approssimazione di Taylor di ordine
p) localmente da un polinomio, che costituisce una funzione di t piuttosto lisciata e
con derivate continue fino ad un certo ordine.
I coefficienti wj della mm possono essere ottenuti adattando alla serie un polinomio locale (su intervalli di lunghezza 2h + 1) attraverso l’ottimizzazione di un
criterio che fa riferimento alla “fedeltà” dell’approssimazione.
min
h
X
i=−h
[yt+j − (β0 + β1 j + · · · + βp j p )]2
La stima del trend al tempo t si ottiene come m̂t = b0 , dove b0 è lo stimatore di β0
e dal momento che gli stimatori dei MQ sono lineari nelle osservazioni si ha
m̂t =
h
X
wj yt+j .
j=−h
Questa quantità fornisce a secondo membro i pesi di una mm centrata che preserva
localmente un polinomio di grado p. Se si denota con C la matrice del disegno

C=













1
−h
(−h)2
1 −(h − 1) [−(h − 1)]2
.
..
...
.
..
1
0
0
..
..
..
.
.
.
1
h−1
(h − 1)2
h
h2
1
···
(−h)p
· · · [−(h − 1)]p
.
..
···
···
···
···
···
0
..
.
(h − 1)p
hp














e con y = [yt−h , . . . , yt+h ]0 , sotto l’ipotesi t ∼ WN(0, σ 2 ), lo stimatore dei minimi
quadrati ordinari di b = [b0 , . . . , bp ]0 risulta
b = (C 0 C)−1 C 0 y;
47
i coefficienti della mm sono forniti dalla prima riga della matrice (C 0 C)−1 C 0 .
m̂t = b0 = e01 b = e01 (C 0 C)−1 C 0 y = w0 y
dove w0 = e01 (C 0 C)−1 C 0 , e, denotando con c(ij) il generico elemento della matrice
(C 0 C)−1 si ha
m̂t =
p
X
(1l)
c
l=1
(11)
dalla quale si evidenzia c
wj = c
h
X
j l yt+j
j=−h
= w0 e in generale
(11)
(12)
+c
(1p) p
j + ···c
j =
p
X
c(1l) j l
l=1
Pertanto,
m̂t = e01 b = e01 (C 0 C)−1 C 0 y = w0 y
Proprietà:
1. La media mobile ottenuta mediante questo argomento preserva ovviamente i
polinomi di grado p: se infatti yt = m(t), con mt (j) = β0 + β1 j + · · · + βp j p , j =
−h, . . . , h, allora m̂t = m(t): basta porre y = Cβ, β = [β0 , . . . , βp ]0 ; segue
m̂t = w0 (Cb) = e1 β = β0 = yt . Si noti che w0 C = e1 implica:
[
h
X
j=−h
wj = 1,
h
X
j l wj = 0, l = 1, . . . , p
j=−h
e pertanto preserva tutti i polinomi di grado inferiore a p. La somma dei
coefficienti è unitaria e pertanto viene preservata la costante.
2. Simmetria: wj = w−j ; consegue dal disegno simmetrico dei punti temporali
presi in considerazione.
3. I pesi giacciono su un polinomio di grado k. Si confronti la formula precedente,
dove k = [p/2], dove [p/2] = p/2 per p pari e [p/2] = (p − 1)/2 per p dispari.
Pertanto se p = 0, 1 i pesi sono costanti; per p = 2, 3 giacciono su una retta
4. Le medie calcolate con riferimento ai polinomi di ordine pari sono le stesse di
quelle calcolate per p + 1. Questo dovuto al fatto che la somma delle potenze
dispari di i e identicamente nulla per effetto della simmetria.
5.
w0 w =
h
X
wj2 = e01 (C 0 C)−1 C 0 C(C 0 C)−1 e1 = e01 (C 0 C)−1 e1 = w0
j=−h
il primo elemento dell’inversa che pari a w0 Il fattore di inflazione della varianza
P
è pari a w0 ( wi2 = w0 )
48
Esercizio: dimostrare che se m = k, k = [q/2], dove [q/2] = q/2 per q pari e
= (q − 1)/2 per q dispari, ˆ(t) = ht (0) = yt .
3.4.1
Varianza e distorsione
Dalla teoria dei MQO Var(m̂t ) = σ 2 w0 dal momento che il primo elemento della
matrice (CC)−1 corrisponde a w0 . Per dato q, si dimostra che la varianza decresce
al crescere di m, mentre per dato m essa cresce con k, k = [q/2], dove [q/2] = q/2
per q pari e = (q − 1)/2 per q dispari. Essa pertanto rimane inalterata se si passa
dal grado q pari al grado q + 1. (questo si dimostra con il fatto che la mm e il trend
estratto coincidono).
La distorsione è nulla se E(yt ) è esattamente un polinomio di grado p, altrimenti
E(yt − mt ) = h(t) −
m
X
wi h(t + i).
i=−m
Tra la distorsione e la varianza esiste il trade-off per cui all’aumentare di m diminuisce la varianza ma aumenta la distorsione.
3.5
Medie mobili aritmetiche semplici
Una mm aritmetica semplice è tale che wi = w = 1/(2m + 1); essa si ottiene per
p = 0, 1, vale a dire quando il polinomio locale è una semplice costante o una retta,
P
nel qual caso le equazioni normali forniscono â0 = (2m + 1)−1 m
i=−m yt+i .
Le mm semplici possono essere anche derivate a soluzione del seguente problema
di ottimo vincolato: minimizzare il coefficiente di inflazione della varianza sotto il
vincolo di somma ad uno dei coefficienti:
min
m
X
wi2 ,
s.v.
i=−m
m
X
wi = 1.
i=−m
La soluzione fornisce appunto wi = 1/(2m + 1) (media aritmetica semplice).
Il polinomio caratteristico associato alla mm è
w(L) =
(1 − L2m+1 )
1
(1 + L + · · · + L2m ) =
,
2m + 1
(2m + 1)(1 − L)
e la nullità della mm. è rappresentata dai processi periodici di periodo 2m + 1
(dispari).
Il nucleo della mm è rappresentato dalle sequenze costanti e lineari, ma non
da quelle quadratiche: se si considera infatti yt = a + bt + ct2 si ha che M yt =
a + bt + ct2 + cm(m + 1)/3.
49
Il guadagno è fornito da
Œ
Œ
Œ
Œ
m
Œ
Œ sin(m + 1/2)λ Œ
Œ
X
1
1
Œ
Œ
Œ
Œ
G(λ) =
Œ1 + 2
Œ
Œ
Œ=
cos(λi)
Œ
Œ
Œ
2m + 1 Œ
2m
sin(λ/2)
+
1
i=1
ed è nullo per λ = (2πj)/(2m + 1), j = 1, . . . , 2m. Se applicata ad un processo
WN, il fattore di inflazione della varianza è pari a (2m + 1)−1 e la funzione di
autocorrelazione di M t è una linea retta inclinata negativamente.
3.5.1
Componente stagionale di periodo s pari
La mm aritmetica di un numero pari di termini (s = 4, 12) non è centrata rispetto
alla modalità temporale di riferimento. Possiamo infatti costruire le due mm:
∗
=
y1t
1
(yt−m + · · · + yt+m−1 );
2m
∗
y2t
=
1
(yt−m+1 + · · · + yt+m )
2m
con m = s/2. Al fine di ottenere una mm centrata in t possiamo prendere
1 ∗
1
∗
yt∗ = (y1t
+ y2t
)=
(.5yt−m + yt+m+1 + · · · + yt+m−1 + .5yt+m )
2
2m
Il polinomio associato è w(L) = (2s)−1 (1 + L)S(L) = (2s)−1 (1 + L)∆s /(∆), con
S(L) = 1 + L + · · · + Ls−1 .
3.6
Composizione di mm aritmetiche
La composizione di mm aritmetiche consente di derivare una famiglia di mm di
agevole calcolo che costituiscono buone approssimazioni di mm più sofisticate. Ad
esempio, se desiderassimo una mm che preservi i polinomi di grado uno e che elimini
un pattern stagionale con ampiezza linearmente crescente, si può applicare due volte
una mm a s termini:
M =
=
1
(Ls + · · · + L + 1 + L−1 + · · ·
s
1
(Ls + 2Ls−1 + · · · + (s − 1)L
s2
+ L−s+1 ) × 1s (Ls−1 + · · · + L + 1 + L−1 + · · · + L−s )
+ s + (s − 1)L−1 + · · · + 2L−s+1 + L−s )
Il polinomio caratteristico è proporzionale a S(L)2 .
Tuttavia, le mm aritmetiche consentono di preservare i polinomi di grado non
superiore al primo. Le mm di Spencer superano questa limitazione. In particolare
esse, pur essendo caratterizzate da una struttura di coefficienti molto semplice, eliminano una componente stagionale di periodo s con ampiezza variabile in maniera
lineare, etc..
50
3.7
Lisciamento e filtri di Henderson
In un paragrafo precedente abbiamo desunto le mm aritmetiche come soluzione del
problema di min w0 w sotto il vincolo w0 i = 1. Un criterio alternativo è basato sulla
minimizzazione della forma quadratica w0 Ωw, dove w0 = (w−m , . . . , w0 , . . . , wm e Ω è
una matrice simmetrica e definita positiva. Nel caso delle medie mobili di Henderson
0
Ω = D3 D3 , D è la matrice tale che Dw = (w−m , w−m+1 − w−m , . . . , wm − wm−1 )0 .
min
m
X
(∆3 wi )2 ,
s. v. C 0 w = c
i=−m+3
dove i vincoli sono relativi alla preservazione dei polinomi di ordine p.
X
wi = 1,
i
X
ij wi = 0, j = 1, 2, . . . , p
(3.1)
Al fine di comprendere la natura dei vincoli, consideriamo una polinomiale di
ordine p:
yt =
p
X
βj tt
j=1
Affinché sia
M yt =
m
X
i=−m
wi yt+i =
m
X
i=−m
wi
p
X
βj (t + i)j ,
0j=1
devono essere soddisfatte le relazioni (3.1). Il lisciamento della mm viene misurato
dalla somma dei quadrati delle differenze terze dei coefficienti; questa quantità è
nulla se essi si dispongono lungo una parabola.
La soluzione è fornita da w = Ω−1 C(C 0 Ω−1 C)−1 c. Per p = 2, ponendo k = m+2:
315[(k + 1)2 − i2 ](k 2 − i2 )[(k + 1)2 − i2 )(3k 2 − 16 − 11i2 )
wi =
8k(k 2 − 1)(4k 2 − 1)(4k 2 − 9)(4k 2 − 25)
Tali medie non elimininano la stagionalità, sebbene per una scelta opportuna di m
se ne può ridurre significativamente l’ampiezza.
3.8
Il trattamento delle estremità della serie
I due approcci fondamentali per il trattamento delle estremità della serie sono di
seguito schematizzati:
1. Impiego di medie mobili asimmetriche per t = T − m + 1, . . . , T a 2m, 2m −
1, m + 1 termini. Pertanto, gli ultimi m termini della serie sono soggetti a
revisione quando una nuova osservazione si rende disponibile.
2. Estrapolazione (e retropolazione) della serie: ỹT +l|T , l = 1, . . . , m.
Se le previsioni sono lineari i due approcci sono equivalenti.
51
Capitolo 4
La destagionalizzazione delle serie
temporali
4.1
Introduzione
La stagionalità rappresenta una delle maggiori fonti di variabilità dei fenomeni aziendali. La sua rilevanza induce a ritenere che essa sia di autonomo interesse; tuttavia, esistono argomenti sufficientemente fondati ed istituzionalmente riconosciuti
che inducono ad isolarla e rimuoverla da una serie storica al fine di evidenziare
segnali meno appariscenti, ma altrettanto significativi dal punto di vista interpretativo, identificabili con la componente ciclica e la componente di lungo periodo, o
tendenziale.
Una procedura di destagionalizzazione, come la X-12-ARIMA, oggetto del presente capitolo, si fonda sul presupposto che non sussistano interazioni tra le componenti di una serie temporale, ed in particolare tra la stagionalità e le altre componenti; sotto queste ipotesi mira a eliminare una sovrastruttura dovuta a fattori
istituzionali, di calendario e climatici, legati all’alternarsi delle stagioni e diversi da
quelli che presiedono alla componente di ciclo-trend, che possono essere legati alle
aspettative degli operatori, al clima economico prevalente, alla diffusione delle innovazioni tecnologiche, e cosı̀ via. Il grado di realismo di tale assunzione è stato ed è
tuttora oggetto di un ricco ed approfondito dibattito.
Un punto fermo rimane comunque il fatto che la disponibilità di informazioni
statistico-economiche destagionalizzate costituisce un fabbisogno informativo diffuso, soprattutto da parte degli utilizzatori meno esperti o semplicemente meno
interessati all’analisi statistica delle serie temporali, e sanzionato dai regolamenti
comunitari, che invitano gli Istituti di Statistica dei paesi membri a produrre serie
destagionalizzate in maniera routinaria, secondo determinati standard qualitativi.
Al fine di illustrare l’operatività di una procedura di destagionalizzazione faremo
riferimento ad una serie mensile molto famosa nella letteratura, la serie Airline,
52
Figura 4.1: Destagionalizzazione della serie Airline.
Serie originaria
6.5
Trasformazione logaritmica
600
6
500
400
5.5
300
5
200
50
500
Serie destagionalizzata
55
60
50
55
60
Serie originaria e ciclo-trend
600
400
airline
TRairline
500
400
300
300
200
200
50
55
60
50
55
60
relativa al numero dei passeggeri di una linea aerea nel periodo Gennaio 1941 Dicembre 1961. Da essa prende il nome il modello Airline introdotto nel capitolo
precedente, dal momento che questo ben si adatta alla serie e in generale presenta un
buon adattamento per un ampio spettro di fenomeni economici che presentano trend
e stagionalità. La figura 4.1 evidenzia la presenza di un trend crescente e di una
stagionalità abbastanza regolare, che tuttavia presenta un ampiezza delle oscillazioni
crescente al crescere del trend: siamo in presenza di una situazione tipica in cui
la trasformazione logaritmica elimina questa ultima caratteristica, come mostra il
secondo pannello.
Il modello della classe ARIMA adattato alla serie risulta:
∆∆12 ln yt = (1 − 0.40L)(1 − 0.56L12 )t ,
con σ̂ 2 = 0.013, e supera tutti i test diagnostici. Gli ulteriori pannelli della figura
4.1 mostrano rispettivamente la serie destagionalizzata ottenuta come output della
procedura X-12, che come vedremo usa il modello ARIMA soltanto strumentalmente,
al fine di ottenere estensioni della serie mediante previsione, e la componente di ciclotrend. Le due differiscono dal momento che la prima contiene anche una stima della
componente irregolare, fornendo dunque un segnale meno lisciato.
Quello che la serie destagionalizzata consente di evidenziare e che non era palese
a prima vista è la presenza di alcune flessioni cicliche, di natura temporanea, in
particolare nell’anno 1958.
53
4.2
La procedura X-12-ARIMA
La procedura X-12-ARIMA è stata sviluppata dal Census Bureau degli Stati Uniti
con l’intento di sostituire la versione precedente, nota come X-11-ARIMA, che ha
rappresentato a lungo la procedura di destagionalizzazione impiegata da soggetti
istituzionali. Essa, distribuita in via sperimentale mediante il sito
ftp://ftp.census.gov/pub/ts/x12a/,
assieme al manuale ed al paper illustrativo (Findley et al., 1996), contiene elementi
di continuità rispetto alla precedente versione, ma anche forti punti di rottura. La
novità essenziale è rappresentata dal modulo RegARIMA, che va a sovrapporsi al
nucleo originale della procedura X-11-ARIMA e che riporta su basi inferenziali il
trattamento di aspetti che precedentemente ricevevano soluzioni ad hoc.
In particolare, RegARIMA consente di adattare alla serie Yt modelli del tipo
s
φ(L)Φ(L )∆
d
∆D
s
yt −
K
X
k=1
!
βk xkt = θ(L)Θ(Ls )t ,
(4.1)
dove yt = f (Yt /dt ) è la trasformazione di Box-Cox della serie Yt corretta dei fattori
dt (ad es. per il diverso numero dei giorni lavorativi).
Le variabili esogene xk sono a) predefinite; b) definite dall’utente. Tra le prime
troviamo, oltre alle dummy stagionali, quelle per la diversa lunghezza dei mesi, per
l’effetto degli anni bisestili, per il numero dei giorni lavorativi, distintamente per
variabili di flusso e di stock, per la Pasqua e altre festività mobili; per i valori
anomali additivi, cambiamenti di livello, rampe temporanee. Inoltre, per quanto
concerne il trattamento automatico dei valori anomali, si assiste all’introduzione
delle procedure di forward addition e backward deletion.
Findley et al. (1996) descrivono le procedure di selezione della trasformazione
preliminare della serie, del modello ARIMA (nel caso si usi l’opzione automatica), di
stima dei parametri, etc.. Queste operazioni rientrano nella metodologia standard e
non vengono discusse ulteriormente. In effetti, RegARIMA costituisce un pacchetto
applicativo che può essere utilizzato autonomamente per l’identificazione, stima e
verifica di modelli ARIMAX secondo la metodologia di Box & Jenkins, trascendendo
dall’impiego funzionale all’estrapolazione della serie per l’applicazione in sequenza
del filtro X-11-enhanced.
Dopo aver realizzato l’aggiustamento preliminare e la previsione e retropolazione
della serie, si applica una versione arricchita del filtro X-11 che verrà descritta in
maniera più approfondita nei paragrafi che seguono. L’arricchimento ha riguardato la possibilità di specificare medie mobili di Henderson e stagionali di qualsiasi
lunghezza, la ridefinizione delle medie mobili asimmetriche e l’introduzione della
scomposizione “pseudo-additiva”.
54
Si noti che X-12, incorporando il modulo X-11, consente l’impiego delle preesistenti tecniche di aggiustamento per i valori anomali e per le componenti di
calendario, seppure il loro impiego appare ovviamente non opportuno.
La fase di diagnosi della bontà della destagionalizzazione conclude la procedura.
In realtà viene evidenziato un feedback con le fasi precedenti, poiché alcuni effetti
potrebbero essere individuati soltanto in questa sede. Gli strumenti diagnostici di
nuova introduzione sono: sliding spans, revision histories, la stima della densità
spettrale dei residui del modello regARIMA per l’individuazione della stagionalità
residua e delle componenti di calendario.
4.3
Il filtro di destagionalizzazione (Enhanced X11)
I modelli di scomposizione della serie storica Yt , t = 1, . . . , T , utilizzati dalla
procedura sono i seguenti:
Modello
Moltiplicativo (default)
Additivo
Log-additivo
Pseudo-additivo
Scomposizione
Serie destagionalizzata
At = Tt × It
Yt = Tt × St × It
Yt = Tt + St + It
At = Tt + It
ln Yt = Tt + St + It At = exp(Tt + It )
Yt = Tt (St + It − 1) At = Tt × It
La scomposizione pseudo-additiva è applicabile nei riguardi di serie che assumono
valori comunque non negativi, ma prossimi allo zero in alcune stagioni. Il modello
log-additivo fornisce stime della componente tendenziale distorte verso il basso; per
tale motivo si applica una correzione ad hoc atta ad assicurare che la media annua
della serie destagionalizzata coincida con quella della serie originaria.
Nella schematizzazione del filtro che segue presenteremo una esemplificazione
riferita ai modelli moltiplicativo (M) e additivo (A) applicati su dati mensili, s = 12.
La procedura X-11 risulta divisa in tre fasi ed è iterata tre volte, (iterazioni B,
C, D): le prime due iterazioni sono dedicate all’identificazione e alla stima finale dei
valori anomali, nel caso in cui l’aggiustamento preliminare non sia effettuato con
regARIMA; l’ultima alla destagionalizzazione in senso stretto sulla serie corretta1 .
Di seguito descriveremo esclusivamente l’iterazione D; i riferimenti utilizzati sono
prevalentemente Findley et al. (1996) e Ghysels et al. (1995).
1
In realtà una prima iterazione, A, è dedicata all’aggiustamento preliminare della serie effettuata
con pesi a priori per i diversi giorni di calendario specificati dall’utente.
55
4.3.1
Prima fase: stime iniziali
(1)
1. Stima iniziale del trend-ciclo, Tt , mediante media mobile centrata a 12
termini (m.m. 2 × 12):
(1)
Tt = C(L)Yt

‘
1
1
1 −6
con C(L) = 24
(1+L)S(L)L−6 = 12
L + L−5 + · · · + L−1 + 1 + L + · · · + L5 + 12 L6 Yt .
2
La media mobile in questione elimina una stagionalità deterministica di
periodo pari a 12 mesi, preservando le altre componenti.
(1)
2. Stima iniziale della componente stagionale-irregolare, SIt , (rapporti - o differenze - SI):
(1)
t
(M )
SIt = Y(1)
(A)
(1)
SIt
dove
Tt
(1)
= Yt − Tt
= SM (L)Yt
SM (L) = 1 − C(L).
La divisione o sottrazione della stima preliminare del trend ciclo fornisce una
stima iniziale della componente stagionale-irregolare.
(1)
3. La serie SIt è suddivisa in 12 gruppi mensili. Si procede a perequare i rapporti applicandovi una media mobile a 5 termini (m.m. 3 × 3) separatamente per
ciascun mese, dando luogo ad una stima preliminare dei cd. fattori stagionali
(seasonal factors),
(1)
(1)
Ŝt = M1 (L)SIt
con
1
1
2
3 2
1
M1 (L) = (L−12 + 1 + L12 )2 = L−24 + L−12 + + L12 + L24 .
9
9
9
9 9
9
Le medie mobili mirano a eliminare la componente irregolare dalla componente
stagionale-irregolare.
(1)
4. Si ottengono i fattori stagionali iniziali, St , le cui somme annuali sono pari
rispettivamente a 12 (M) e a zero (A).
(1)
(1)
Ŝt
(M )
St
=
(A)
(1)
St
= SM (L)Ŝt
(1)
C(L)Ŝt
(1)
Questa operazione effettua la centratura dei fattori stagionali.
56
(1)
5. Stima iniziale della serie destagionalizzata, At :
(1)
Yt
(1)
St
(M )
At =
(A)
At = Yt − St
(1)
(1)
La divisione per i fattori stagionali (M) o la sottrazione dei medesimi (A)
genera una stima della serie destagionalizzata.
4.3.2
Seconda fase: fattori stagionali e destagionalizzazione
(2)
1. La stima intermedia della componente trend-ciclo, Tt , viene calcolata appli(1)
cando una m.m. di Henderson alla serie At ;
(2)
Tt
(1)
= Hm (L)At
con Hm (L) = hm L−m + · · · + h1 L−1 + h0 + h1 L + · · · + hm Lm .
Il filtro di Henderson riproduce un trend cubico e può essere derivato equivalentemente: (a) minimizzando la varianza delle differenze terze della serie
(2)
filtrata (∆3 Tt ); (b) minimizzando la somma dei quadrati delle differenze terze dei coefficienti della media mobile; (c) adattando alla serie un trend cubico
con i minimi quadrati ponderati, minimizzando la somma dei quadrati delle
differenze terze dei pesi. Cfr Kenny & Durbin, 1982, JRSS, A, 145. Vedi anche
Kendall 1973. I valori tipici di m sono 4, 6 e 11, dando luogo a m.m. di 2m + 1
termini. I coefficienti hj possono essere ricavati dall’applicazione dell’algoritmo presentato in Findley et al. (1996, Appendice A): essi sono riportati nella
tabella 1 per alcuni valori di m.
La scelta di m è resa automatica dalla procedura Variable Trend Cycle Routine:
(2)
(1)
(1)
(2)
si considera inizialmente m = 6, T̂t = H6 (L)At ; il rapporto Iˆt = At /T̂t ,
(1)
(2)
o la differenza Iˆt = At − T̂t , rappresenta una stima preliminare della componente irregolare. Denotando con T̄ la media campionaria di |∆T̂t | e con I¯
¯ che rappresenta una misura,
quella di |∆Iˆt |, si costruisce il rapporto R = T̄ /I,
anche se abbastanza rozza, di lisciamento del trend (R−1 misura di roughness);
la routine sceglie m = 4 se R−1 < 1.0 e m = 6 se 1.0 ≤ R−1 < 3.5.
2. Nuova stima dei rapporti SI:
(M )
(A)
(2)
(2)
SIt = Yt /Tt
(2)
(2)
SIt = Yt − Tt
3. Con riferimento ai 12 gruppi mensili dei rapporti SI si calcolano stime preli(2)
minari dei fattori stagionali, Ŝt , mediante media mobile 3 × 5:
(2)
Ŝt
(2)
1
(L−36 + 2L−24 + 3L−12 + 3 + 3L12 + 2L24 + L36 )SIt
= 15
(2)
= M2 (L)SIt
57
j
0
±1
±2
±3
±4
±5
±6
±7
±8
±9
±10
±11
m=4
.33114
.26656
.11847
-.00987
-.04072
Pesi
m=6 m=8
.24006 .18923
.21434 .17639
.14736 .14111
.06549 .09229
.00000 .04209
-.02786 .00247
-.01935 -.01864
-.02037
-.00996
m = 11
.14406
.13832
.12195
.09740
.06830
.03893
.01343
-.00495
-.01453
-.01569
-.01092
-.01453
Tabella 4.1: Filtro di Henderson: pesi hj per le m.m a 9, 13, 17 e 23 termini
dove
M2 (L) =
1 −12
+ 1 + L12 )(L−24 + L−12 + 1 + L12 + L24 )
(L
15
L’opzione default effettua la scelta della media mobile 3 × r, r = 3, 5, 9, in
maniera è automatica, mediante il sottoprogramma Seasonal-Factor Curve
Routine:
(2)
(p)
(a) Si calcola una m.m. a 7 termini dei rapporti SIt mese per mese, St =
(2)
M2 (L)SIt , considerando gli anni per i quali si dispone di un set di
rapporti completo.
(p)
(b) Si ottiene la stima della componente irregolare, It , dal rapporto o dif(2)
(p)
ferenza tra SIt e St .
(c) Separatamente per ciascun mese si calcola il cd Moving Seasonality Ratio,
(p)
M SR, fornito dal rapporto tra la media aritmetica di |∆It | e quella di
(p)
|∆St | (M SR rappresenta dunque una misura di “roughness” del pattern
stagionale), e la scelta di r è effettuata come segue: r = 3 se M SR ≤ 2.5;
r = 5 se 3.5 ≤ M SR ≤ 5.5; r = 9 se M SR ≥ 6.5; negli altri casi
si ridetermina M RS escludendo l’ultimo anno di osservazioni; se nessun
criterio è applicabile si continua con l’esclusione di un anno alla volta fino
ad un massimo di cinque, e se non si ottiene una risposta si prende r = 5.
58
4. Si effettua la centratura dei fattori stagionali:
(2)
(2)
Ŝt
(M )
St
=
(A)
(2)
St
= SM (L)Ŝt
(2)
C(L)Ŝt
(2)
5. Destagionalizzazione:
(2)
(2)
At = Yt /St
(2)
(2)
At = Yt − St
(M )
(A)
La stima preliminare della componente irregolare si consegue rispettivamente
(2)
(2)
(2)
(2)
(2)
(2)
come It = At /Tt e It = At − Tt .
4.3.3
Terza fase: stima finale delle componenti
1. La stima finale della componente tendenziale viene calcolata applicando una
(2)
m.m. di Henderson alla serie At ;
(3)
Tt
(2)
= Hm (L)At
L’ordine del filtro viene determinato ex novo dalla variable trend cycle routine,
la quale ora consente la scelta m = 11 qualora R−1 ≥ 3.5.
(3)
2. La stima finale della componente irregolare è fornita ripettivamente da It
(2)
(2)
(3)
(3)
(3)
At /Tt e It = At − Tt .
=
La scomposizione finale risulta:
(M )
(A)
4.4
(3)
(2)
(3)
Yt = Tt × St × It
(3)
(2)
(3)
Yt = Tt + St + It
Le proprietà teoriche del filtro
Prescindendo dal trattamento dei valori anomali e dalla limitazione temporale della
serie, che richiede la modifica dei filtri alle estremità della serie, il filtro X-11 è una
sequenza di medie mobili che dà luogo ad un filtro lineare2 applicato a Yt , le cui
proprietà sono state approfondite nel dominio temporale e frequenziale.
Sebbene dal punto di vista operativo la scomposizione moltiplicativa sia utilizzata
più di frequente, le proprietà del filtro sono state investigate nel caso additivo (Wallis,
2
Per una diversa opinione si veda Ghysels et al. (1996).
59
1974, Ghysels e Perron, 1993). Ovviamente, i risultati possono essere estesi al caso
moltiplicativo, via il caso log-additivo.
Seguendo l’approccio di Ghysels e Perron (1993), scriviamo:
(2)
At = νX−11 (L)Yt
dove
νX−11 (L) = 1 − SM (L)M2 (L) + SM (L)M2 (L)Hm (L) − SM 3 (L)M1 (L)M2 (L)Hm (L)
Analogamente, possono essere desunti i filtri per l’estrazione delle componenti:
(3)
Tt
= Hm (L)νX−11 (L)Yt
(2)
St
= [1 − νX−11 (L)]Yt
(3)
It
= [1 − Hm (L)]νX−11 (L)Yt
Da ciascuna di queste rappresentazioni è possibile derivare i pesi applicati alla serie
Yt per estrarre la componente; inoltre, la funzione di trasferimento del filtro consente
la comprensione degli aspetti principali dell’operatività del filtro. Se wj rappresenta
il peso associato al j-esimo ritardo, il guadagno del filtro è dato da G(λ) = w0 +
PJ
2 j=1
wj cos(λj).
Le figure 1 e 2 mettono in luce tre aspetti fondamentali del filtro:
• il filtro è relativamente insensibile a variazioni della lunghezza delle medie mobili fondamentali; il filtro è pertanto ad hoc e non si adatta alle caratteristiche
della serie, dando luogo alla possibilità di sovra o sotto aggiustamento;
• il filtro non è idempotente: se applicato alla serie destagionalizzata genera la
componente stagionale St∗ = [1 − νX−11 (L)]νX−11 (L)Yt 6= [1 − νX−11 (L)]Yt =
(2)
St ;
• il filtro può estrarre stagionalità spuria.
Al fine di illustrare la scarsa flessibilità del filtro, consideriamo il problema di destagionalizzare la serie mensile di fonte ISCO BDIGENGS che rappresenta il livello
degli ordini e della domanda dall’interno per il totale industria (saldi). La serie viene
presentata nella figura 4.4 assieme allo pseudospetto in decibels (10 × log10 f (λ)) stimato con una finestra di Daniell, che mette in evidenza, tra l’altro, la concentrazione
di potenza attorno alle frequenze stagionali.
L’aggiustamento stagionale realizzato dalla procedura X-12 viene messo a confronto con quello effettuato da SEATS a partire dal modello ARIMA (3, 1, 0) ×
(1, 0, 0)12 . La scelta dell’ordine del polinomio AR non stagionale (p = 3) è imposta
dai limiti di SEATS; la diagnostica fornisce comunque un quadro sostanzialmente
60
accettabile. Il coefficiente AR stagionale è pari a -.57 e sottintende un modello di
stagionalità stazionario. La procedura X12 è stata applicata con la specificazione
additiva.
Il grafico delle serie destagionalizzate ed il loro pseudospettro sono riportate nella figura 4.4; si noti che il pattern stagionale estratto da X12 è notevolmente più
stabile di quello estratto da SEATS. Lo pseudospettro mette in luce che il primo
domina il secondo, con la conseguenza che la serie destagionalizzata con SEATS si
presenterà più liscia (Froeb e Koyak, 1995) e che il fenomeno della sovraddifferenziazione, percepibile dai minimi relativi alle frequenze stagionali, ha una rilevanza
minore per SEATS.
4.5
Correzione dei valori anomali nell’X-11
La correzione dei valori anomali costituisce una delle fonti di non linearità del filtro
X-11. Sebbene tale operazione possa essere effettuata in via preliminare all’applicazione del filtro X-11 mediante regARIMA, qui di seguito descriviamo la routine
originaria, ricordando che viene applicata nelle due iterazioni della procedura, B e
C, le cui fasi sono identiche a quelle descritte nella sezione 1.
(1)
La routine entra in azione alla fine della prima fase, in cui si ottiene It =
(1)
(1)
(1)
SIt − St . Con riferimento a It si calcola la deviazione standard mobile σI per
sottoperiodi di 5 anni (60 osservazioni mensili consecutive). I valori della componente irregolare dell’anno centrale che escono dai limiti 2.5σI sono rimossi e le deviazioni
standard ricalcolate; queste sono poi reimpiegate per ottenere la seguente funzione
ponderatrice:





1
wt =  2.5 −


 0
(1)
se
(1)
|It |
σI
0 ≤ |It | ≤ 1.5σI
(1)
se
se
1.5σI < |It | ≤ 2.5σI
(1)
|It | > 2.5σI
Per le osservazioni tali che wt < 1 i corrispondenti rapporti (o differenze) SI sono
(1)
sostituiti dalla media di wt SIt e dei due valori precedenti e successivi più vicini
riferiti allo stesso mese con peso unitario. Successivamente vengono ricalcolati e
centrati i fattori stagionali.
La procedura viene impiegata anche all’inizio della seconda fase, con la correzione
(2∗)
(2)
(2)
dei rapporti SI, facendo riferimento a It = SIt − St . Inoltre viene applicata
(2)
(2)
(1)
(1)
(2)
(2)
con riferimento a It = At /Tt (M) o It = At − Tt (A): a) al fine di escludere
i valori estremi dall’analisi delle componenti di calendario; b) prima di ottenere le
(2)
stime finali (fase 3) in corrispondenza dei valori wt < 1, At viene rimpiazzato dalla
(2)
media di wt At e due valori precedenti e successivi più vicini con peso unitario.
61
(3)
Infine, nella fase finale, con riferimento a It , i pesi sono calcolati per ottenere i
fattori di correzione da applicare alle osservazioni originarie:
(3)
(3)
Ft =
1 + (It − 1)wt
(3)
It
=
It wt + (1 − wt )
(3)
It
=
It∗
(3)
It
Vengono calcolati i cosidetti valori estremi (extreme values) come reciproco dei
fattori di correzione Ft : Ot = Ft−1 .
4.6
Le componenti di calendario
Consideriamo innanzitutto l’effetto della diversa lunghezza dei mesi; a tal fine denotiamo il numero dei giorni di calendario nel mese t con Nt ; questo non costituisce un
effetto puramente stagionale, avendo periodo pari a 4 anni per la presenza dell’anno
bisestile; sopra un ciclo di 4 anni la media di Nt è pari a N̄ = 365.25/12 = 30.4375, e
rappresenta la componente di livello in Nt . Sempre a partire da Nt possiamo definire
la variabile stagionale: Nt∗ = Nt se t 6= 2 modulo 12 e Nt∗ = 28.5 se t = 2 mod 12
(mese di febbraio). Pertanto Nt∗ è periodica con periodo pari a 12 mesi. L’effetto
della lunghezza del mese può essere visto come composto da trend, N̄ , stagionalità,
ed un residuo “ciclico”; nel caso moltiplicativo:
Nt = N̄
Nt∗ Nt
N̄ Nt∗
(4.2)
mentre nel caso additivo:
Nt = N̄ + (Nt∗ − N̄ ) + (Nt − Nt∗ )
La componente residua è dovuta alla presenza dell’anno bisestile (leap year effect)
ed ha valori non nulli solo nel mese di febbraio.
Denotiamo ora con Djt il numero delle volte in cui il j-esimo giorno della settimana (Lunedı̀, . . . , Domenica), entra nel mese t e con δj l’effetto corrispondente (il tasso
P
P
medio di attività relativo al giorno j); si avrà pertanto Nt = j Djt , δ̄ = 7j=1 δj /7.
L’effetto cumulato nel mese t sarà dato da
T Dt =
7
X
δj Djt = δ̄Nt +
j=1
6
X
(δj − δ̄)(Djt − D7t )
(4.3)
j=1
La seconda componente misura l’effetto legato alla composizione dei diversi mesi;
essa ha somma nulla sopra un numero di mesi che contiene un numero intero di
settimane, e pertanto non interferisce con la componente trend; la prima è dovuta
alla diversa lunghezza dei mesi e per la sua presenza T Dt conterrà una componente
di livello e una componente stagionale.
62
Dal momento che nel modello di scomposizione della serie sono già presenti le
componenti trend e stagionalità, questi possono essere scorporati da T Dt dividendo
(caso moltiplicativo) - sottraendo (caso additivo) - per δ̄Nt∗ :
(M )
(A)
P
D
7t
T Dt∗ = NN∗t + 6j=1 δj∗ jtN−D
∗
t
t
P
T Dt∗ = δ̄(Nt − Nt∗ ) + 6j=1 δj∗ (Djt − D7t )
Si ottiene pertanto che T Dt∗ misura l’effetto dei giorni lavorativi e degli anni bisestili
(componente ciclica di Nt ). Se si desidera rimuovere soltanto l’effetto trend, si divide
o si sottrae per δ̄ N̄ . L’effetto corrispondente misura, oltre agli effetti in T Dt∗ l’effetto
stagionale della diversa lunghezza del mese.
La procedura X-11 stima gli effetti TD a partire da una stima preliminare della
componente irregolare e stima i coefficienti δj∗ nel modello Iˆt = T Dt∗ + et mediante
i MQO. X-12 li stima direttamente sulla serie Yt , utilizzando il modello additivo,
nella fase regARIMA preliminare all’aggiustamento. L’evidenza empirica si rivela a favore di questa seconda strategia (Chen et al., 1995). Nel caso si adotti la
trasformazione logaritmica della serie la stima degli effetti TD mediante il modello
additivo rappresenta un’approssimazione di Taylor del primo ordine (Findley et al.,
1996). Pertanto, i regressori predefiniti nella spec: REGRESSION sono le sei variabili Djt − D7t e lom= Nt − N̄ o leap year= Nt − Nt∗ . Si noti che se D > 0 in (4.1),
l’effetto lom e lom più leap year coincidono. L’aggiustamento può essere effettuato
in maniera preliminare in sede di trasformazione di Yt −→ Yt /dt , con dt = Nt /N̄t o
Nt /Nt∗ .
X-12 offre l’opzione automatica per determinare se includere gli effetti TD nel
modello (4.1): effettua la stima del modello in presenza degli effetti (dt = Nt /Nt∗ e
regressori Djt − D7t ) ed in loro assenza e si seleziona il modello che fornisce il più
piccolo AIC.
4.7
4.7.1
Diagnostica
Test di stagionalità
Una successione di test di stagionalità sono applicati nel corso della procedura:
(1)
a) Test FS per l’assenza di stagionalità nei rapporti o differenze SIt , proporzionale al rapporto tra la varianza tra i mesi e la varianza entro i mesi dei rapporti
SI; si suggerisce il livello di significatività .001.
(2)
b) Test FM per l’assenza di stagionalità evolutiva applicato alla serie |SIt | nel
(2)
caso additivo e |SIt − 100| nel caso moltiplicativo: la varianza totale è scomposta
in varianza tra i mesi, varianza tra gli anni e varianza residua; il test è proporzionale
al rapporto tra la varianza tra gli anni e la varianza residua.
63
c) Test congiunto per la presenza di stagionalità non identificabile. Vengono presi
in considerazione i test FS , FM ed il test nonparametrico di Kruskal-Wallis (KW)3 .
Si dice che la stagionalità è identificabile quando FS e KW sono significativi, mentre
FM cade nella zona di accettazione. Si è in presenza di stagionalità non identificabile
qualora: il test FS non risulta significativo al livello .001; FS e FM sono significativi
rispettivamente al livello .001 e .05, e la media aritmetica tra T1 = 7/(FM − FS ) e
T2 = 3FM /FS è non inferiore all’unità. Non si esclude la presenza di stagionalità
identificabile qualora FS è significativo, il test FM è non significativo e T1 , T2 < 1 o
KW non è significativo.
d) Test FS per l’assenza di stagionalità residua applicato alla serie completa ed
(2)
(2)
(2)
agli ultimi tre anni di At − At−s/4 (nel caso trimestrale ∆At ).
4.7.2
Nuova diagnostica su stagionalità residua e l’effetto
del n. giorni lavorativi
La presenza di stagionalità residua viene studiata stimando la densità spettrale dei
residui alle frequenze stagionali con riferimento agli anni più recenti (default: ultimi 8 anni). X-12-ARIMA produce automaticamente queste stime per le differenze
prime della serie destagionalizzata e per la stima finale della componente irregolare.
Viene effettuato il confronto con le due frequenze immediatamente vicine e se queste
sono inferiori di un dato margine, il programma produce il messaggio che i picchi
sono “visually significant”. Gli stimatori spettrali sono due: il periodogramma e lo
stimatore autoregressivo con 30 ritardi.
Analogamente, per valutare la presenza di effetti legati ai giorni della settimana,
si valuta la significatività dei picchi alle frequenze 2π × .348 e 2π × .432.
4.7.3
(3)
Test di casualità dei residui It
a) Un test non parametrico di autocorrelazione del primo ordine è fornito dalla
statistica ADR (Average Duration of Run), la quale misura il numero medio di
variazioni mensili consecutive nella stessa direzione. Per serie mensili di oltre dieci
anni valori esterni all’intervallo [1.36, 1.75] sono da considerare significativi.
3
Il test di Kruskal-Wallis è un’alternativa al test F parametrico dell’analisi della varianza che
non richiede l’assunzione di normalità e che sfrutta soltanto l’ordinamento delle osservazioni.
s
KW =
X Rj2
12
− 3(T + 1)
T (T + 1) j=1 nj
dove Rj è la somma dei ranghi (per rango intendendosi il numero d’ordine dell’osservazione nell’ordinamento non decrescente) per la stagione j e nj è il numero degli anni in cui si presenta
la stagione j (solitamente nj = n = T /s). Sotto l’ipotesi nulla di assenza di stagionalità e di
indipendenza dei rapporti SI, KW ∼ χ2 con s − 1 gradi di libertà.
64
b) Periodogramma cumulativo normalizzato e test di Kolmogorov-Smirnov
4.7.4
Bontà della destagionalizzazione
Undici grandezze diagnostiche sono previste con la finalità di valutare la bontà della
destagionalizzazione: M1 : misura sintetica del contributo relativo della componente
irregolare It2 /Yt2 . M2 : misura sintetica del contributo relativo della componente
irregolare alla varianza della serie, resa stazionaria rimuovendo un trend lineare
(versione additiva e log-additiva) o esponenziale (versione moltiplicativa); M3 =
R−1 , (cfr. Variable Trend Cycle Curve Routine); M4 = ADR (Average Duration
(3)
(3)
of Run); M5 : numero di mesi richiesto affinché |∆Tt | > |∆It |; M6 = M SR
(Moving Seasonality Ratio); M7 = 100FM /FS (stagionalità variabile rapportata alla
(2)
stagionalità stabile); M8 misura della variabilità tra gli anni di St ; M9 trend lineare
(2)
medio nei fattori stagionali finali, St ; M10 e M11 sono identici alle due misure
precedenti, ma sono calcolate solo per gli anni più recenti.
Il campo di variazione è [0, 3] e la regione di accettazione [0, 1]. Le statistiche M1 -M11 sono poi aggregate in un’unica misura sintetica della bontà della
destagionalizzazione, Q.
4.7.5
Diagnostiche basate sulla stabilità delle stime
Un metodo di destagionalizzazione è detto stabile se la serie destagionalizzata non
è suscettibile di variazioni significative con l’aggiunta di nuove osservazioni. La
stabilità è una caratteristica desiderabile per la previsione a breve termine ed è
appetibile per i produttori di dati e per il policy maker.
Le quantità diagnostiche disponibili in X-12-ARIMA si basano sulla revisioni
nella serie At con l’aggiunta di nuove osservazioni. Sia At|j la stima della serie
destagionalizzata che utilizza le osservazioni fino al tempo j; quando j = t abbiamo
il cd. concurrent estimator (CE), mentre nel caso j = T abbiamo la stima più
recente (more recent estimator), MR. Nel caso della scomposizione moltiplicativa
viene fornito l’indice di revisione da CE a MR:
Rt|T = 100 ×
At|T − At|t
At|t
e per dati J0 e J1 , viene fornita la sequenza Rt|T per J0 ≤ t ≤ J1 (revision historyRH). Per la scelta di J0 si suggerisce un numero di periodi almeno pari alla lunghezza
del filtro stagionale.
Dal momento che spesso l’interesse si appunta sulle variazioni relative del fenomeno, piuttosto che sul suo livello assoluto, X-12 prende in considerazione anche l’indice
65
di revisione relativo al tasso di variazione uniperiodale della serie destagionalizzata:
∆
= 100 ×
Rt|j
At|j − At−1|j
,
At−1|t
e la corrispodente RH. Un ulteriore impiego delle RH è la determinazione del numero
di anni su cui estendere la serie per previsione, come argomentano Findley et al.
(1996).
Recentemente, Findley et alii (1990) hanno proposto le cd. sliding span diagnostics. Queste si fondano sul confronto tra i dati destagionalizzati prendendo in
considerazione gruppi mobili di osservazioni (spans) che si sovrappongono mediante
l’aggiunta sequenziale di un anno di osservazioni alla volta e l’eliminazione dell’anno
iniziale. Le stime At sono giudicate affidabili se non variano sensibilmente da un
gruppo all’altro.
Si supponga di considerare K(= 4) gruppi di lunghezza pari ad N anni; su
(k)
ciascuno viene applicata la procedura di destagionalizzazione e si denoti con Ŝt il
fattore stagionale associato al k-esimo gruppo, k = 1, . . . , K. La lunghezza degli
span risulta uguale a quella minima necessaria per l’applicazione dei filtri MA della
procedura X-11 e risulterà pertanto pari a N = 6, 8, 11 rispettivamente nei casi in
cui si scelgano le medie mobili 3 × 3, 3 × 5, 3 × 9 per perequare i fattori stagionali.
Si dice che il fattore stagionale al tempo t è inaffidabile se
(k)
Stmax
=
maxk Ŝt
(k)
− mink Ŝt
> .03
(k)
mink Ŝt
Poiché l’obiettivo della destagionalizzazione è quello di ottenere misure delle variazioni mensili, si propone di valutare altresı̀
(k)
(k)
M Mtmax = max
k
∆At
(k)
At
− min
k
∆At
(k)
At
> .03
Al fine di cogliere se l’instabilità riguarda periodi contigui o stagioni particolari,
la stima della variazione relativa su base annua è giudicata inaffidabile se
(k)
(k)
Y
Ytmax
= max
k
∆12 At
(k)
− min
k
At
∆12 At
(k)
At
> .03
Misure sintetiche possono essere ottenute mediante la percentuale di mesi con
fattori stagionali non affidabili, S(%), con variazioni relative mensili inaffidabili
(M M (%)) e variazioni annuali innaffidabili (Y Y (%)). Se ad esempio S(%) > 25 la
serie non dovrebbe essere destagionalizzata.
Per un efficace giudizio critico su queste statistiche, vedasi Maravall (1996). In
poche parole, la loro utilità sarebbe ristretta alla scelta tra la destagionalizzazione
66
diretta o indiretta (mediante le serie componenti) di un aggregato e nella selezione
della lunghezza del filtro. Più oscuro il ruolo nella decisione se aggiustare o meno tout
court, poiché l’instabilità è una proprietà della serie e non (soltanto) della procedura
di destagionalizzazione.
67
Figura 4.2: Pesi e funzioni di trasferimento per il filtro X-11 default
68
Figura 4.3: Pesi e funzioni di trasferimento per il filtro X-11 con filtro di Henderson
a 17 termini
69
Figura 4.4: Serie BDIGENGS: livello degli ordini e della domanda dall’interno per
il totale industria (saldi), ISCO.
Series: bdigen
Smoothed Periodogram
-10
0
spectrum
10
-50 -40 -30 -20 -10
0
20
10
BDIGENGS
1986
1988
1990
1992
Time
1994
1996
0
1
2
3
4
5
frequency
bandwidth= 0.0571957 , 95%
C.I. is ( -4.41115 , 9.00983 )dB
SEATS: Comp. Stagionale
-10
-8
-6
-5
-4
-2
0
0
2
5
4
X12: Comp. Stagionale
6
1986
1988
1990
1992
Time
1994
1996
1998
1986
1988
1992
Time
1994
1996
Series: bdigen.adj
Smoothed Periodogram
-10
0
spectrum
10
-40 -30 -20 -10
0
20
10
S.Dest. X12:____, SEATS:....
1990
1986
1988
1990
1992
Time
1994
1996
0
1
2
3
4
5
frequency
bandwidth= 0.0819443 , 95%
C.I. is ( -3.85117 , 6.96677 )dB
bandwidth= 0.0819443 , 95% C.I. is ( -3.85117 , 6.96677 )dB
70
6
Capitolo 5
Analisi Econometrica di Dati non
Stazionari
5.1
Introduzione
Buona parte dell’informazione statistica, soprattutto in campo macroeconomico, è
organizzata in senso temporale; la cosiddetta Econometria delle serie storiche, proponendosi di stimare relazioni esistenti tra variabili osservate nel tempo, ha dedicato
un’attenzione crescente alle proprietà dinamiche del processo generatore dei dati.
Ciò ha portato, nel corso dell’ultimo decennio, ad una profonda rivisitazione delle
basi statistiche della modellistica econometrica che ha fatto leva sui concetti di integrazione e cointegrazione, introdotti al fine di interpretare una delle caratteristiche
principali delle serie macroeconomiche: l’assenza di stazionarietà.
Di questi aspetti ci occuperemo ora con il seguente programma: nel paragrafo
2 verrà introdotta la particolare forma di non stazionarietà legata alla presenza
di integrazione; di questa vengono illustrati gli effetti sulla dinamica dei processi
e sulle inferenze statistiche. Si discute quindi come condurre dei test parametrici
per verificarne la presenza in una serie storica (par. 3 e 4). Il par. 5 considera le
implicazioni dal punto di vista interpretativo mediante la contrapposizione di due
teorie relative alla dinamica di lungo periodo del sistema economico. Per processi
integrati la dinamica viene descritta come la reazione del sistema ad innovazioni di
tipo casuale; di qui l’interesse a misurare la persistenza degli shock (par. 6). I par. 7
e 8 trattano l’estensione del concetto di integrazione a processi di natura stagionale
e introducono il test HEGY di integrazione stagionale. Si passerà poi all’ambito
bivariato al fine di discutere gli effetti dell’integrazione sulle inferenze che possono
essere tratte da un modello a ritardi distribuiti (par. 10). Verranno quindi introdotti
due concetti complementari: il meccanismo a correzione dell’errore di equilibrio e la
cointegrazione, i quali presuppongono l’esistenza di una relazione di lungo periodo
tra le serie esaminate (par 11-12).
71
5.2
Stazionarietà ed integrazione
Un processo stocastico può essere definito come una sequenza di variabili casuali
{yt } indicizzate da un parametro t appartenente ad un insieme parametrico T .
Poiché nel seguito ci limiteremo a considerare la classe dei processi stocastici continui
a parametro discreto, avremo T = 0, 1, . . .. Nelle applicazioni econometriche si
dispone, per ogni t, di una singola realizzazione della v.c. yt , per cui il processo
inferenziale presenterebbe complicazioni insuperabili se non venissero imposte due
classi di restrizioni sulle caratteristiche del processo: la stazionarietà e l’ergodicità.
In particolare, diremo che un processo stocastico è stazionario in senso debole se
i suoi momenti fino al secondo sono finiti ed indipendenti da t, vale a dire E(yt ) = µ,
E(yt −µ)2 = γ0 e E[(yt −µ)(yt−k −µ)] = γk = γ−k , ∀t, k, dove γk denota la covarianza
tra yt e yt−k che si assume essere funzione esclusivamente di k. L’ergodicità richiede
invece che la “memoria” del processo sia limitata cosı̀ che eventi distanti nel tempo
abbiano un basso grado di dipendenza.
Utili strumenti per la caratterizzazione di un processo stazionario sono la funzione di autocorrelazione e densità spettrale; la prima è definita ρk = γk /γ0 , k = 0, 1, . . .
mentre la seconda da
"
#
∞
X
1
γ0 + 2
f (ω) =
γk cos ωk ,
2π
k=1
dove ω è la frequenza in radianti che assume valori in [0, π].
Il processo stazionario più elementare è costituito da una sequenza di variabili
casuali incorrelate a media nulla e varianza costante: esso è denominato white noise,
ed indicato con εt ∼ WN(0, σ 2 ), dove E(εt ) = 0, E(εt2 ) = σ 2 e E(εt εt−k ) = 0 per
k 6= 0.
Alla classe dei processi in questione si applica un importante risultato noto come
teorema di Wold: esso afferma che ogni processo stazionario può essere scomposto in due processi stocastici stazionari e mutualmente incorrelati, uno dei quali è
deterministico mentre l’altro (indeterministico) è il processo lineare:
P
zt = εt + C1 εt−1 + C2 εt−2 + · · · ,
con Ck2 < ∞.
Consideriamo ora un processo autoregressivo del primo ordine (AR(1)):
yt = φyt−1 + εt
t = 1, 2, . . . , T
con εt ∼ WN(0, σ 2 ); è noto allora che se il processo è stazionario, vale a dire se
|φ| < 1, lo stimatore dei minimi quadrati
φ̂ =
T
P
yt yt−1
t=2
T
P
t=2
72
(5.1)
2
yt−1
è
√
T -consistente ed inoltre
√

‘
T (φ̂ − φ) →d N 0, (1 − φ2 ) .
E’ immediato constatare che questo risultato non è più valido se φ = 1. In
questo caso, noto nella letteratura anglosassone come random walk (RW), yt è nonstazionaria perché risulta Var(yt ) = tσ 2 ; ciò può essere visto risolvendo l’equazione
alle differenze finite
yt = yt−1 + εt .
Sotto specifiche ipotesi riguardanti i valori iniziali, εs = 0 per s ≤ 0 e y0 noto (non
stocastico), si ottiene infatti la soluzione
yt = y0 +
t−1
X
εt−j .
(5.2)
j=0
La natura di tale processo (la varianza linearmente crescente) implica che esso
possa vagare indefinitamente lontano dal valore iniziale con il procedere del tempo;1
in altre parole, diversamente dal processo autoregressivo stazionario descritto prima,
non gode della proprietà di “regressione” verso la media (mean reversion). Si noti
anche che ŷT +l = E(yT +l |yT ) = yT ; pertanto tutta l’informazione sul comportamento
del processo è contenuta nell’ultima realizzazione.
Il random walk è inoltre un processo dalla memoria lunga in quanto il peso
delle realizzazioni passate della v.c. εt nella determinazione del presente rimane
inalterato, mentre nel caso del processo autoregressivo stazionario decade in maniera
esponenziale. Dalla (2) emerge infatti che la derivata parziale di yt rispetto a εt−k è
pari a uno, indipendentemente dal valore di k.
Il RW è un esempio di processo integrato del primo ordine, ovvero, con notazione
sintetica, yt ∼ I(1); introduciamo dunque la seguente definizione:
Def. Ordine di integrazione: il processo yt è integrato di ordine d, e scriveremo
yt ∼ I(d), se le differenze d-esime ∆d yt ammettono una rappresentazione di Wold
stazionaria e invertibile.
In altre parole applicando d volte l’operatore differenza, ∆ = 1 − L, si ottiene un
processo stazionario ed invertibile, per il quale vale la tradizionale teoria asintotica.
Es. 1: yt = 2yt−1 − yt−2 + εt + θεt−1 , yt ∼ I(2) ⇐⇒ |θ| < 1 ;
Es. 2: yt = β0 + β1 t + β2 t2 + εt non è I(2), bensı̀ I(0) con trend deterministico di secondo
grado.
1
Notiamo, per inciso, che nel caso |φ| > 1 siamo in presenza di un processo non stazionario
(esplosivo) la cui varianza cresce esponenzialmente con t.
73
Il comportamento dei processi integrati differisce da quello dei processi stazionari anche per un altro aspetto; la presenza di un termine costante in un modello
autoregressivo non ha conseguenze drammatiche sulle sue proprietà temporali:
yt = µ + φyt−1 + εt
t = 1, 2, . . . , T
yt è infatti un processo stazionario attorno a m = E(yt ) = µ/(1 − φ), ed è noto
che m e φ possono essere stimati in maniera (asintoticamente) indipendente; inoltre
i momenti di ordine superiore al primo non sono affetti dalla presenza della media, la quale si configura come un parametro di disturbo eliminabile prendendo in
considerazione il processo scarti dalla media.
Vediamo invece cosa accade nel caso φ = 1: il processo
∆yt = µ + εt
t = 1, 2, . . . , T
è ancora I(1), ma le sue realizzazioni sono notevolmente diverse da quelle di un RW;
mediante sostituzione successiva troviamo infatti che
yt = y0 + µt +
t−1
X
εt−j
j=0
e che pertanto il valor medio del processo è un trend lineare deterministico attorno al
quale le oscillazioni si fanno sempre più accentuate.2 Tuttavia, in una realizzazione
finita il comportamento di detto processo può essere non troppo dissimile da quello
di un processo stazionario attorno ad un trend lineare, e ciò è tanto più vero quanto
più Var(εt ) è bassa. Quanto ottenuto nel caso del RW è generalizzabile nella maniera
seguente: se yt ∼ I(d) senza drift allora yt contiene un trend polinomiale di ordine
d − 1; se invece yt ∼ I(d) con drift, yt contiene un trend polinomiale di ordine d.
In molte circostanze ha rilievo determinare l’ordine di integrazione di una variabile. Un caso molto noto riguarda la trasformazione da adottare preliminarmente alla
specificazione di un modello ARMA al fine di ottenere la stazionarietà. Tuttavia, come vedremo nel seguito, l’ordine di integrazione possiede un contenuto informativo
autonomo sulle proprietà dinamiche della serie.
Si potrebbe tentare il ricorso ai tradizionali strumenti di identificazione quali
il correlogramma, ma quest’ultimo presenta una serie di limiti atti a sconsigliarne
l’impiego. Dal punto di vista teorico la funzione di autocovarianza del RW non tende
a zero rapidamente, risultando Cov(yt , yt−τ ) = E[(yt − y0 )(yt−τ − y0 )] = σ 2 |t − τ |;
pertanto, quando t è elevato relativamente a τ il processo è altamente autocorrelato.
Tuttavia in realizzazioni “brevi” il correlogramma stimato potrebbe erroneamente
indurre ad accettare l’ipotesi di stazionarietà.
Lo scopo dei paragrafi successivi è appunto quello di analizzare il problema dal
punto di vista dell’inferenza parametrica introducendo una batteria di test per la
verifica delle ipotesi concernenti l’ordine di integrazione di una serie.
2
Il processo è denominato Random Walk with Drift; si noti che se yt è espresso in logaritmi il
drift rappresenta il tasso medio di crescita.
74
5.3
Il test di Dickey e Fuller
Fuller (1976, p. 367) ha studiato le proprietà dello stimatore (1) sotto l’ipotesi
φ = 1, vale a dire quando il meccanismo generatore dei dati è un RW.
Un primo risultato riguarda la proprietà di superconsistenza dello stimatore:
nell’ipotesi che y0 = 0 e εt ∼ N ID(0, σ 2 )
φ̂ − 1 = Op (T −1 )
il che significa che quando il valore vero è φ = 1, la stima converge in probabilità a
tale valore più rapidamente che nel caso stazionario. Il risultato è dovuto al fatto
che al crescere di T il denominatore cresce, relativamente al numeratore, ad un ritmo
superiore rispetto al caso stazionario.
Malgrado φ̂ sia (super)consistente, non gode tuttavia della proprietà di correttezza asintotica e la sua distribuzione non è normale, ma asimmetrica a sinistra:
questo implica che la stima di φ è distorta verso il basso e che se ci fidassimo ciecamente delle stime dei minimi quadrati saremo indotti a rifiutare l’ipotesi di una
radice unitaria più spesso del dovuto.
La distribuzione di φ̂ non è standard; la tavola 8.5.1 del libro di Fuller (p. 371)
fornisce i percentili della funzione di ripartizione della v.c T (φ̂−1) ottenuti attraverso
la simulazione Monte-Carlo sotto l’ipotesi φ = 1 per le dimensioni campionarie
T = 25, 50, 100, 250, 500 e ∞.
L’ipotesi nulla può essere testata facendo ricorso alla statistica
T
φ̂ − 1 X
2
τ̂ =
yt−1
s
t=2
! 21
,
con s2 pari alla somma dei quadrati dei residui, che sotto H0 non è più distribuita
come una t di Student. La distribuzione è riportata nella tavola 8.5.2, p. 373 del
libro di Fuller.
Un’altra rilevante differenza dal caso stazionario, che abbiamo avuto modo di
rilevare nel paragrafo precedente, è relativa alla circostanza che, sotto H0 : φ = 1,
la distribuzione non è invariante rispetto alla presenza di un termine costante: in
questo caso il modello di riferimento è
yt = µ + φµ yt−1 + εt
t = 1, 2, . . . , T
e le tavole sopra citate riportano i percentili delle distribuzioni empiriche di T (φˆµ −1)
e della statistica τˆµ = (φ̂µ − 1)/se(φ̂µ ).
Dickey e Fuller (DF) tabulano i valori di τˆµ nell’ipotesi che il processo generatore
dei dati abbia, oltre a φµ = 1, µ = 0. Pertanto, il solo fatto che il modello stimato
contenga un termine costante ha effetto sulla distribuzione di τ̂µ anche quando µ = 0.
75
Tuttavia se il processo generatore ha un termine ha effettivamente µ 6= 0, ed il
modello stimato include un termine costante, si dimostra che τ̂µ −→d N (0, 1). Tale
apparente anomalia si spiega, euristicamente, col fatto che il processo in questione
è asintoticamente dominato dal trend deterministico (dovuto all’accumulazione del
termine costante).
Se si rigetta H0 allora yt è un processo stazionario con media che può anche
non risultare significativa in base al canonico test t (poiché vale la tradizionale
teoria asintotica). Quando invece è accettata l’ipotesi di radice unitaria diventa
rilevante accertarsi se il drift assume un valore significativamente diverso da zero.
Ora, la distribuzione asintotica del t test associato al parametro µ sotto l’ipotesi nulla
(φµ = 1), che indichiamo con τ̂αµ , non è normale, sebbene sia ancora simmetrica. Un
test bidirezionale dell’ipotesi µ = 0 può essere basato sulla distribuzione empirica
tabulata da Dickey e Fuller (1981). Qualora risulti che µ =
6 0 allora la distribuzione
di τ̂µ tende asintoticamente ad una normale standard, per cui la zona di accettazione
sarà più ridotta rispetto alla distribuzione DF. Se invece il test τ̂µ non è significativo
si prende come modello generatore ∆yt = εt .
Infine potremmo essere interessati a testare la presenza di una radice unitaria
nel modello
t = 1, 2, . . . , T
yt = µ + βt + φτ yt−1 + εt
(5.3)
La terza parte della tavola di DF presenta i percentili della distribuzione della statistica test associata a yt−1 , τ̂τ , simulata per φτ = 1 e β = 0: in questo caso la
distribuzione di τ̂τ cessa di dipendere da µ, ma dipende da β, e se β 6= 0 torna ad
essere asintoticamente normale.
Come nel caso precedente, se la presenza di una radice unitaria è accettata, la
distribuzione del test t sui coefficienti µ e β non è standard (ed è tabulata da Dickey
e Fuller, cfr. τ̂ατ e τ̂βτ ). Allora, tenuto fermo che φ = 1, se risulta significativo il
test τ̂βτ , la statistica τ̂τ associata a yt−1 nel modello di partenza ha distribuzione
asintotica normale e pertanto si farà riferimento alle tavole ordinarie per decidere se
accettare H0 o meno; qualora esso risulti non significativo allora yt ∼ I(1).
Al fine di minimizzare il rischio di inferenze non corrette, rischio dovuto alla
presenza di parametri di disturbo che sotto determinate condizioni cambiano le proprietà distributive delle statistiche test, viene generalmente suggerita una procedura
top down che parte dalla specificazione più generale (3) allo scopo di valutare in
primo luogo l’impatto di β e poi quello di µ sulle inferenze circa la presenza di radici
unitarie.
Es. 3. Applichiamo il test di DF alla serie trimestrale relativa al tasso si disoccupazione,
Italia 1970Q1-1990Q4.
ln yt = 0.3077
+0.0020t +0.8165 ln yt−1
(0.1129) (0.0008) (0.0699)
Si ottiene τ̂τ = (0.8165 − 1)/0.0699 = −2.62 e τ̂βτ = 2.411. Pertanto si accetta H0 : φ = 1
76
con β = 0. Si noti infine che τ̂ατ = 2.73 è molto prossimo al valore critico al 10%, suggerendo
che un RW+drift può essere un valido punto di partenza.
In sintesi il test di Dickey e Fuller ha la seguente struttura:
Modello
yt = φyt−1 + εt
yt = µ + φµ yt−1 + εt
yt = µ + βt + φτ yt−1 + εt
H1
Statistica test
H0
τ̂
φ=1 φ<1
φµ = 1 φµ < 1
τ̂µ
φτ = 1 φτ < 1
τ̂τ
Si noti che i valori delle statistiche test possono essere derivati immediatamente dalle
statistiche t relative ai coefficienti di yt−1 nelle regressioni:3
∆yt = φ∗ yt−1 + εt
∆yt = µ + φ∗µ yt−1 + εt
∆yt = µ + βt + φτ∗ yt−1 + εt
in questa parametrizzazione l’ipotesi nulla implica che il coefficiente di regressione
di yt−1 è pari a zero e ciò può essere testato ricorrendo ai valori tabulati da Dickey
e Fuller (si ha ad es. φ∗ = φ − 1).
Es. 4. Per i dati dell’esempio precedente:
∆ ln yt = 0.3077
+0.0020t −0.1835 ln yt−1
(0.1129) (0.0008) (0.0699)
e pertanto ττ = −0.1835/0.0699 = −2.62.
Per verificare l’ipotesi yt ∼ I(d) per d > 1 si effettua un test DF sulle differenze
d-esime; ovviamente l’alternativa è che la serie sia integrata di ordine d − 1.
5.4
Il test ADF
I modelli finora considerati sono eccessivamente semplificati; in particolare si è supposto che la v.c. εt sia incorrelata nel tempo e omoschedastica. Ci si è chiesti allora
come modificare le inferenze sulle radici unitarie in presenza di autocorrelazione ed
eteroschedasticità.
Phillips e Perron (1988) propongono di operare opportune modifiche non parametriche alle statistiche test considerate precedentemente al fine di non alterare la
loro distribuzione asintotica.
La via alternativa proposta da Said e Dickey (1984) si fonda sull’idea di approssimare un processo lineare mediante un processo autoregressivo di ordine adeguato.
3
E’ sufficiente sottrarre yt−1 da ambo i membri.
77
Supponiamo allora che yt ∼ AR(p) e proponiamoci di testare la presenza di una
radice unitaria nel polinomio autoregressivo. Ciò può essere effettuato notando che
è sempre possibile riscrivere φ(L) = 1 − φ1 L − . . . − φp Lp come
φ(L) = φ(1)L + ∆φ† (L)
†
dove φ† (L) = 1 − φ†1 L − . . . − φp−1
Lp−1 è il polinomio autoregressivo di ordine p − 1
il cui termine generico è φ†j = −
p
P
i=j+1
φi .
Se ad esempio prendiamo in considerazione il modello φ(L)yt = εt , la presenza
di una radice unitaria nel polinomio autoregressivo comporta che φ(1) = 0; pertanto
è possibile riparametrizzare il modello autoregressivo nella maniera seguente:
∗
∆yt = φ yt−1 +
p−1
X
φ†j ∆yt−j + εt ,
(5.4)
j=1
P
dove φ∗ = −φ(1) = pj=1 φj − 1. La procedura test consiste nel verificare la presenza
di una radice unitaria nella regressione “aumentata” (4) attraverso l’usuale impiego
della statistica t associata con yt−1 , la cui distribuzione è asintoticamente indipendente dai parametri φj† e pertanto coincide con quella tabulata da Fuller; il test per
la presenza di una radice unitaria prende il nome di Augmented Dickey-Fuller test.
Il problema lasciato aperto dall’ADF riguarda ovviamente la determinazione dell’ordine p del polinomio autoregressivo, che appare piuttosto arbitraria. Si suggerisce
di partire da un ordine sufficientemente elevato, con riserva di ridurlo se i coefficienti
del polinomio autoregressivo φ† (L) non risultino significativi; per questi ultimi vale
la tradizionale teoria asintotica: le stime MQO sono consistenti, hanno distribuzione normale e sono efficienti (se l’ordine p è correttamente specificato). Occorre
comunque controllare che i residui della (4) risultino sbiancati.
Es. 5. Per la serie del PIL italiano a prezzi 1985 (1970:q1,1993:q1) è stato stimato il
modello:
∆ ln yt = .8176+0.0004t−0.0689 ln yt−1 +0.5250∆ ln yt−1 +.1159∆ ln yt−2 +−.1805∆ ln yt−3
dal quale risulta che τ̂τ = −2.00 e τ̂βτ = 1.80, portando all’accettazione di H0 con β = 0.
5.5
Trend e RW nelle serie economiche
L’ordine di integrazione di una variabile economica ha rilevanti implicazioni di natura interpretativa. La questione è stata originariamente sollevata da Nelson e Plosser (1982), i quali esaminano alcune macrovariabili statunitensi alla luce della contrapposizione di due processi/modelli miranti entrambi ad interpretare l’assenza di
stazionarietà nelle serie economiche:
78
1. Processi TS (trend-stationary): processi la cui componente evolutiva di lungo
periodo è esprimibile nei termini di una funzione deterministica del tempo e la
cui componente di breve periodo è rappresentata da un processo stazionario a
media nulla:
(5.5)
yt = f (t) + ct
nel caso di trend lineare
yt = α + δt + ct
(5.6)
dove ct ha una rappresentazione ARMA(p, q) stazionaria e invertibile. Nel
lungo periodo il fenomeno ha un’evoluzione deterministica nella cui determinazione il presente ed il passato non hanno alcun ruolo, mentre l’informazione
rilevante per la previsione è la posizione nel tempo.
2. Processi DS (difference-stationary): processi per i quali le differenze d-esime
della variabile yt ammettono una rappresentazione ARMA stazionaria ed invertibile. La controparte del processo TS (6) è dunque:
(1 − L)yt = µ + νt
(5.7)
α(L)νt = γ(L)εt
(5.8)
Al fine di stabilire il collegamento tra le due classi di processi, si supponga che
ct e νt siano WN e si noti che mediante sostituzione successiva nella (7) si ottiene:
yt = y0 + µt +
t−1
X
εt−j .
j=0
A questo punto è evidente come entrambi i processi possano essere scritti in
termini di una funzione lineare del tempo t; tuttavia emergono due importanti differenze: in primo luogo il termine costante (intercetta) dipende nel secondo caso
dalla storia del processo (è il valore iniziale), mentre è un parametro fisso nel primo; in secondo luogo le deviazioni dalla componente lineare sono stazionarie per il
processo TS ma non lo sono per quello DS, la cui varianza aumenta indefinitamente
al crescere di t.
Da ciò consegue che mentre le previsioni dal modello TS non sono influenzate,
nel lungo periodo, dagli shock casuali provenienti da εt , quelle del modello DS conserveranno l’influenza dei fatti storici intervenuti; inoltre la varianza dell’errore di
previsione cresce senza limiti.
Al fine di discriminare tra i due tipi di processo si noti che entrambi sono sono
casi particolari di
φ(L)yt = µ + βt + εt ;
ovvero il processo è DS se
Pp
j=1
φj = 1 e β = 0.
79
Adottando quindi la reparametrizzazione del paragrafo precedente, in particolare:
∆yt = µ + βt +
φ∗τ yt−1
+
p−1
X
φ†j ∆yt−j + εt ,
j=1
φ∗τ
si effettua un test ADF dell’ipotesi
= 0 e β = 0. Nel caso di accettazione
dell’ipotesi nulla si concluderà che la serie appartiene alla categoria DS.
Nelson e Plosser applicarono questo test ad insieme di serie economiche statunitensi, concludendo che, ad eccezione del tasso di disoccupazione, la totalità delle
serie risulta DS.
Es. 6. Per la serie del PNL Statunitense dal 1910 al 1970 risulta:
∆ ln yt = 0.8035 + 0.0056t − 0.1734 ln yt−1 + 0.4250∆ ln yt−1
dal quale τ̂τ = −2.93 e τ̂βτ = 3.01, portando all’accettazione dell’ipotesi nulla H0 : φ∗ = 1,
con β = 0.
Questi risultati mettevano in discussione la maniera tradizionale di rappresentare
la non stazionarietà, consistente nel pensare la serie nei termini della somma di due
componenti ortogonali, ciclo e trend, quest’ultimo rappresentato da una funzione
del tempo (una funzione lineare o quadratica, una logistica). La conseguenza più
rilevante, dal punto di vista interpretativo, è che viene a cadere la tradizionale
distinzione tra forze che determinano il comportamento del sistema nel breve periodo
e forze che determinano le fluttuazioni cicliche: quando infatti il processo generatore
è integrato le innovazioni sono persistenti, influendo sulla dinamica di lungo periodo.
Si osservi anche che differenziando un processo TS si ottiene un termine di disturbo che è strettamente non invertibile e che pertanto non ammette una rappresentazione autoregressiva. Viceversa, l’eliminazione di un trend lineare mediante
regressione di yt su una costante e il tempo t, a lungo adottata come una trasformazione preliminare all’analisi econometrica strutturale, dà luogo ad un processo
stazionario se e solo se yt ∈ TS.
Nelson e Kang (1984) hanno approfondito le conseguenze derivanti dal considerare un processo DS alla stregua di uno TS: supponiamo che ad un processo yt ∈ DS
venga ugualmente adattato un trend lineare e proponiamoci di considerare cosa avviene alle tradizionali statistiche di regressione. Allora abbiamo che gli scostamenti
da un trend lineare sono forniti da
yt − α − βt = (y0 − α) − (µ − β)t +
t−1
X
εt−j .
j=0
Il termine di errore è allora fortemente autocorrelato (un RW) e le stime degli errori
standard e le statistiche t per la significatività dei parametri sono distorte e portano
ad esagerare la significatività dei parametri. Anche il coefficiente di determinazione
80
R2 risulterà elevato, ma la bontà dell’adattamento è soltanto illusoria, poiché si
ha un caso di regressione spuria. Inoltre, e ciò assume una rilevanza particolare
per l’analisi del ciclo economico, i residui dal trend mostrano periodicità del tutto
artificiali4 .
La scomposizione di Beveridge-Nelson Beveridge e Nelson (1981) hanno mostrato che un processo DS ammette un’unica scomposizione additiva in una componente tendenziale, generata da un processo random walk, e in una componente
ciclica, generata da un processo stazionario. Il risultato prende le mosse dalla definizione del trend come previsione di lungo periodo della serie; il suo rilievo, attestato
dal numero dei lavori che nel corso degli anni 80 e 90 hanno fatto riferimento ad
esso, deriva dal fatto che il trend è intrinsecamente stocastico, risultando dall’effetto
cumulato della propagazione di shock. In tal modo BN forniscono la chiave interpretativa in senso strutturale di un modello ARIMA(p, 1, q). Per l’estensione a processi
I(2) e a processi integrati stagionalmente, si veda Proietti (1995).
Gli autori partono dalla considerazione della rappresentazione di Wold di un
processo DS, ∆yt = m+C(L)εt = m+wt , dove si è posto wt = C(L)εt . La previsione
l periodi in avanti, ỹt+l|t = E[yt+l |Yt ], è fornita dall’equazione alle differenze del
primo ordine: ỹt+l|t = ỹt+l−1|t + m + w̃t+l|t , la cui soluzione generale è
ỹt+l|t = yt + lm +
l
X
w̃t+i|t .
i=1
Beveridge e Nelson procedono dunque alla definizione della componente permanente o trend, µt , con approccio predittivo, come il valore che yt assumerebbe se si
giacesse sul sentiero di lungo periodo, o, in maniera equivalente, come il valore corrente della serie più “all forecastable future changes in the series beyond the mean
rate of drift” (Beveridge and Nelson, 1981, p. 156). Pertanto,
µt = lim [ỹt+l|t − lm] = yt + Ut ,
l→∞
con
Ut = lim
l→∞
" l
X
i=1
#
w̃t+i|t =
∞ X
∞
X
Ci+j εt−j =
i=1 j=0
dove C ∗ (L) = [C(L) − C(1)]/∆ =
j = 0, 1, . . ..
∞
X
j=0
∞
P
j=0


∞
X
k=j+1
Ck  εt−j = −C ∗ (L)εt
Cj∗ Lj , C(1) =
4

∞
P
j=0
Cj , e Cj∗ = −
(5.9)
∞
P
k=j+1
Ck ,
I due autori conducono un’analisi di simulazione dalla quale emerge che la funzione di autocorrelazione dei residui oscilla con un periodo pari approssimativamente a 2T /3 e pertanto i residui
mostreranno un ciclo lungo interamente spurio.
81
In conclusione, il trend è generato da un RW con drift costante, m, e varianza
delle innovazioni (detta anche “size of the RW”) C(1)2 σ 2 : ∆µt = m + C(1)εt . La
componente transitoria è definita in maniera residuale come ψt = yt − µt = −Ut .
5.6
Persistenza
Si è già accennato al fatto che le innovazioni casuali hanno effetti persistenti sui processi DS; riprendiamo dunque la rappresentazione di Wold di un processo integrato
del primo ordine:
∆yt = m + C(L)εt ,
dove C(L) =
∞
P
j=1
Cj Lj , con C0 = 1 e
P
Cj2 < ∞. Il coefficiente Ck associato alla
potenza k-esima dell’operatore ritardo misura l’effetto su ∆yt di uno shock unitario
realizzatosi k periodi precedenti. L’effetto cumulato su yt dopo k periodi di tempo
è invece 1 + C1 + · · · + Ck ; facendo dunque tendere k all’infinito si ha che l’impatto
di uno shock unitario nel lungo periodo è pari alla somma dei coefficienti della
rappresentazione MA, vale a dire C(1).
In maniera equivalente
∂E(yt+k |It )
,
k→∞
∂εt
C(1) = lim
dove It denota l’informazione accumulata fino al tempo t, si interpreta come la
revisione nella previsione di lungo periodo della serie dovuta ad uno shock unitario
occorso al tempo t. Ciò ha portato Campbell e Mankiw (1987) a suggerire l’adozione
di C(1) come misura di persistenza. La stima parametrica si ottiene a partire dalla
rappresentazione MA(∞) di un processo ARMA adattato alle differenze prime della
serie analizzata.
Cochrane (1986) ha invece proposto una misura di persistenza non parametrica
denominata rapporto di varianze normalizzato poiché si fonda sulla statistica
Vk =
1 Var(yt − yt−k )
,
k Var(yt − yt−1 )
k = 1, 2, . . . .
Facendo uso dell’identità ∆k = 1−Lk = ∆Sk (L), dove Sk (L) = 1+L+· · ·+Lk−1 ,
possiamo riscrivere il numeratore come segue:
k−1
P
Var(yt − yt−k ) = Var(
=
k−1
P
j=0
j=0
∆yt−j )
Var(∆yt ) + 2
= kγ0 + 2
k−1
P
j=1
k−1
P
P k−1
i=0 j=i+1
(k − j)γj ;
82
Cov(∆yt−i , ∆yt−j )
Pertanto,
Vk = 1 + 2
k−1
X
j=1
e per k tendente ad infinito si ottiene:
V
!
k−j
ρj ,
k
= limk→∞ Vk
= 1+2
=
∞
P
j=1
ρj
2πf (0)
;
γ0
il che mostra che tra V e la densità spettrale a frequenza ω = 0 esiste una relazione
di diretta proporzionalità.
Se il processo generatore dei dati è un RW, ρτ = 0, τ > 0 implica Vk = 1; in
maniera equivalente si ha Var(yt −yt−k ) = kσ 2 e Var(yt −yt−1 ) = σ 2 . D’altra parte, se
il processo è TS, Var(yt − yt−k ) non cresce linearmente (tende piuttosto a 2Var(yt )),
cosicché Vk tende a zero. Questi due casi possono essere assunti a riferimento per
giudicare se un processo sia più o meno persistente. In particolare, si parlerà di
un processo altemente persistente qualora per esso Vk risulti tendere ad un valore
superiore all’unità; al contrario il processo sarà giudicato a bassa persistenza se Vk
si attesta su un valore inferiore all’unità.
La stima del rapporto di Cochrane a partire da una serie storica può avvenire
sostituendo le autocorrelazioni stimate a quelle teoriche, cosı̀ da ottenere:
V̂k = 1 + 2
k−1
X
j=1
!
k−j
ρ̂j .
k
Si noti che Vk corrisponde alla stima della densità spettrale a frequenza zero utilizzando la finestra di Bartlett.
Le due misure di persistenza sono legate dalla relazione:
C(1) =
s
V γ0
σ2
il che parrebbe suggerire una certa sostituibilità tra di esse. In realtà esse risultano
difficilmente conciliabili, poiché i modelli ARIMA stimati in base al criterio della parsimonia tendono ad enfatizzare il ruolo delle componenti ad alta frequenza, alle spese delle correlazioni di lungo periodo, le quali sono indicative di un comportamento
mean reverting.
5.7
Integrazione stagionale
Finora abbiamo considerato la non-stazionarietà legata alla presenza del trend, vale
a dire della componente di lungo periodo. E’ noto tuttavia che altre componenti
83
oscillatorie di periodo più breve possono indurre non-stazionarietà: la presenza di
una componente stagionale rappresenta il caso più frequente nelle serie storiche
economiche. Consideriamo a titolo di esempio il processo
t = 1, . . . , T
(1 + L)yt = εt ,
che supponiamo valido per dati semestrali. E’ immediato verificare che yt non è
stazionario in quanto E(yt ) = (−1)t y0 e la varianza cresce linearmente al crescere
di t; ed infatti rileviamo che il polinomio autoregressivo possiede la radice -1. In
questo caso il processo oscilla con periodo pari all’anno e l’ampiezza delle oscillazioni
è determinata dalle realizzazioni della v.c. εt .
Al fine di effettuare una trattazione adeguata di questa tipologia di processi
stocastici si rende necessaria un’estensione del concetto di integrazione (cfr. Engle
et al., 1989):
Def. Ordine di integrazione Sia yt un processo lineare indeterministico; allora si
dirà che yt è un processo integrato di ordine d a frequenza λ, e si scriverà yt ∼ Iλ (d),
se lo (pseudo-)spettro di potenza, f (ω), assume la forma:
f (ω) ∝ (ω − λ)−2d ,
in un intorno di λ.
Secondo questa definizione il random walk è un processo integrato del primo
ordine alla frequenza λ = 0, mentre il processo (1 + L)yt = εt è integrato del primo
ordine a frequenza π. Infatti, considerando lo sviluppo della funzione coseno in serie
di Taylor del secondo ordine si ha
(ω − λ)2
+ o[(ω − λ)2 ],
cos ω = cos λ − (ω − λ) sin λ −
2
dove o(.) denota un infinitesimo di ordine inferiore all’argomento. Poiché lo spettro
di un RW è [4π(1 − cos ω)]−1 σ 2 , si ottiene f (0) ∝ (ω − λ)−2 . Allo stesso modo si
verifica che lo spettro del processo yt = (1 + L)−1 εt a frequenza π è proporzionale a
(ω − λ)−2 .
Consideriamo ora un processo che è osservato s volte l’anno, con s pari (tipicamente s = 4 per dati trimestrali e 12 per dati mensili); tale processo è detto
stagionale se possiede uno spettro caratterizzato dalla concentrazione di potenza
attorno alle frequenze stagionali λj = 2πj/s, j = 1, . . . , s/2.
Esistono diversi modi in cui può scaturire il comportamento stagionale; si supporrà che siano tutti casi particolari del seguente processo generatore:
ψ(L)yt = µt + εt ,
84
t = 1, . . . , T,
(5.10)
dove ψ(L) è un polinomio in L di grado p e εt ∼ WN(0, σ 2 ); la stagionalità
deterministica è ascrivibile alla componente
µt =
s
X
µj Sjt + βt
j=1
dove le Sjt sono dummies stagionali che assumono valore 1 nella stagione j e zero
altrove; µj sono le medie stagionali.
Il processo yt è stazionario se le radici di ψ(L) giacciono tutte al di fuori del
cerchio di raggio unitario ed è stagionale se il polinomio possiede radici complesse
coniugate a frequenze stagionali; ad esempio il processo generato da yt = ψyt−4 + εt
con |ψ| < 1 ha uno spettro che assume il massimo (2π)−1 σε2 /(1 − ψ)2 alle frequenze
0, π/2 e π in corrispondenza delle radici ψ −1/4 , ±iψ −1/4 e −ψ −1/4 rispettivamente.
Se ψ → 1 lo spettro è infinito alle stesse frequenze.
Quando le radici del polinomio autoregressivo giacciono sul cerchio unitario, è
possibile adottare la fattorizzazione:
ϕ(L)φ(L)yt = µt + εt
(5.11)
dove ϕ(L) è un polinomio AR le cui radici sono unitarie in modulo e φ(L) è un
polinomio AR stazionario di ordine q. yt è dunque un processo stagionale integrato
se il suo spettro è illimitato alle frequenze stagionali λj = 2πj/s. I casi più rilevanti
sono elencati di seguito: (i) ϕ(L) = S(L) = 1 + L + · · · + Ls−1 , l’operatore di
somma stagionale; (ii) ϕ(L) = ∆s = 1 − Ls , l’operatore differenza stagionale; (iii)
ϕ(L) = ∆∆s = (1 − L)(1 − Ls ).
Consideriamo il processo (10) nel caso (i) con s = 4 (dati trimestrali): l’operatore
di somma stagionale può essere fattorizzato come S(L) = (1 + L)(1 + iL)(1 − iL),
da cui si evince che le radici di S(L) sono ±i e -1; in corrispondenza lo spettro di
potenza è illimitato alla frequenza fondamentale π/2 e all’armonica π. Pertanto, due
cicli si combinano in maniera moltiplicativa e sono responsabili del comportamento
stagionale: il primo ha un periodo pari all’anno, mentre il secondo ha un periodo
pari a due trimestri 5 .
Le proprietà dinamiche di un processo stagionale integrato differiscono notevolmente da quello di uno stazionario: in primo luogo gli shocks sono persistenti e
hanno un impatto permanente sul pattern stagionale; inoltre, la varianza cresce
man mano che ci allontaniamo dal tempo iniziale.
L’operatore differenza stagionale ∆4 = ∆S(L) ha quattro radici unitarie: 1, -1 e
la coppia ±i; pertanto è anche integrato di ordine 1 a frequenza 0. Infine, nel caso
ϕ(L) = ∆∆4 = ∆2 S(L) il processo è I0 (2), Iπ/2 (1) e Iπ (1).
5
In generale S(L) ha (s − 2)/2 coppie di radici complesse coniugate alle frequenze λj =
2πj/s, j = 1, . . . , s/2 e la radice -1 2π/s.
85
Per tutti questi casi abbiamo bisogno di una notazione più compatta: a tal proposito introduciamo la seguente definizione, anch’essa dovuta a Engle et al. (1989):
Def. Integrazione stagionale yt è integrato stagionalmente di ordine d0 e ds , e si
denota yt ∼ SI(d0 , ds ), se ∆d0 S(L)ds yt è stazionario e invertibile.
Secondo questa definizione il processo ∆∆s yt = µ + θ(L)εt è SI(2, 1) se θ(L) è
un polinomio invertibile.
5.8
Test di integrazione stagionale
Il problema del’integrazione stagionale è sorto con qualche ritardo rispetto a quello dell’integrazione a frequenza zero, ciò essendo legato alla disponibilità di dati
destagionalizzati. Tuttavia è stato recentemente provato che l’utilizzo di dati destagionalizzati, in relazione alla natura del filtro di aggiustamento, può modificare
le inferenze sulle radici unitarie a frequenza zero nel senso di dare più supporto
all’ipotesi nulla di integrazione.
Nella tradizione del test DF, Dickey, Hasza e Fuller (DHF) (1984) hanno suggerito un test basato sulla regressione
(1 − Ls )yt = πs yt−s + εt ,
s = 2, 4, 12
La statistica test per H0 : πs = 0 è la statistica t associata al parametro πs . DHF
forniscono i percentili della distribuzione corrispondente, che possono essere utilizzati per testare H0 contro l’alternativa πs < 0 (che implica che il processo considerato
è generato da un processo stagionale autoregressivo stazionario del primo ordine.
Valori ritardati di ∆s yt possono essere aggiunti al lato destro dell’equazione al fine
di sbiancare i residui senza alterare la distribuzione asintotica del test. Come nel
caso del test DF può essere presa in considerazione la presenza di componenti deterministiche quali un intercetta, un trend lineare, e dummy stagionali: ovviamente la
distribuzione non è invariante rispetto alla componente di volta in volta considerata.
Il test DHF non soddisfa appieno in quanto costituisce un test congiunto operato
su tutte le frequenze sia stagionali che non (H0 : yt ∼ SI(1, 1) contro H1 : yt ∼
SI(0, 0)). Il test proposto per dati trimestrali6 da Hylleberg, Engle, Granger and Yoo
(test HEGY) consente invece di esaminare l’integrazione a ciascuna delle frequenze
stagionali e a frequenza zero.
Gli autori suppongono che i dati siano generati da un processo autoregressivo di
ordine finito ψ(L)yt = µt +εt . Poniamoci dunque il problema di testare l’ipotesi yt ∼
6
Per l’estensione a dati mensili si veda Beaulieu e Miron (1993).
86
SI(1, 1); ricordando che l’operatore differenza stagionale ammette la fattorizzazione
∆4 = (1 − L)(1 + L)(1 + iL)(1 − iL), si dimostra che, espandendo il polinomio ψ(L)
attorno alle radici unitarie 1, -1 e ±i si può riscrivere:
φ(L)∆4 yt = π1 Z1,t−1 + π2 Z2,t−1 + π3 Z3,t−2 + π4 Z3,t−1 + µt + εt ,
(5.12)
dove Z1t = S(L)yt , Z2t = −(1 − L + L2 − L3 )yt e Z3t = −(1 − L2 )yt .
La trasformazione che genera Z1t rimuove le radici unitarie stagionali; quella che
genera Z2t rimuove quelle a frequenza zero e π/2, lasciando un processo integrato
sotto H0 soltanto a frequenza π; infine Z3t è un processo integrato a π/2.
L’utilità della rappresentazione (11) è legata alla relazione tra le radici unitarie
di ψ(L) e i parametri πi (i = 1, 2, 3, 4): in particolare ψ(1) = 0 implica π1 =
0 cosicché la presenza di una radice unitaria a frequenza zero può essere testata
contro π1 < 0 (corrispondente alla alternativa stazionaria ψ(1) > 0); analogamente
ψ(−1) = 0 (una radice unitaria a frequenza π) implica π2 = 0, mentre l’alternativa
di stazionarietà ψ(−1) > 0 implica π2 < 0. Infine, l’ipotesi che la serie sia Iπ/2 (1)
comporta che entrambi π3 e π4 siano nulli.
L’equazione (11) può essere stimata mediante i minimi quadrati e le statistiche
t associate ai parametri πi (i = 1, 2, 3, 4) possono essere impiegate per testare la
presenza di radici unitarie alle frequenze corrispondenti. Dal momento che H0 :
(π3 = 0) ∩ (π4 = 0) è bidimensionale, HEGY suggeriscono di utilizzare una statistica
F per un test congiunto sulla significatività dei due parametri. Alternativamente si
può prima condurre un test t bidirezionale dell’ipotesi π4 = 0 e, qualora non risulti
significativo, testare π3 = 0 contro l’alternativa π3 < 0.
HEGY hanno tabulato la distribuzione dei test t unidirezionali sui parametri
π1 , π2 and π3 , per il test t bidirezionale su π4 e per il test F dell’ipotesi (π3 =
0) ∩ (π4 = 0). La distribuzione cambia a seconda del nucleo deterministico presente
P
nel modello di regressione: i. µt = 0, ii. µt = µ, iii. µt = sj=1 µj Sjt , iv. µt = µ + βt ,
P
v. µt = sj=1 µj Sjt + βt (si vedano le tavole 1a e 1b a pag. 227). Si noti che la
distribuzione 0 t0 : π1 è più ”sensibile” alla presenza dei termini di trend ed intercetta
piuttosto che alla presenza di dummy stagionali; per le altre statistiche test vale
l’opposto.
Quando un processo è integrato stagionalmente è possibile misurare la persistenza delle innovazioni sul pattern stagionale mediante opportune estensioni del
rapporto di varianze normalizzato di Cochrane, come mostrato in Proietti (1996).
5.9
Critiche all’applicazione dei test per radici unitarie
E’ noto che l’accettazione dell’ipotesi nulla non esclude che l’alternativa sia vera.
Nel caso in questione la potenza dei test per la presenza di radici unitarie (1 −
87
P (H0 |H1 )) è estremamente bassa riflettendo la circostanza che in campioni finiti è
difficile discriminare un processo con una radice unitaria da uno con radice 1−δ, δ >
0 qualsiasi.
Le realizzazioni possono essere virtualmente identiche per dimensioni campionarie non elevatissime e pertanto sia i metodi basati sui momenti che sulla funzione di
verosimiglianza non riescono a discernere le due situazioni. Cochrane (1991) porta
alle estreme conseguenze questo punto mostrando che per ogni processo DS esiste un
corrispondente processo stazionario le cui inferenze parametriche (e quindi anche i
test per le radici unitarie) sono arbitrariamente vicine a quelle condotte sul processo
DS.
Perron mostra che cambiamenti di regime e la presenza di punti di rottura nella
serie (break e shift strutturali) possono comportare l’accettazione dell’ipotesi DS
quando il meccanismo generatore sia TS e riformula la distribuzione delle statistiche
test per tener conto della possibilità che la non stazionarietà sia da attribuire alla
presenza di suddetti shocks. In altre parole è possibile che una serie sia stazionaria
attorno ad un trend “segmentato”, rappresentabile da una spezzata che incorpori le
variazioni del livello ed i cambiamenti del tasso di crescita, mentre non lo sia rispetto
ad un trend lineare.
Schwert (1989) e Pantula (1991) contestano l’idea che governa l’ADF consistente
nell’approssimare il processo generatore con un AR di ordine finito e citano l’evidenza delle principali serie macroeconomiche studiate che sarebbero bene adattate
da un modello IMA(1,1). Se il parametro MA è vicino all’unità, allora una rappresentazione autoregressiva finita non è adeguata e i due autori dimostrano che
l’impiego dei valori critici tabulati da Dickey e Fuller porta erroneamente a rigettare
la presenza di una radice unitaria. In effetti si realizza una quasi-cancellazione degli
operatori AR e MA, che lascia un processo virtualmente non distinguibile dal WN.
5.10
Le implicazioni econometriche
Supponiamo che yt e xt siano entrambe I(1) e che esista una relazione causale
unidirezionale x → y; ci proponiamo allora di stimare una relazione econometrica tra
l’endogena y e l’esogena x. L’ordine di integrazione delle variabili non è indifferente
e concorre a determinare diversi modi di formalizzare la relazione tra le due variabili
dal punto di vista econometrico.
Partiamo dalla seguente rappresentazione (ADL(r, s) Autoregressive Distributed
Lag):
α(L)zt = µ + β(L)vt + ξt
dove α(L) = 1 − α1 L − . . . − αr Lr e β(L) = β0 + β1 L + . . . + βs Ls ; quest’ultima
incorpora un ampio spettro di modelli dinamici (modelli a ritardi distribuiti, modelli
autoregressivi, modelli con funzione di trasferimento) a seconda della specificazione
88
dei polinomi α(L) e β(L), delle assunzioni sul termine di errore e delle trasformazioni
adottate su yt e xt per ottenere rispettivamente zt e vt . Il modello ADL è stabile se
le radici del polinomio α(L) giacciono tutte al di fuori del cerchio di raggio unitario;
tale proprietà è importante per l’esistenza di una soluzione di lungo periodo.
Nel seguito non ci proponiamo di effettuare una rassegna delle numerose specificazioni esistenti nella letteratura econometrica; ci limiteremo ad esporre alcuni
punti fondamentali per l’analisi successiva.
5.10.1
Modello nei livelli
In questo caso si ha zt = yt e vt = xt . Consideriamo per semplicità il caso di
regressione statica:
εt ∼ WN(0, σ 2 ),
yt = µ + βxt + εt ,
in cui si ipotizza una dipendenza istantanea tra le due variabili; la presenza di
integrazione può dar luogo al fenomeno che prende il nome di regressione spuria:
se yt e xt sono generate da due random walk indipendenti la stima dei MQO di β
può risultare significativamente diversa da zero; inoltre si otterrà un coefficiente di
determinazione R2 alto in presenza di un DW estremamente basso e prossimo a zero.
Pertanto nella stima di relazioni in livelli tra processi integrati si va incontro al
rischio che il “buon adattamento” del modello ai dati sia del tutto illusoria. Né
vale il ricorso agli usuali test statistici in quanto la correlazione seriale esistente nei
residui implica che i livelli di significatività dei test t ed F non risultino più corretti.
Il fenomeno ha trovato una spiegazione formale in campo asintotico grazie a Phillips
(1985), il quale ha dimostrato che per T → ∞ il test DW tende a zero, R2 all’unità
e che le usuali statistiche test divergono, con la conseguenza che la probabilità di
rifiutare H0 : β = 0 cresce al crescere di T .
Questo risultato è piuttosto sconfortante dal punto di vista della teoria economica, la quale formula delle relazioni tra variabili in livello. Tuttavia non tutto è
perduto, come vedremo successivamente.
5.10.2
Modello nelle differenze
Considerati i problemi posti dalla regressione statica in livelli si potrebbe pensare di
formulare una relazione econometrica tra le variazioni delle variabili; la differenziazione dei dati è una delle trasformazioni che viene solitamente suggerita per aggirare
il problema:
∆yt = µ + β∆xt + εt
Si noti che se le due variabili sono generati da RW indipendenti, la differenziazione consente di eliminare il problema di regressione spuria, poiché per il test t
89
dell’ipotesi β = 0 vale la tradizionale teoria distributiva. Tuttavia, anche questo
approccio non va esente da critiche: innanzitutto non contiene alcuna relazione sui
livelli, per cui, se esiste una relazione di equilibrio di lungo periodo y = cx, essa non
può essere incorporata nel modello: infatti quando il sistema raggiunge lo stato di
equilibrio stazionario, yt = y e e xt = xe , entrambe le differenze prime sono nulle.
E’ inoltre possibile che la differenziazione dia luogo ad un termine di errore
strettamente non invertibile, da cui consegue che per approssimare la dinamica del
sistema è necessario un polinomio autoregressivo di ordine molto elevato, cosa che
potrebbe violare il principio di parsimonia.
5.10.3
Regressione tra serie detrendizzate
La nonstazionarietà può essere incorporata nel modello introducendo un trend lineare tra i regressori:
yt = α + γt + βxt + εt .
Tale procedura ha qualche probabilità di successo solo se le variabili sono processi TS; un importante risultato, noto come teorema di Frisch e Waugh, ha infatti
stabilito che inserire un trend lineare equivale ad effettuare una regressione statica
tra serie detrendizzate mediante l’eliminazione di un trend lineare. Pertanto se le
variabili sono generate da RW indipendenti si incorre in una regressione spuria poiché la detrendizzazione ha effetto solo sul nucleo deterministico, lasciando inalterato
quello stocastico.
Un possibile rimedio alla regressione spuria può consistere nell’inclusione di valori
ritardati delle variabili esplicative e della dipendente; nel caso dei RW indipendenti,
ad esempio, aggiungendo tra i regressori il valore ritardato di entrambe le variabili,
yt = µ + αyt−1 + β0 xt + β1 xt−1 + εt ,
esiste la combinazione con α = 1, β0 = β1 = 0, tale che εt ∼ I(0). Si può dimostrare
che le stime MQO sono consistenti per tutti i parametri e che i test t delle ipotesi β0 =
0 e β1 = 0 hanno distribuzione asintotica normale. Il test F dell’ipotesi congiunta,
al pari del test t dell’ipotesi α = 1, ha tuttavia distribuzione limite nonstandard.
Tuttavia, almeno in parte la teoria asintotica gaussiana viene recuperata.
Possiamo concludere dunque che nel generico modello ADL, se non esiste almeno
un punto nello spazio dei parametri tale che εt è stazionario, la stima MQO può dar
luogo a risultati spuri nel senso sopra precisato.
90
5.11
Modelli con meccanismo a correzione dell’errore
Il modello ADL(r, s) in livelli
α(L)yt = µ + β(L)xt + εt
con α(L) = 1 − α1 L − . . . − αr Lr , β(L) = β0 + β1 L + . . . + βs Ls e εt ∼ WN(0, σ 2 ),
può essere riparametrizzato nella forma “a correzione dell’errore”, il cui significato
emergerà tra non molto.
Mediante la stessa tecnica adottata precedentemente riscriviamo α(L) = α(1)L+
†
∆α (L), β(L) = β(1)L + ∆β † (L), dove α† (L) e β † (L), sono polinomi di ordine r − 1
e s − 1 rispettivamente (di primo termine 1 e β0 ).
Sostituendo e riordinando i termini otteniamo:
α† (L)∆yt = µ − α(1)(yt−1 − cxt−1 ) + β † (L)∆xt + εt ,
(5.13)
ovvero:
α† (L)∆yt = −α(1)(yt−1 − m − cxt−1 ) + β † (L)∆xt + εt ,
dove m = µ/α(1) e c = β(1)/α(1) è il moltiplicatore totale che può essere validamente interpretato come il coefficiente di risposta di lungo periodo della relazione di
equilibrio (statico) tra y e x; se le variabili sono espresse in logaritmi c rappresenta
l’elasticità di lungo periodo di y rispetto a x. In equilibrio yt = y e e xt = xe : sostituendo si ottiene la relazione di equilibrio y = cx; è evidente che yt−1 − cxt−1 misura
l’entità del disequilibrio realizzatosi nel periodo precedente; il primo termine a secondo membro si configura pertanto come un “meccanismo di correzione dell’errore”
(MCE).
La parametrizzazione con MCE presenta alcuni pregi: il primo, di natura interpretativa, consiste nel combinare opportunamente la dinamica di breve periodo con
con le proprietà di equilibrio di lungo periodo suggerite dalla teoria economica. Le
variazioni di y dipendono non soltanto dalle variazioni di x ma anche dall’entità del
disequilibrio al tempo precedente. A titolo esemplificativo consideriamo un modello
ADL(1, 1), che ammette la parametrizzazione MCE:
∆yt = µ + (α1 − 1)(yt−1 − cxt−1 ) + β0 ∆xt + εt ,
con c = (β0 + β1 )/(1 − α1 ); se il modello è stabile (|α1 | < 1) allora il secondo termine
al secondo membro gioca un rilevante ruolo stabilizzatore: qualora nel periodo precedente y si fosse rivelata superiore (inferiore) al suo livello di equilibrio statico cx,
il tasso di crescita di y risulterebbe diminuito (aumentato), contribuendo a riportare
la y verso il sentiero di equilibrio.
91
Es. 7: L’evidenza empirica suggerisce che nel lungo periodo l’elasticità del consumo totale
Ct rispetto al reddito Yt è costante. Tuttavia la funzione keynesiana del consumo aggregato
postula che l’elasticità sia decrescente; in realtà la teoria economica è in contraddizione con
l’evidenza empirica solo apparentemente se si considera che la funzione keynesiana è valevole
nel breve periodo.
La rappresentazione MCE consente di conciliare la relazione di lungo periodo C = kY ν ,
dove ν rappresenta l’elasticità di lungo periodo, supposta costante, con la dinamica di breve
periodo (nella parametrizzazione con MCE derivata dall’ADL(1, 1) si avrebbe β0 < 1).
Un altro rilevante vantaggio di natura più strettamente econometrica sta nel
fatto che le variabili originarie {yt , yt−1 , . . . , yt−r , xt , xt−1 , . . . , xt−s } costituiscono un
insieme fortemente collineare, mentre la forma con MCE realizza un notevole ridimensionamento della multicollinearità. Se εt ∼ WN(0, σ 2 ) allora, supposto noto c,
i coefficienti possono essere stimati in maniera consistente ed efficiente mediante i
MQO.
5.12
Cointegrazione
Generalmente, combinazioni lineari di variabili integrate di ordine d risultano integrate dello stesso ordine; esistono casi, che sono poi quelli veramente rilevanti
dal punto di vista della teoria econometrica, in cui particolari combinazioni lineari
presentano un ordine di integrazione inferiore a quello delle serie di partenza.
Torniamo al caso più semplice, in cui le variabili sono I(1): può esistere una
combinazione lineare che sia stazionaria e diremo che le variabili sono cointegrate
perché i movimenti di lungo periodo presenti in ciascuna si eliminano. Ciò viene
attribuito al fatto che esiste una relazione di equilibrio statico tra di esse e che la loro
dinamica non può discostarsi troppo (esiste in altre parole una tendenza comune).
Def. Cointegrazione: I processi yt e xt sono detti cointegrati di ordine d e b,
0 < b ≤ d, e scriveremo ut = [yt xt ]0 ∼ CI(d, b), se:
• entrambi i processi sono I(d);
• ∃ λ = [λ1 λ2 ]0 tale che λ0 ut ∼ I(d − b).
La definizione precedente esclude la possibilità di cointegrazione tra processi che
mostrano diversi ordini di integrazione; questo non ci meraviglia perché ad es. un
processo I(1) ed uno I(0) hanno proprietà temporali notevolmente difformi atte ad
escludere la possibilità di un andamento solidale. Pertanto la verifica statistica della
cointegrazione è sempre preceduta dall’analisi dell’integrazione delle serie componenti il sistema. λ prende il nome di vettore di cointegrazione ed è definito unicamente
a meno di una normalizzazione (in genere si prenderà [1 − c], c = −λ2 /λ1 )
92
La cointegrazione è un occorrenza più eccezionale che abituale nelle serie storiche
reali; la sua presenza implica ed è implicata dall’esistenza di un trend comune: sia
wt ∼ I(1), εxt e εyt due processi I(0) e si supponga che i dati siano generati dal
meccanismo seguente: xt = wt + εxt e yt = cwt + εyt ; pertanto yt − cxt = εyt − cεxt ∼
I(0).
Riconoscere l’esistenza di cointegrazione ha importanti conseguenze sotto il profilo della modellistica, come emerge da un fondamentale risultato noto come teorema
di rappresentazione di Granger (Engle e Granger 1987), il quale afferma, tra l’altro,
che se due serie sono cointegrate esse ammettono sempre una rappresentazione con
MCE:
X
X
∆yt = µ1 + ρ1 zt−1 +
β1k ∆xt−k + d(L)ε1t
α1k ∆yt−k +
k
∆xt = µ2 + ρ2 zt−1 +
X
k
α2k ∆yt−k +
X
β2k ∆xt−k + d(L)ε2t
k
k
dove zt−1 = yt−1 −cxt−1 (si noti che nella combinazione lineare stazionaria può essere
presente un termine costante se la relazione di equilibrio non è di stretta proporzionalità: y = m + cx; in questo caso si ha zt−1 = yt−1 − m − cxt−1 ; ovviamente i
termini costanti µ1 e µ2 scompaiono in quanto incorporati nella relazione di equilibrio) e |ρ1 | + |ρ2 | 6= 0; l’ultima condizione assicura che il termine con MCE compaia
in almeno una delle due relazioni.
La precedente proposizione può essere rovesciata nel senso che se ut ammette
una rappresentazione con MCE, le variabili sono cointegrate. Si noti che poiché
(yt , xt ) ∼ I(1) e (ε1t , ε2t ) ∼ I(0) tutti i termini della rappresentazione sono stazionari
e per i relativi coefficienti vale la tradizionale teoria asintotica.
Nel paragrafo precedente abbiamo supposto che il vettore di cointegrazione fosse noto (molto spesso viene assunto c = 1, vale a dire che vi sia omogeneità tra
le due variabili). In realtà, il fondamentale problema statistico-econometrico posto dalla teoria della cointegrazione è duplice: si tratta di verificare l’esistenza di
cointegrazione tra le variabili e di stimare il vettore di cointegrazione. I due punti
sono strettamente collegati, per cui partiamo dal secondo; nel seguito ci limiteremo
a descrivere la procedura suggerita da Engle e Granger (1987), che si articola in due
stadi:
1. Stima del vettore di cointegrazione attraverso regressione statica e verifica
dell’ipotesi di cointegrazione
2. Stima dei parametri della forma con MCE assumendo zt nonstocastico.
La procedura descritta è improntata alla massima semplicità: entrambi gli stadi
richiedono l’impiego dei MQO.
L’idea fondamentale è quella di ottenere la stima del vettore di cointegrazione
regredendo la variabile il cui coefficiente è normalizzato all’unità sulle rimanenti; nel
93
caso bivariato:
yt = m + cxt + εt
(5.14)
per verificare l’ipotesi di cointegrazione si controlla che i residui ottenuti siano I(0).
Come è possibile che un processo generatore estremamente semplice, quale la
regressione statica di yt su una costante e xt fornisca informazioni tanto importanti
sul comportamento di lungo periodo del sistema considerato? La risposta sta nelle
proprietà della regressione statica tra variabili cointegrate: è stato infatti dimostrato (Stock, 1987) che la stima del vettore di cointegrazione è (super)consistente e,
pur essendo distorta, la distorsione tende a scomparire, al crescere del periodo campionario, più rapidamente del caso di regressione tra variabili stazionarie, essendo
di ordine T −1 . Un’altra interessante proprietà consiste nella possibilità di ignorare
il problema della presenza di non contemporaneità tra x e y, per cui non c’è bisogno di introdurre nella (13) valori ritardati della variabile dipendente e/o della
indipendente.
Questi risultati paiono confortanti; eppure vanno interpretati con qualche circospezione in quanto hanno valenza asintotica; per le realizzazioni finite comunemente
disponibili fare affidamento su di essi può anche essere fuorviante: è stato mostrato,
mediante simulazione, che in campioni finiti la distorsione nella stima del vettore di
cointegrazione può permanere elevata anche per valori grandi di T e che declina ad
ritmo meno elevato di quello teorico. La distorsione deriva dall’omissione delle variabili esprimenti la dinamica di breve periodo, il cui peso, trascurabile asintoticamente,
può essere rilevantissimo in campioni finiti.
Si consideri poi che le inferenze su c non sono quelle usuali poiché, seppure la
stima dei parametri della (13) sia consistente, lo stesso non vale per la stima dell’errore standard, precludendo la possibilità di verificare ipotesi di interesse economico
sui coefficienti della regressione statica 7 .
La verifica dell’ipotesi di cointegrazione si effettua contestualmente alla stima
della (13). Per la precisione l’ipotesi sottoposta a verifica è che yt e xt non siano
cointegrate, nel qual caso una radice unitaria è presente nei residui della regressione
(13), e per testarla Engle e Granger propongono una batteria di test: il primo è il cd.
CRDW (Cointegrating Regression Durbin-Watson), rappresentato dal DW calcolato
sui residui et della regressione statica; sotto l’ipotesi nulla εt ∼ I(1) la statistica DW
è pari a 0, per cui il test è significativo se CRDW risulta significativamente maggiore
di zero. I valori critici non sono quelli tabulati da Durbin e Watson, ma sono forniti
da Sargan e Bhargava (1983).
7
Va considerato poi che, nel caso bivariato, esistono due vettori di cointegrazione, il primo [1 c]0
ottenuto dalla (13), il secondo [c̃ 1] ottenuto dalla regressione “inversa” xt = m̃ + c̃yt . In campioni
6 1/c̃; tuttavia se esiste cointegrazione si avrà che R2 −→ 1 e, tenuto conto della relazione
finiti c =
2
R = cc̃, si ha anche c −→ 1/c̃.
94
Un secondo gruppo di test fa capo alle statistiche DF e ADF per testare la
presenza di radici unitarie: se l’ipotesi nulla viene rifiutata si può concludere che yt
e xt sono cointegrate.
A questo scopo si considera la statistica t per φ∗ = 0 nella regressione:
∆et = φ∗ et−1 + ut
ovvero, per tener conto dell’autocorrelazione dei residui si considera
∆et = φ∗ et−1 +
X
γj ∆et−j + ut .
j
In entrambe è assente l’intercetta poiché se essa è presente nella regressione di cointegrazione i residui hanno media nulla e l’inclusione di un termine costante ha effetti
trascurabili sulle statistiche test.
Purtroppo la distribuzione delle statistiche test non è quella tabulata da Dickey
e Fuller e faremo riferimento ad essa come distribuzione EG: ad es. per T = 100 il
valore critico unidirezionale al livello di significatività del 5% sarebbe pari a −2.89
per la distribuzione DF e −3.17 per la distribuzione EG.
In effetti se il vettore di cointegrazione fosse noto a priori non sorgerebbero
difficoltà di sorta, poiché i test di radice unitaria su zt seguirebbero la distribuzione
di DF. Il problema è invece posto dal fatto che il vettore di cointegrazione è stimato
a partire dai dati: i MQO, minimizzando la varianza dei residui, agiranno in modo
da far apparire i residui stazionari anche quando non lo sono e il test DF indurrà al
rifiuto di H0 troppo spesso.
Ovviamente anche per il test EG si ripresenta il problema della dipendenza da
parametri di disturbo, per cui la distribuzione varia a seconda che la regressione
di cointegrazione (ovvero la regressione ADF sui residui) sia stimata in presenza di
un termine costante e/o di trend. L’inclusione di un trend lineare avrebbe senso se
si volesse eliminare la dipendenza del test EG dal termine costante m e qualora si
desiderasse testare l’ipotesi che le serie non sono cointegrate anche dopo l’estrazione
di un trend lineare da ognuna. I valori critici dipendono inoltre dal numero di
variabili esogene impiegate nel modello statico.
I due autori considerano infine un’altra batteria di test basati sulla stima del
modello con MCE e di modelli autoregressivi vettoriali; per essi si segnala che godono
di una potenza estremamente più bassa del test EG e pertanto hanno una valenza
limitata. Per maggiori dettagli si rimanda comunque ad Engle e Granger (1987) e
a Banerjee et al. (1993).
Per quanto concerne il secondo stadio EG dimostrano che il fatto di stimare il
vettore di cointegrazione non ha conseguenze sulle proprietà distributive delle stime
dei coefficienti della forma con MCE: pertanto la stimatore a due stadi del modello
con MCE, ottenuto assumendo (m̂, ĉ) stimati tramite la (13) come il valore vero,
95
ha la stessa distribuzione asintotica dello stimatore MV che impiega m, c; inoltre le
stime degli errori standard sono consistenti.
Es. 8: Questo esempio è tratto da Engle e Granger e riguarda i consumi per beni non
durevoli e il reddito disponibile pro capite a prezzi costanti dal 1947Q1 al 1981Q2. Dall’analisi
di integrazione scaturisce che le serie sono I(1), mentre la regressione di cointegrazione fornisce:
ct = m + 0.23yt con R2 = 0.99, CRDW = 0.465 che risulta significativamente diverso da
zero; inoltre il test EG risulta pari a −4.3 ed è significativo all’1% portando al rifiuto dell’ipotesi
di assenza di cointegrazione. Il modello con MCE stimato risulta:
∆ct = −0.14zt−1 + 0.068∆yt−1 .
Il coefficiente del consumo nella regressione di yt su una costante e ct è pari a 4.3, che coincide
col reciproco di 0.23. Anche in questo caso l’ipotesi di non cointegrazione è rifiutata e il termine
che incorpora il MCE è significativo. Nelle situazioni di questo tipo nessuna delle due variabili
è esogena ed esiste feedback.
Riferimenti bibliografici
Beaulieu J.J. e Miron J.A. (1993). Seasonal Unit Roots in Aggregate U.S. Data, Journal
of Econometrics, 55, 305-328.
Banerjee, A., Dolado J., Galbraith J.W. e Henry D.F. (1993). Co-Integration, ErrorCorrection, and the Econometric Analysis of Non-Stationary Data., Oxford University Press.
Beveridge, S. and Nelson, C.R. (1981), A New Approach to the Decomposition of Economic
Time Series into Permanent and Transitory Components with Particular Attention
to the Measurement of the ‘Business Cycle’. Journal of Monetary Economics, 7,
151-174.
Campbell, J.Y. e Mankiw, N.S. (1987). Are Output Fluctuations Transitory? Quarterly
Journal of Economics, 102, 857-880.
Cochrane J. (1988). How Big is the Random Walk Component in GNP? Journal of Political
Economy, 96, 893-920.
Cochrane J. (1991). A Critique of the Application of Unit Root Tests, Journal of Economic
Dynamics and Control, 15, 275-284.
Dickey D.A. e Fuller W. A. (1981). Likelihood Ratio Statistics for Autoregressive Time
Series with a Unit Root, Econometrica, 49, 1057-1077.
Dickey, D.A., D.P. Hasza e W.A. Fuller (1984): “Testing for Unit Roots in Seasonal Time
Series.” Journal of the American Statistical Association, Vol. 79, No. 386, pp.
355-67.
96
Engle, R.F., C.W.J. Granger e J.J. Hallman (1989): “Merging Short- and Long-Run Forecasts. An Application of Seasonal Cointegration to Monthly Electricity Sales
Forecasting.” Journal of Econometrics, Vol. 40, pp. 45-62.
Engle R.F. e Granger C.W.J. (1987). Co-integration and Error Correction: Representation,
Estimation and Testing, Econometrica, 55, 251-276.
Fuller W. A. (1976). Introduction to Statistical Time Series, New York, Wiley.
Hylleberg, S., R.F. Engle, C.W.J. Granger e B.S. Yoo (1990): “Seasonal Integration and
Cointegration.” Journal of Econometrics, Vol. 44, pp. 215-38.
Nelson C.R. e Kang H. (1984). Pitfalls in the Use of Time as an Explanatory Variable,
Journal of Business and Economic Statistics, 2, 73-82.
Nelson C.R. e Plosser C.I. (1982). Trends and Random Walks in Macroeconomic Time
Series: some Evidence and Implications, Journal of Monetary Economics, 10, 139162.
Pantula S.G. (1991). Asymptotic Distribution of the Unit Root Tests when the Process is
Nearly Stationary, Journal of Business and Economic Statistics, 9, 63-71.
Perron P. (1989). The Great Crash, the Oil Shock and the Unit Root Analysis, Econometrica, 57, 1361-1402.
Phillips P.C.B. e Perron P. (1988). Testing for a Unit Root in Time Series Regression,
Biometrika, 75, 335-346.
Proietti, T. (1995). The Beveridge-Nelson Decomposition. Properties and Extensions.
Journal of the Italian Statistical Society, 4, 1, 101-124.
Proietti, T. (1996). Persistence of Shocks on Seasonal Processes. Journal Applied Econometrics, 11, 383-398.
Said S.E. e Dickey D.A. (1984). Testing for Unit Roots in Autoregressive Moving Average
Models of Unknown Order, Biometrika, 71, 599-607.
Sargan J.D. e Barghava A. (1983). Testing Residuals from Least Squares Regression for
Being Generated by the Gaussian Random Walk, Econometrica, 51, 153-174.
Schwert G.W. (1989). Test for Unit Roots: a Monte Carlo Investigation, Journal of
Business and Economic Statistics, 7, 147-159.
Stock J.H. (1987). Asymptotic Properties of Least Squares Estimators of Cointegrating
Vectors, Econometrica, 55, 1035-1056.
Opere generali:
97
Banerjee, A., Dolado J., Galbraith J.W. e Henry D.F. (1993). Co-Integration, ErrorCorrection, and the Econometric Analysis of Non-Stationary Data., Oxford University Press.
Cappuccio, N. e Orsi R. (1991). Econometria, Il Mulino, Bologna.
Engle R.F. e Granger C.W.J. (a cura di) (1991). Long Run Economic Relationships Readings on Cointegration, Oxford University Press.
J.D. Hamilton (1994). Time Series Analysis, Princeton University Press, New Jersey.
Hatanaka M. (1996). Time-Series-Based Econometrics. Unit Roots and Cointegration,
Oxford University Press.
Johansen S. (1995). Likelihood-based inference in cointegrated vector autoregressive models,
Oxford University Press.
98
Capitolo 6
I Modelli Strutturali per l’Analisi delle Serie
Temporali
6.1
L’approccio modellistico e la classe dei modelli strutturali
La classe dei modelli strutturali racchiude un insieme, più vasto di quanto si possa
ritenere a prima vista, di approcci il cui tratto comune va ritrovato nella specificazione diretta del modello di scomposizione della serie temporale in termini di
componenti non osservabili, identificabili con trend, ciclo, stagionalità etc.; in ciò
esso raccoglie l’eredità dell’analisi classica. Nel seguito ci limiteremo a descrivere le
proposte più importanti, dando particolare rilievo ai modelli strutturali di Harvey e
dei suoi collaboratori, che tra l’altro forniscono un metodo di destagionalizzazione
competitivo con X-12-ARIMA e TRAMO-SEATS.
L’approccio ha molti punti in comune con quello AMB (Arima Model Based) di
Maravall, che trova la sua implementazione nel software TRAMO-SEATS, correntemente utilizzato dall’Istituto Nazionale di Statistica italiano ai fini della destagionalizzazione delle serie temporali; in particolare, entrambi prendono le mosse dalla
rappresentazione a componenti latenti di tipo ARIMA, detta UCARIMA, in cui tutte le componenti e, per aggregazione, la serie stessa, yt , hanno una rappresentazione
ARIMA:
K
K
X
X
θk (L)
ξkt
yt =
(6.1)
ykt =
k=0
k=0 ∆k (L)φk (L)
con ξkt ∼ NID(0, σk2 ).
Le assunzioni comuni ai due approcci sono le seguenti:
• I polinomi φk (L), θk (L) e ∆k (L) non presentano radici comuni; lo stesso vale
per φk (L) e φh (L), θk (L) e θh (L), ∆k (L) e ∆h (L), ∀h, k = 0, . . . , K.
99
• I polinomi φk (L) sono stazionari e di ordine pk .
• I polinomi θk (L) sono invertibili (anche se non strettamente invertibili) e di
ordine qk .
• Le radici dei polinomi ∆k (L) giacciono tutte sul cerchio di raggio unitario.
• le innovazioni ξkt sono mutualmente incorrelate.
Tali assunzioni implicano che yt ammette una rappresentazione lineare di tipo
ARIMA (forma ridotta o forma osservabile):
yt =
θ(L)
ξt
∆(L)φ(L)
con ξt ∼ NID(0, σ 2 ). L’invertibilità della rappresentazione per yt è assicurata
dall’assunzione che i polinomi MA θk (L) non possiedono radici comuni.
Dal momento che esistono infiniti modi di scomporre yt secondo la (6.1), si richiede l’introduzione di un insieme di restrizioni nella rappresentazione delle componenti. Nel caso dei modelli strutturali si fa riferimento ad Hotta (1983), che ha fornito
una condizione necessaria e sufficiente per l’identificabilità della scomposizione: per
almeno K componenti si richiede che pk + dk ≥ qk + 1. L’approccio strutturale,
pertanto, identifica le componenti restringendo l’ordine dei polinomi MA.
L’approccio AMB assegna il noise ad una sola componente e rende le altre non
invertibili (Maravall e Planas,1994), imponendo le restrizioni:
• pk + dk ≥ qk per almeno K componenti
• per le medesime componenti il minimo della densità spettrale è zero (non
invertibilità a determinate frequenze).
Le componenti per le quali vale la seconda condizione sono dette canoniche; in sintesi,
si richiede che segnali quali il trend, la stagionalità ed il ciclo, non contengano rumore
separabile.
Per l’approccio AMB il punto di partenza è rappresentato dalla forma ridotta
del modello, che è vincolante per la caratterizzazione dinamica delle componenti: si procede all’identificazione e stima del modello ARIMA per yt e si ottiene
una rappresentazione delle componenti consistente con la forma ridotta. Nell’approccio strutturale, invece, quest’ultima non gioca alcun ruolo fondamentale nella
specificazione del modello di scomposizione, che è definito a priori dal ricercatore.
La linearità della rappresentazione (6.1) implica che le scomposizioni consentite
sono l’additiva e la log-additiva. Il modello default è costituito dal cosidetto Modello
Strutturale di Base (MSB)
yt = µt + γt + t , t = 1, . . . , T,
100
(6.2)
dove µt è il trend, γt è la componente stagionale e t ∼ WN(0, σ 2 ). Maravall (1987)
ha mostrato la prossimità col modello Airline, il quale ultimo costituisce l’anello di
congiunzione ed il riferimento comune delle varie tecniche di destagionalizzazione.
La specificazione delle componenti è discussa nelle sezioni successive.
Il modello può essere esteso al fine di comprendere effetti di calendario, cicli
stocastici stazionari e un nucleo di regressione, che consente l’inclusione di variabili
esogene, valori ritardati della variabile indipendente e variabili di intervento.
6.2
Trend
Un trend lineare deterministico, µt = α + βt, può essere rappresentato in maniera
ricorsiva come segue: µt = µt−1 + βt−1 , βt = βt−1 , con µ0 = α e β0 = β. Al fine di
ottenere un trend stocastico possiamo introdurre degli shock casuali nelle equazioni
che definiscono µt e βt . Questa è la genesi del modello lineare locale:
µt = µt−1 + βt−1 + ηt
βt =
βt−1 + ζt
(6.3)
dove ηt e ζt sono due WN incorrelati con media nulla e varianza rispettivamente ση 2
e σζ 2 . Qualora σζ 2 = 0 il modello è una passeggiata aleatoria con drift costante:
µt = µt−1 + β + ηt ; quando ση 2 = 0 si ha il cosidetto modello IRW (Integrated
Random Walk) privilegiato da Young (1990) e Kitagawa e Gersch (1984), in quanto
fornisce un trend caratterizzato da un grado di lisciamento più elevato. Il filtro di
Hodrick & Prescott si ottiene nel caso particolare in cui ση 2 = 0 e σζ 2 = qσ 2 , per
q = 1/1600. Infine, quando entrambe le varianze sono nulle, µt è un processo lineare
deterministico. Nel modello con damped slope la seconda equazione è sostituita dal
processo AR(1) stazionario:
βt = ρβt−1 + ζt , con ρ ∈ (0, 1)
Supponiamo che la serie yt abbia una rappresentazione trend + irregolare:
yt = µt + t ,
t ∼ WN(0, σ 2 )
dove µt è un trend lineare locale (6.3) e si assume che t sia incorrelato con ηt e ζt .
E’ immediato verificare che
∆2 yt = ∆ηt + ζt−1 + ∆2 t
e che pertanto E(∆2 yt ) = 0. La funzione di autocovarianza, γ(k) = E(∆2 yt ∆2 yt−k ), è
tale che γ(0) = 2ση 2 +σζ 2 +6σ 2 , γ(1) = −ση 2 −4σ 2 , γ(2) = σ 2 e γ(k) = 0, k > 2, che
implica che yt ∼ ARIM A(0, 2, 2). La struttura del modello implica forti restrizioni
nello spazio parametrico dei parametri MA: in particolare, la FAC a ritardo 1 è
compresa tra -2/3 e 0 e quella a ritardo 2 tra 0 e 1/6. Infine, la funzione di previsione
realizza uno smorzamento esponenziale del tipo di quello tipico della procedura di
Holt & Winters.
101
6.3
La modellazione del ciclo economico
Un ciclo deterministico, ψt = A1 cos λc t + A2 sin λc t, dove λc ∈ [0, π] rappresenta la
frequenza angolare e (A21 + A22 )1/2 l’ampiezza dell’oscillazione, può essere scritto in
forma ricorsiva:
#
"
#"
"
#
ψt
cos λc sin λc
ψt−1
=
∗
ψt∗
− sin λc cos λc
ψt−1
con [ψ0 , ψ0∗ ] = [A1 , A2 ].
La versione stocastica del modello si ottiene introducendo un fattore di smorzamento, ρ, che assume valori nell’intervallo [0,1], e due disturbi stocastici mutualmente incorrelati e a varianza comune, κt , κ∗t :
"
ψt
ψt∗
#
=ρ
"
cos λc sin λc
− sin λc cos λc
#"
ψt−1
∗
ψt−1
#
+
"
κt
κ∗t
#
con κt ∼ WN(0, σκ2 ) e κ∗t ∼ WN(0, σκ2 ).
La forma ridotta è un modello ARMA(2,1) con radici del polinomio AR complesse, di modulo ρ−1 e fase λc :
(1 − 2ρ cos λc L + ρ2 L2 )ψt = (1 − ρ cos λc L)κt + ρ sin λc Lκ∗t ,
ad eccezione del caso λc → 0, π, in cui il modello si riduce ad un AR(1) di parametro
rispettivamente positivo e negativo.
Una rappresentazione equivalente si ottiene facendo variare nel tempo i coefficienti A1 e A2 che definiscono l’ampiezza dell’oscillazione:
ψt = [cos λt, sin λt]At ,
At = [A1t , A2t ]0
A1,t = ρA1,t−1 + κ̃1t
A2,t = ρA2,t−1 + κ̃2t
dove κ̃1t ∼ WN(0, σκ2 ) e κ̃2t ∼ WN(0, σκ2 ).
La possibilità di modellare il ciclo appare appetibile per le serie temporali economiche; tuttavia è sperimentato che la destagionalizzazione è relativamente insensibile
all’introduzione del ciclo. In effetti, se il periodo del ciclo è sufficientemente elevato
(ad es. è superiore a tre anni) il filtro di estrazione della componente stagionale ha
una funzione di trasferimento pressoché nulla in corrispondenza delle frequenze cicliche e l’estrazione del ciclo interagisce essenzialmente con la componente tendenziale,
che risulta più lisciata: generalmente quelle che vengono descritte come fluttuazioni
cicliche vengono assorbite dalla componente βt .
102
6.4
Componente stagionale
La componente stagionale, di periodo pari a s, ha due rappresentazioni fondamentali:
dummy e trigonometrica. La prima è tale che S(L)γt = ωt , dove ωt ∼ WN(0, σω 2 )
e S(L) = 1 + L + · · · + Ls−1 , mentre nella seconda l’effetto stagionale risulta dalla
combinazione di s/2 cicli stocastici integrati del primo ordine definiti alle frequenze
stagionali λj = 2πj/s, j = 1, . . . , s/2:
γt =
s/2
X
γit
(6.4)
j=1
dove
"
γjt
∗
γjt
#
=
"
cos λj sin λj
− sin λj cos λj
#"
γj,t−1
∗
γj,t−1
(1 + L)γ 2s ,t = ω 2s ,t
#
+
"
ωj,t
∗
ωjt
#
,
(6.5)
(6.6)
∗
ωjt e ωjt
costituiscono un set di WN mutualmente incorrelati con varianza comune
2
σω . Si mostra che S(L)γt ha rappresentazione MA(s − 2).
La formulazione trigonometrica è preferibile in termini di lisciamento, poiché
dà luogo ad una componente che evolve meno rapidamente della corrispondente
formulazione dummy. La restrizione di eguaglianza delle varianze degli shock è
di sovraidentificazione e può essere rimossa (Bruce e Jurke (1996), Bell (1992)).
L’evidenza mostra che rimuovendo tale restrizione migliora in maniera significativa
l’adattamento del modello, soprattutto nel caso mensile, quando ad es. la frequenza
fondamentale ha un ruolo più importante delle armoniche. Tuttavia, ciò richiede la
stima di s/2 parametri in luogo di uno, con corrispondente allungamento del tempo
computazionale e problemi di convergenza.
6.5
Il trattamento statistico del modello e la stima delle componenti
La rappresentazione del modello nello spazio degli stati apre la via al trattamento
statistico del modesimo. Ad essa si applica il filtro di Kalman (FK) che costituisce l’algoritmo fondamentale per il calcolare della funzione di verosimiglianza mediante la tecnica di scomposizione in errori di previsione uniperiodali. La verosimiglianza è massimizzata numericamente ricorrendo all’algoritmo di Broyden-FletcherGoldfarb-Shanno. Stime iniziali possono essere ottenute mediante l’algoritmo EM.
103
6.5.1
La rappresentazione nello spazio degli stati
Sia y t una serie temporale multivariata che contiene N elementi; essa è collegata ad
un vettore m × 1 di componenti latenti attraverso l’equazione di misurazione:
t = 1, 2, . . . , T,
y t = Z t αt + dt + t ,
(6.7)
dove Z t è una matrice N × m, dt è un vettore N × 1 di grandezze deterministiche
(esogene rispetto al sistema), αt è il vettore di stato, e t ∼ NID(0, H t ).
Il modello dinamico che genera gli stati è fornito dalla equazione di transizione:
αt = T t αt−1 + ct + Rt η t ,
t = 1, 2, . . . , T,
(6.8)
dove T t è la matrice di transizione (m × m), ct è un vettore m × 1 di grandezze
deterministiche, η t ∼ NID(0, Qt ), un vettore g × 1 di disturbi stocastici, e Rt è una
matrice m × g.
La specificazione del modello è completata dall’assunzione che il vettore di stato
iniziale abbia media a0 = E(α0 ) e matrice di covarianza P 0 = Cov(α0 ) e che α0 , t
e η t siano mutualmente incorrelate per ogni t. Le matrici Z t , dt , H t , T t , ct , Rt , Qt ,
dette matrici del sistema, hanno natura non stocastica e per i modelli strutturali da
noi considerati sono invarianti nel tempo (Z t = Z, etc.).
Es. Modello ARIMA(p, d, q) Consideriamo il modello
φ(L)∆d yt = µ + θ(L)ξt , ξt ∼ WN(0, σ 2 )
e sia m = max(p, q+1). Denotando φ = [φ1 , φ2 , . . . , φm ]0 and θ = [1, θ1 , θ2 , . . . , θm−1 ]0 ;
il modello ARMA(p, q) per ∆d yt può essere rappresentato nello spazio degli stati
definendo un vettore m × 1 che segue la seguente equazione di transizione:
αt = T αt−1 + c + Rξt ,
dove R = θ,
T =
Œ
Œ
φ ŒŒŒ
"
I m−1
00
#
,
c = [µ, 0, . . . , 0]0 , I m−1 è la matrice identità di ordine (m − 1) e 0 è un vettore
(m − 1) × 1 di 0.
L’equazione di misurazione seleziona il primo elemento di αt : pertanto, definendo
Z = [1, 00 ], si ha
∆d yt = Zαt .
Infine, a0 = (I m − T )−1 c e P 0 soddisfa l’equazione P 0 = T P 0 T 0 + σ 2 Rt R0t .
104
6.5.2
Il filtro di Kalman
Il filtro di Kalman è un algoritmo ricorsivo che calcola il valore atteso del vettore
di stato al tempo t, αt , condizionato all’informazione disponibile al tempo t − 1,
Y t−1 = {y 1 , y 2 , . . . , y t−1 }, che denoteremo at|t−1 = E(αt |Y t−1 ), assieme al suo
errore quadratico medio di stima, P t|t−1 = E[(αt − at|t−1 )(αt − at|t−1 )0 |Y t−1 ].
Tale valore atteso rappresenta lo stimatore ottimale di αt sulla base di Y t−1 , nel
senso che minimizza l’errore quadratico medio di stima nella classe degli stimatori
lineari in y t . Sotto l’ipotesi di normalità, lo stimatore è ottimale tout court.
Il filtro, inoltre, aggiorna la stima di αt quando l’informazione corrente, y t , si
aggiunge al set informativo e consente il calcolo della funzione di verosimiglianza
mediante la scomposizione in errori di previsione.
Ai fini della derivazione del filtro supponiamo di trovarci al tempo t − 1 e di
conoscere, sulla base del set informativo Y t−1 , lo stimatore ottimale di αt−1 condizionato a Y t−1 , che denotiamo at−1 = E(αt−1 |Y t−1 ), e la matrice di covarianza
dell’errore di stima: P t−1 = E[(αt−1 − at−1 )(αt−1 − at−1 )0 |Y t−1 ].
Proponiamoci di prevedere un periodo in avanti il vettore di stato e di calcolare
la matrice di covarianza del corrispondente errore di previsione; dall’equazione di
transizione:
at|t−1 = T t at−1 + ct
(6.9)
P t|t−1 = T t P t−1 T 0t + Rt Qt R0t
Le equazioni (6.9) sono denominate equazioni di predizione. Consideriamo ora il
problema di prevedere y t un periodo in avanti: dalla (6.7) si ottiene:
ŷ t|t−1 = E(y t |Y t−1 ) = Z t at|t−1 + dt
e, denotando con ν t l’errore di previsione, ν t = y t − Z t at|t−1 − dt , si ha
E(ν t |Y t−1 ) = 0,
F t = Cov(ν t ) = E(ν t ν 0t |Y t−1 ) = Z t P t|t−1 Z t0 + H t
Supponiamo ora di trovarci al tempo t e di aver acquisito la più recente osservazione y t . E’ a questo punto possibile aggiornare la stima del vettore di stato
utilizzando il set informativo Y t . Ciò dà luogo alle equazioni di aggiornamento:
at = at|t−1 + P t|t−1 Z t0 F −1
t νt
P t = P t|t−1 − P t|t−1 Z 0t F −1
t Z t P t|t−1
(6.10)
Derivazione delle equazioni di aggiornamento Si parte dalla considerazione
della distribuzione congiunta y t e αt condizionata a Y t−1 :
yt
αt
Œ
! " Œ
Z t P t|t−1 Z t0 + H t
Z t at|t−1 + dt
Œ
,
Œ Y t−1 , ∼ N
Œ
P t|t−1 Z 0t
T t at−1 + ct
105
Z t P t|t−1
P t|t−1
!#
Al fine di ottenere il risultato si sfrutta un noto teorema per il quale la distribuzione
di αt |Y t−1 , condizionata a y t ha valore atteso:
E(αt |Y t ) = E(αt |Y t−1 ) + Cov(αt , y t |Y t−1 )[Cov(y t |Y t−1 )]−1 (y t − E(yt |Y t−1 ))
che produce
at = at|t−1 + P t|t−1 Z t0 F −1
t νt
Inoltre,
Cov(αt |Y t ) = Cov(αt |Y t−1 ) − Cov(αt , y t |Y t−1 )[Cov(y t |Y t−1 )]−1 Cov(y t , αt |Y t−1 )
che fornisce la seconda equazione di aggiornamento nella (6.10).
Il filtro di Kalman può anche essere scritto compattando la fase di aggiornamento
del filtro: dati i valori iniziali a1|0 , P 1|0 ,
νt
= y t − Z t at − dt ,
Ft
= Z t P t|t−1 Z 0t + H t
K t = T t+1 P t|t−1 Z t0 F −1
t ,
at+1|t = T t+1 at|t−1 + K t ν t + ct , P t+1|t = T t+1 (P t|t−1 − P t|t−1 Z 0t F t−1 Z t P t|t−1 )T 0t+1 + Rt+1 Qt+1
6.5.3
Verosimiglianza e inizializzazione del filtro
Le matrici del sistema dipendono da un insieme di parametri Ψ. La funzione di
densità congiunta delle osservazioni,
L(y 1 , . . . , y T ; Ψ) =
T
Y
t=1
dove
Pertanto
f (y t |Y t−1 )
’
1
f (y t |Y t−1 ) = (2π)N/2 |F t |−1/2 exp − ν t F −1
t νt
2
“
T
T
X
X
1
ln L = −
N T ln 2π +
ln |F t | +
ν t F −1
t νt
2
t=1
t=1
!
La massimizzazione rispetto ai parametri incogniti può essere effettuata mediante
un algoritmo numerico.
Tale espressione fornisce la verosimiglianza solo se a0 e P 0 sono noti, come avviene nel caso in cui αt è stazionario. Quando αt contiene d elementi non stazionari,
si può mostrare che le prime d osservazioni possono essere utilizzate per ottenere i
momenti della distribuzione di αd e pertanto, considerando dette osservazioni come
fisse,


T
T
X
X
1

ν t F −1
N (T − d) ln 2π +
ln |F t | +
ln L = −
t νt
2
t=d+1
t=d+1
106
Ai fini computazionali, una soluzione approssimata consiste nell’inizializzare il filtro
mediante un diffuse prior: supponendo senza perdita di generalità che i primi m1
elementi siano non stazionari, si pone
a0 =
"
0m1
a20
#
,
"
0
κI m1
0
P m2
#
dove κ è un numero sufficientemente “elevato”. DeJong (1991) ha introdotto un filtro
di Kalman modificato che supera elegantemente il problema dell’inizializzazione e
che consente di calcolare la funzione di verosimiglianza esatta.
6.5.4
Smoothing
L’operazione che prende il nome di smoothing mira ad ottenere stime delle componenti condizionate all’intero set di osservazioni, Y T . Il tradizionale algoritmo di
smoothing ad intervallo fisso (dal momento che opera su un set di dati fisso) è quello di Anderson e Moore (1979), ed è fornito dalle seguenti formule retro-ricorsive,
inizializzate con aT |T = aT e P T |T = P T :
at|T = at + P t∗ (at+1|T − T t+1 at )
0
P t|T = P t + P ∗t (P t+1|T − P t+1|t )P t∗
dove at|T = E(αt |Y T ), P t|T = E[(αt − at|T )(αt − at|T )0 |Y T ] e P ∗t = P t T 0t+1 P −1
t+1|t .
Si noti che l’algoritmo deve essere preceduto da un’applicazione del filtro di Kalman, passo nel quale le stime aggiornate e le matrici P t+1|t devono essere tenute
in memoria. Inoltre, si richiede l’inversione di queste ultime. Ciò è inefficiente dal
punto di vista computazionale e in letteratura sono disponibili versioni più efficienti
per le quali rimandiamo a DeJong (1989) e Koopman (1993).
Ai fini della destagionalizzazione, la serie aggiustata è ottenuta per sottrazione
dalla serie delle stime smoothed della componente stagionale:
at = yt − γ̃t|T .
6.5.5
Diagnostica
Le innovazioni (standardizzate) del FK sono utilizzate in sede di verifica del modello e per la valutazione della bontà dell’adattamento. A tal fine vengono impiegati gli stessi strumenti diagnostici che sono utilizzati dalla modellistica ARIMA, il
correlogramma, il periodogramma, il test di Ljung-Box, etc.
107
6.6
Componenti di calendario
Dagum & Quenneville (1995) e Durbin & Quenneville (1997) considerano la seguente
estensione del modello strutturale di base:
yt = µt + γt + TDt + t ,
dove
TDt =
6
X
i=1
(6.11)
δit (Dit − D7t )
Dit è il numero dei giorni di tipo i nel mese e gli effetti sono variabili nel tempo
secondo un rw:
δit = δi,t−1 + νit , νt ∼ WN(0, σν2 )
tale che νit , i = 1, . . . , 6 sono mutualmente incorrelati. Poiché può apparire eccessivo
che gli effetti abbiano una variazione di periodo in periodo, si può semplificare il
modello ponendo: δit = δi,t−s + νt . L’evidenza empirica mostra che la formulazione
deterministica è generalmente appropriata.
6.7
Altre specificazioni della componente stagionale
La destagionalizzazione cambia al variare della specificazione della componente stagionale. Il modello di Harrison e Stevens (1971) ha la rappresentazione γt = x0t χt ,
dove xt è un vettore s × 1 di selezione con 1 nella posizione corrispondente alla
j-esima stagione e 0 altrove, mentre χt è un vettore s × 1 che segue la seguente
equazione di transizione:

‘
χt = χt−1 + Ωt , con Ωt ∼ WN 0, σω2 [Is − (i0s is )−1 is i0s ]
La forma ridotta è tale che S(L)γt ha una rappresentazione MA(s − 2). La densità
spettrale è monotonicamente decrescente da 0 a π e, a differenza della specificazione
trigonometrica non presenta un massimo relativo alla frequenza π. Conseguentemente, si ottiene una componente stagionale più lisciata (Proietti, 1997).
Den Butter e Fase (1991) propongono la seguente specificazione:
1
γt = γt−s − S(L)γt−1 + ωt
s
che può essere riscritta
(1 − ρs )S(L)γt = ωt , con ρs =
108
s−1
s
Le proprietà di lisciamento sono abbastanza simili a quelle del modello di Harrison
e Stevens, anche se S(L)γt ha rappresentazione AR(1).
Il vincolo imposto dall’identificabilità del modello esclude la possibilità di rappresentare la componente stagionale con il modello γt = γt−s + ωt o con modelli la
cui parte AR contiene il fattore ∆s (Engle, 1976). Altre estensioni per modellare
l’eteroschedasticità stagionale e per trend stagionali sono disponibili.
109