Thursday 20 July 2017

Arma Autoregressive Moving Average Beispiel

Autoregressive Moving-Average-Fehlerprozesse (ARMA-Fehler) und andere Modelle, die Lags von Fehlertermen beinhalten, können durch Verwendung von FIT-Anweisungen geschätzt und mit SOLVE-Anweisungen simuliert oder prognostiziert werden. ARMA-Modelle für den Fehlerprozess werden oft für Modelle mit autokorrelierten Residuen verwendet. Mit dem AR-Makro können Modelle mit autoregressiven Fehlerprozessen spezifiziert werden. Mit dem MA-Makro können Modelle mit gleitenden Durchschnittsfehlern angegeben werden. Autoregressive Fehler Ein Modell mit autoregressiven Fehler erster Ordnung, AR (1), hat die Form, während ein AR (2) Fehlerprozess die Form hat und so weiter für Prozesse höherer Ordnung. Beachten Sie, dass die s unabhängig und identisch verteilt sind und einen Erwartungswert von 0 haben. Ein Beispiel für ein Modell mit einer AR (2) - Komponente ist usw. für Prozesse höherer Ordnung. Zum Beispiel können Sie ein einfaches lineares Regressionsmodell mit MA (2) gleitenden Durchschnittsfehlern schreiben, da MA1 und MA2 die gleitenden Mittelwerte sind. Beachten Sie, dass RESID. Y automatisch durch PROC MODEL definiert wird. Die ZLAG-Funktion muss für MA-Modelle verwendet werden, um die Rekursion der Verzögerungen zu verkürzen. Dadurch wird sichergestellt, dass die verzögerten Fehler in der Lag-Priming-Phase bei Null beginnen und fehlende Werte nicht ausbreiten, wenn Lag-Priming-Periodenvariablen fehlen und stellt sicher, dass die zukünftigen Fehler null sind, anstatt während Simulation oder Prognose fehlen. Einzelheiten zu den Verzögerungsfunktionen finden Sie im Abschnitt Lag Logic. Dieses mit dem MA-Makro geschriebene Modell lautet wie folgt: Allgemeine Form für ARMA-Modelle Das allgemeine ARMA-Verfahren (p, q) hat die folgende Form Ein ARMA-Modell (p, q) kann wie folgt angegeben werden: wobei AR i und MA j repräsentieren Die autoregressiven und gleitenden Durchschnittsparameter für die verschiedenen Verzögerungen. Sie können beliebige Namen für diese Variablen verwenden, und es gibt viele äquivalente Möglichkeiten, die die Spezifikation geschrieben werden könnte. Vektor-ARMA-Prozesse können auch mit PROC MODEL geschätzt werden. Beispielsweise kann ein zweidimensionaler AR (1) - Prozeß für die Fehler der beiden endogenen Variablen Y1 und Y2 wie folgt spezifiziert werden: Konvergenzprobleme mit ARMA-Modellen ARMA-Modelle können schwer abzuschätzen sein. Wenn die Parameterschätzwerte nicht innerhalb des geeigneten Bereichs liegen, wachsen exponentiell gleitende Modellrestriktionen. Die berechneten Residuen für spätere Beobachtungen können sehr groß sein oder überlaufen. Dies kann entweder geschehen, weil falsche Startwerte verwendet wurden oder weil sich die Iterationen von vernünftigen Werten entfernt haben. Bei der Auswahl der Anfangswerte für ARMA-Parameter sollte Sorgfalt angewendet werden. Startwerte von 0,001 für ARMA-Parameter arbeiten normalerweise, wenn das Modell die Daten gut passt und das Problem gut konditioniert ist. Man beachte, dass ein MA-Modell oft durch ein höherwertiges AR-Modell angenähert werden kann und umgekehrt. Dies kann zu einer hohen Kollinearität bei gemischten ARMA-Modellen führen, was wiederum zu ernsthaften Konditionierungen in den Berechnungen und der Instabilität der Parameterschätzungen führen kann. Wenn Sie Konvergenzprobleme haben, während Sie ein Modell mit ARMA-Fehlerprozessen schätzen, versuchen Sie in Schritten abzuschätzen. Verwenden Sie zuerst eine FIT-Anweisung, um nur die strukturellen Parameter mit den auf Null gehaltenen ARMA-Parametern zu schätzen (oder zu vernünftigen vorherigen Schätzungen, falls verfügbar). Als nächstes verwenden Sie eine andere FIT-Anweisung, um die ARMA-Parameter nur unter Verwendung der strukturellen Parameterwerte aus dem ersten Lauf zu schätzen. Da die Werte der Strukturparameter wahrscheinlich nahe an ihren endgültigen Schätzwerten liegen, können die ARMA-Parameterschätzungen nun konvergieren. Verwenden Sie schließlich eine andere FIT-Anweisung, um simultane Schätzungen aller Parameter zu erzeugen. Da die Anfangswerte der Parameter nun sehr nahe an ihren endgültigen gemeinsamen Schätzungen liegen, sollten die Schätzungen schnell zusammenlaufen, wenn das Modell für die Daten geeignet ist. AR Anfangsbedingungen Die Anfangsverzögerungen der Fehlerterme von AR (p) - Modellen können auf unterschiedliche Weise modelliert werden. Die von SAS / ETS-Prozeduren unterstützten autoregressiven Fehlerstartmethoden sind die folgenden: bedingte kleinste Fehlerquadrate (ARIMA - und MODEL-Prozeduren) unbedingte kleinste Fehlerquadrate (AUTOREG, ARIMA und MODEL) maximale Wahrscheinlichkeit (AUTOREG, ARIMA und MODEL) Yule-Walker (Nur AUTOREG-Prozedur) Hildreth-Lu, der die ersten p-Beobachtungen löscht (nur MODELL-Verfahren) Siehe Kapitel 8, Die AUTOREG-Prozedur für eine Erklärung und Diskussion der Vorzüge verschiedener AR (p) - Startmethoden. Die CLS-, ULS-, ML - und HL-Initialisierungen können mit PROC MODEL durchgeführt werden. Bei AR (1) Fehlern können diese Initialisierungen wie in Tabelle 18.2 dargestellt erzeugt werden. Diese Verfahren sind in großen Proben äquivalent. Tabelle 18.2 Initialisierungen durchgeführt durch PROC MODELL: AR (1) ERRORS Die anfänglichen Verzögerungen der Fehlerausdrücke von MA (q) - Modellen können auch unterschiedlich modelliert werden. Die folgenden gleitenden durchschnittlichen Fehlerstartparadigmen werden von den ARIMA - und MODEL-Prozeduren unterstützt: unbedingte kleinste Fehlerquadrate bedingte kleinste Fehlerquadrate Die bedingte Methode der kleinsten Fehlerquadrate zur Schätzung der gleitenden durchschnittlichen Fehlerterme ist nicht optimal, da sie das Startproblem ignoriert. Dies verringert die Effizienz der Schätzungen, obwohl sie unverändert bleiben. Die anfänglichen verzögerten Residuen, die sich vor dem Start der Daten erstrecken, werden als 0 angenommen, ihr unbedingter Erwartungswert. Dies führt zu einer Differenz zwischen diesen Residuen und den verallgemeinerten Resten der kleinsten Quadrate für die gleitende durchschnittliche Kovarianz, die im Gegensatz zum autoregressiven Modell durch den Datensatz fortbesteht. Normalerweise konvergiert diese Differenz schnell auf 0, aber für fast nicht-invertierbare gleitende Durchschnittsprozesse ist die Konvergenz ziemlich langsam. Um dieses Problem zu minimieren, sollten Sie viele Daten haben, und die gleitenden Durchschnittsparameter-Schätzungen sollten gut innerhalb des invertiblen Bereichs liegen. Dieses Problem kann auf Kosten des Schreibens eines komplexeren Programms korrigiert werden. Unbedingte Kleinste-Quadrate-Schätzungen für das MA (1) - Prozeß können durch Spezifizieren des Modells wie folgt erzeugt werden: Gleitende Durchschnittsfehler können schwer abgeschätzt werden. Man sollte erwägen, eine AR (p) - Näherung für den gleitenden Durchschnitt zu verwenden. Ein gleitender Durchschnitt kann in der Regel durch einen autoregressiven Prozess gut approximiert werden, wenn die Daten nicht geglättet oder differenziert sind. Das AR-Makro Das SAS-Makro AR erzeugt Programmieranweisungen für PROC MODEL für autoregressive Modelle. Das AR-Makro ist Teil der SAS / ETS-Software, und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Das autoregressive Verfahren kann auf die strukturellen Gleichungsfehler oder auf die endogenen Reihen selbst angewendet werden. Das AR-Makro kann für folgende Arten von Autoregression verwendet werden: uneingeschränkte Vektorautoregression beschränkte Vektorautoregression Univariate Autoregression Um den Fehlerausdruck einer Gleichung als autoregressiven Prozess zu modellieren, verwenden Sie die folgende Anweisung nach der Gleichung: Angenommen, Y ist eine Linearen Funktion von X1, X2 und einem AR (2) Fehler. Sie würden dieses Modell wie folgt schreiben: Die Aufrufe zu AR müssen nach allen Gleichungen kommen, auf die sich der Prozess bezieht. Der vorhergehende Makroaufruf AR (y, 2) erzeugt die in der LIST-Ausgabe in Abbildung 18.58 gezeigten Anweisungen. Abbildung 18.58 LIST Optionsausgabe für ein AR (2) - Modell Die PRED-Präfixvariablen sind temporäre Programmvariablen, die verwendet werden, so dass die Verzögerungen der Residuen die korrekten Residuen sind und nicht die, die durch diese Gleichung neu definiert werden. Beachten Sie, dass dies den Aussagen entspricht, die explizit im Abschnitt Allgemeine Formulare für ARMA-Modelle beschrieben sind. Sie können die autoregressiven Parameter auch bei ausgewählten Verzögerungen auf Null setzen. Wenn Sie zum Beispiel autoregressive Parameter in den Lags 1, 12 und 13 wünschen, können Sie die folgenden Anweisungen verwenden: Diese Anweisungen erzeugen die in Abbildung 18.59 dargestellte Ausgabe. Abbildung 18.59 LIST-Option Ausgang für ein AR-Modell mit Lags bei 1, 12 und 13 Die MODEL-Prozedurauflistung der kompilierten Programmcode-Anweisung als Parsed PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. Y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - perdy) yl12 ZLAG12 (y - perdy) yl13 ZLAG13 (y - perdy) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y Es gibt Variationen der Methode der bedingten Kleinste-Quadrate, je nachdem, ob Beobachtungen am Anfang der Serie zum Aufwärmen des AR-Prozesses verwendet werden. Die AR-bedingte Methode der kleinsten Quadrate verwendet standardmäßig alle Beobachtungen und nimmt Nullen für die Anfangsverzögerungen autoregressiver Terme an. Wenn Sie die M-Option verwenden, können Sie anfordern, dass AR die unbedingte Methode der kleinsten Fehlerquadrate (ULS) oder Maximum-Likelihood (ML) anwendet. Zum Beispiel, Diskussionen dieser Methoden wird im Abschnitt AR Anfangsbedingungen zur Verfügung gestellt. Unter Verwendung der Option MCLS n können Sie anfordern, dass die ersten n Beobachtungen verwendet werden, um Schätzungen der anfänglichen autoregressiven Verzögerungen zu berechnen. In diesem Fall beginnt die Analyse mit der Beobachtung n 1. Beispielsweise können Sie mit dem AR-Makro ein autoregressives Modell an die endogene Variable anstelle des Fehlerterms über die Option TYPEV anwenden. Wenn Sie beispielsweise die fünf letzten Lags von Y der Gleichung im vorherigen Beispiel hinzufügen möchten, können Sie AR verwenden, um die Parameter und die Lags mit den folgenden Anweisungen zu generieren: Die obigen Anweisungen erzeugen die in Abbildung 18.60 dargestellte Ausgabe. Abbildung 18.60 LIST Option Ausgang für ein AR-Modell von Y Dieses Modell prognostiziert Y als lineare Kombination von X1, X2, einem Intercept und den Werten von Y in den letzten fünf Perioden. Unrestricted Vector Autoregression Um die Fehlerausdrücke eines Gleichungssystems als vektorautoregressiven Prozess zu modellieren, verwenden Sie die folgende Form des AR-Makros nach den Gleichungen: Der Name des Prozessnamens ist ein beliebiger Name, den Sie für AR verwenden, um Namen für den autoregressiven Namen zu verwenden Werden. Mit dem AR-Makro können Sie verschiedene AR-Prozesse für verschiedene Sätze von Gleichungen modellieren, indem Sie für jeden Satz unterschiedliche Prozessnamen verwenden. Der Prozessname stellt sicher, dass die verwendeten Variablennamen eindeutig sind. Verwenden Sie für den Prozess einen kurzen Prozessname-Wert, wenn Parameter-Schätzwerte in einen Ausgabedatensatz geschrieben werden sollen. Das AR-Makro versucht, Parameternamen zu erstellen, die kleiner oder gleich acht Zeichen sind, aber dies ist durch die Länge des Prozessnamens begrenzt. Die als Präfix für die AR-Parameternamen verwendet wird. Der Variablenlistenwert ist die Liste der endogenen Variablen für die Gleichungen. Beispielsweise wird angenommen, dass Fehler für die Gleichungen Y1, Y2 und Y3 durch einen autoregressiven Prozess der zweiten Ordnung erzeugt werden. Sie können die folgenden Aussagen verwenden, die für Y1 und ähnlichen Code für Y2 und Y3 erzeugen: Für Vektorprozesse kann nur die Methode der bedingten kleinsten Quadrate (MCLS oder MCLS n) verwendet werden. Sie können auch das gleiche Formular mit Einschränkungen verwenden, dass die Koeffizientenmatrix bei ausgewählten Verzögerungen 0 ist. Zum Beispiel verwenden die folgenden Aussagen einen Vektorprozess der dritten Ordnung auf die Gleichungsfehler, wobei alle Koeffizienten bei Verzögerung 2 auf 0 beschränkt sind und die Koeffizienten bei den Verzögerungen 1 und 3 unbeschränkt sind: Sie können die drei Reihen Y1Y3 als vektorautoregressiven Prozess modellieren In den Variablen statt in den Fehlern, indem Sie die Option TYPEV verwenden. Wenn Sie Y1Y3 als Funktion von vergangenen Werten von Y1Y3 und einigen exogenen Variablen oder Konstanten modellieren möchten, können Sie mit AR die Anweisungen für die Lag-Terme erzeugen. Schreiben Sie eine Gleichung für jede Variable für den nichtautoregressiven Teil des Modells und rufen Sie dann AR mit der Option TYPEV auf. Zum Beispiel kann der nichtautoregressive Teil des Modells eine Funktion von exogenen Variablen sein, oder es können Abfangparameter sein. Wenn es keine exogenen Komponenten für das Vektorautoregressionsmodell gibt, die keine Abschnitte enthalten, dann weisen Sie jeder der Variablen Null zu. Es muss eine Zuordnung zu jeder der Variablen vorhanden sein, bevor AR aufgerufen wird. Dieses Beispiel modelliert den Vektor Y (Y1 Y2 Y3) als eine lineare Funktion nur seines Werts in den vorherigen zwei Perioden und einen Weißrauschenfehlervektor. Das Modell hat 18 (3 3 3 3) Parameter. Syntax des AR-Makros Es gibt zwei Fälle der Syntax des AR-Makros. Wenn Einschränkungen für einen Vektor-AR-Prozess nicht benötigt werden, hat die Syntax des AR-Makros die allgemeine Form, die ein Präfix für AR spezifiziert, das beim Konstruieren von Namen von Variablen zum Definieren des AR-Prozesses verwendet werden soll. Wenn der Endolist nicht angegeben wird, ist die endogene Liste standardmäßig der Name. Der der Name der Gleichung sein muss, auf die der AR-Fehlerprozess angewendet werden soll. Der Name darf nicht länger als 32 Zeichen sein. Ist die Reihenfolge des AR-Prozesses. Gibt die Liste der Gleichungen an, auf die der AR-Prozess angewendet werden soll. Wenn mehr als ein Name gegeben wird, wird ein unbeschränkter Vektorprozess mit den strukturellen Residuen aller Gleichungen erzeugt, die als Regressoren in jeder der Gleichungen enthalten sind. Wenn nicht angegeben, verwendet endolist standardmäßig den Namen. Gibt die Liste der Verzögerungen an, zu denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgelistet sind, werden auf 0 gesetzt. Alle aufgelisteten Lags müssen kleiner oder gleich nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Verzögerungsliste standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Gibt die zu implementierende Schätzmethode an. Gültige Werte von M sind CLS (bedingte Schätzungen der kleinsten Quadrate), ULS (unbedingte Schätzungen der kleinsten Quadrate) und ML (Maximum Likelihood Estimates). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung angegeben wird. Die ULS - und ML-Methoden werden für AR-AR-Modelle von AR nicht unterstützt. Dass das AR-Verfahren auf die endogenen Variablen anstelle der strukturellen Residuen der Gleichungen angewendet werden soll. Eingeschränkte Vektorautoregression Sie können steuern, welche Parameter in den Prozess eingeschlossen werden, wobei die Parameter auf 0 begrenzt werden, die Sie nicht einschließen. Verwenden Sie zuerst AR mit der Option DEFER, um die Variablenliste zu deklarieren und die Dimension des Prozesses zu definieren. Verwenden Sie dann zusätzliche AR-Aufrufe, um Ausdrücke für ausgewählte Gleichungen mit ausgewählten Variablen bei ausgewählten Verzögerungen zu generieren. Zum Beispiel sind die erzeugten Fehlergleichungen wie folgt: Dieses Modell besagt, daß die Fehler für Y1 von den Fehlern sowohl von Y1 als auch von Y2 (aber nicht von Y3) bei beiden Verzögerungen 1 und 2 abhängen und daß die Fehler für Y2 und Y3 davon abhängen Die vorherigen Fehler für alle drei Variablen, aber nur bei Verzögerung 1. AR-Makro-Syntax für eingeschränkten Vektor-AR Eine alternative Verwendung von AR kann Einschränkungen für einen Vektor-AR-Prozess durch Aufruf von AR mehrmals aufrufen, um verschiedene AR-Terme und - Lags für verschiedene anzugeben Gleichungen. Der erste Aufruf hat die allgemeine Form spezifiziert ein Präfix für AR zu verwenden, bei der Konstruktion von Namen von Variablen benötigt, um den Vektor AR-Prozess zu definieren. Gibt die Reihenfolge des AR-Prozesses an. Gibt die Liste der Gleichungen an, auf die der AR-Prozess angewendet werden soll. Gibt an, dass AR den AR-Prozess nicht generieren soll, sondern auf weitere Informationen warten soll, die in späteren AR-Aufrufen für denselben Namenwert angegeben sind. Die nachfolgenden Anrufe haben die allgemeine Form ist die gleiche wie im ersten Aufruf. Spezifiziert die Liste der Gleichungen, auf die die Spezifikationen in diesem AR-Aufruf angewendet werden sollen. Nur Namen, die im endolistischen Wert des ersten Aufrufs für den Namenswert angegeben sind, können in der Liste der Gleichungen in eqlist erscheinen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in die Gleichungen in eqlist aufgenommen werden sollen. Nur Namen im Endolisten des ersten Aufrufs für den Namenswert können in varlist erscheinen. Wenn nicht angegeben, wird varlist standardmäßig Endolist. Gibt die Liste der Verzögerungen an, zu denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgelistet sind, werden auf 0 gesetzt. Alle aufgelisteten Verzögerungen müssen kleiner oder gleich dem Wert von nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, verwendet laglist standardmäßig alle Verzögerungen 1 bis nlag. Der MA-Makro Der SAS-Makro MA generiert Programmieranweisungen für PROC MODEL für gleitende Durchschnittsmodelle. Das MA-Makro ist Teil der SAS / ETS-Software, und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Der gleitende Mittelwertfehlerprozeß kann auf die strukturellen Gleichungsfehler angewendet werden. Die Syntax des MA-Makros entspricht dem AR-Makro, außer es gibt kein TYPE-Argument. Wenn Sie die kombinierten MA - und AR-Makros verwenden, muss das Makro MA dem AR-Makro folgen. Die folgenden SAS / IML-Anweisungen erzeugen einen ARMA-Fehlerprozeß (1, (1 3)) und speichern ihn im Datensatz MADAT2. Die folgenden PROC MODEL-Anweisungen werden verwendet, um die Parameter dieses Modells unter Verwendung der maximalen Wahrscheinlichkeitsfehlerstruktur zu schätzen: Die Schätzungen der durch diesen Durchlauf erzeugten Parameter sind in Abbildung 18.61 dargestellt. Abbildung 18.61 Schätzungen aus einem ARMA-Prozess (1, (1 3)) Es gibt zwei Fälle der Syntax für das MA-Makro. Wenn Beschränkungen für einen Vektor-MA-Prozess nicht erforderlich sind, hat die Syntax des MA-Makros die allgemeine Form, die ein Präfix für MA vorgibt, das beim Konstruieren von Namen von Variablen verwendet wird, die benötigt werden, um den MA-Prozess zu definieren, und ist der Standard-Endolist. Ist die Reihenfolge des MA-Prozesses. Spezifiziert die Gleichungen, auf die das MA-Verfahren angewendet werden soll. Wenn mehr als ein Name angegeben wird, wird die CLS-Schätzung für den Vektorprozess verwendet. Gibt die Verzögerungen an, zu denen die MA-Bedingungen hinzugefügt werden sollen. Alle aufgelisteten Verzögerungen müssen kleiner oder gleich nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Verzögerungsliste standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Gibt die zu implementierende Schätzmethode an. Gültige Werte von M sind CLS (bedingte Schätzungen der kleinsten Quadrate), ULS (unbedingte Schätzungen der kleinsten Quadrate) und ML (Maximum Likelihood Estimates). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung im Endolisten angegeben ist. MA-Makro-Syntax für eingeschränkte Vektorbewegungsmittel Eine alternative Verwendung von MA ist es, Beschränkungen für einen Vektor-MA-Prozeß durch Aufruf von MA mehrere Male aufzuerlegen, um verschiedene MA-Terme und Verzögerungen für verschiedene Gleichungen anzugeben. Der erste Aufruf hat die allgemeine Form spezifiziert ein Präfix für MA, um beim Erstellen von Namen von Variablen für die Definition der Vektor-MA-Prozess zu verwenden. Spezifiziert die Reihenfolge des MA-Prozesses. Spezifiziert die Liste der Gleichungen, auf die das MA-Verfahren angewendet werden soll. Spezifiziert, daß MA nicht den MA-Prozeß erzeugen soll, sondern auf weitere Informationen, die in späteren MA-Aufrufen für denselben Namenwert spezifiziert werden, wartet. Die nachfolgenden Anrufe haben die allgemeine Form ist die gleiche wie im ersten Aufruf. Spezifiziert die Liste der Gleichungen, auf die die Spezifikationen in diesem MA-Aufruf angewendet werden sollen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in die Gleichungen in eqlist aufgenommen werden sollen. Spezifiziert die Liste der Verzögerungen, bei denen die MA-Terme hinzugefügt werden sollen. ARMA und ARIMA (Box-Jenkins) Modelle ARMA und ARIMA (Box-Jenkins) Modelle In den vorhergehenden Abschnitten haben wir gesehen, wie der Wert einer univariaten Zeitreihe zur Zeit T. X t. Kann mit einer Vielzahl von gleitenden Durchschnittsausdrücken modelliert werden. Wir haben auch gezeigt, dass Komponenten wie Trends und Periodizität in der Zeitreihe explizit modelliert und / oder getrennt werden können, wobei die Daten in Trend-, Saison - und Restkomponenten zerlegt werden. Wir haben auch gezeigt, in den früheren Diskussionen über Autokorrelation. Dass die vollständigen und partiellen Autokorrelationskoeffizienten äußerst nützlich sind, um Muster in Zeitreihen zu identifizieren und zu modellieren. Diese beiden Aspekte der Zeitreihenanalyse und Modellierung können in einem allgemeineren und oftmals sehr effektiven Gesamtmodellierungsrahmen kombiniert werden. In seiner Grundform ist dieser Ansatz als ARMA-Modellierung bekannt (autoregressiver gleitender Durchschnitt) oder wenn die Differenzierung in die Prozedur, die ARIMA - oder die Box-Jenkins-Modellierung, nach den beiden Autoren, die für ihre Entwicklung von zentraler Bedeutung waren, enthalten ist (siehe Box amp Jenkins, 1968) BOX1 und Box, Jenkins amp Reinsel, 1994 BOX2). Es gibt keine feste Regel bezüglich der Anzahl von Zeitperioden, die für eine erfolgreiche Modellierungsübung erforderlich sind, aber für komplexere Modelle und für ein größeres Vertrauen in Pass - und Validierungsverfahren werden häufig Reihen mit 50 Zeitschritten empfohlen. ARMA-Modelle kombinieren Autokorrelationsverfahren (AR) und gleitende Mittelwerte (MA) zu einem zusammengesetzten Modell der Zeitreihe. Bevor wir untersuchen, wie diese Modelle kombiniert werden können, untersuchen wir jeweils einzeln. Wir haben bereits gesehen, dass gleitende Durchschnittsmodelle (MA) verwendet werden können, um eine gute Anpassung an einige Datensätze bereitzustellen, und Variationen dieser Modelle, die eine doppelte oder dreifache exponentielle Glättung beinhalten, können Trend und periodische Komponenten in den Daten behandeln. Darüber hinaus können solche Modelle verwendet werden, um Prognosen zu erstellen, die das Verhalten früherer Perioden nachahmen. Eine einfache Form solcher Modelle, die auf früheren Daten basiert, kann folgendermaßen geschrieben werden: Wo die Betai-Terme die auf vorherige Werte in der Zeitreihe angewendeten Gewichte sind, ist es üblich, Betai & sub1; ohne Verlust der Allgemeinheit zu definieren. Somit gilt für ein Verfahren erster Ordnung q 1 und wir haben das Modell: d. h. der gleitende Mittelwert wird als ein gewichteter Mittelwert der aktuellen und unmittelbaren Vergangenheitswerte geschätzt. Dieses Mittelungsverfahren ist in gewissem Sinne ein pragmatischer Glättungsmechanismus ohne direkte Verbindung zu einem statistischen Modell. Jedoch können wir ein statistisches (oder stochastisches) Modell angeben, das die Prozeduren der gleitenden Mittelwerte in Verbindung mit zufälligen Prozessen umfasst. Wenn wir eine Menge von unabhängigen und identisch verteilten Zufallsvariablen (ein Zufallsprozeß) mit Nullmittelwert und bekannter fester Varianz zulassen, dann können wir den Prozeß als einen gleitenden Durchschnitt der Ordnung q in folgenden Worten beschreiben: klar den Erwartungswert von xt unter Dieses Modell ist 0, also ist das Modell nur gültig, wenn das xt bereits auf einen null-Mittelwert eingestellt wurde oder wenn eine feste Konstante (der Mittelwert der xt) zur Summierung addiert wird. Es ist auch offensichtlich, dass die Varianz von xt einfach ist: Die obige Analyse kann erweitert werden, um die Kovarianz cov (x t xtk) auszuwerten, die Ausbeuten ergibt: Beachten Sie, dass weder der Mittelwert noch die Kovarianz (oder Autokovarianz) Bei der Verzögerung k ist eine Funktion der Zeit t. So dass der Prozess ist zweiter Ordnung stationär. Der obige Ausdruck ermöglicht es, einen Ausdruck für die Autokorrelationsfunktion (acf) zu erhalten: Wenn k 0 rho k 1 und für k gt q rho k 0. Ferner ist die acf symmetrisch und rho k rho - k. Die ACF kann für ein MA-Verfahren erster Ordnung berechnet werden: Die autoregressive oder AR-Komponente eines ARMA-Modells kann in der Form geschrieben werden: wobei die Terme in Autokorrelationskoeffizienten an den Lags 1,2 sind. P und zt ein Restfehlerterm ist. Es sei angemerkt, dass dieser Fehlerausdruck speziell die aktuelle Zeitperiode t betrifft. Also gilt für ein Verfahren erster Ordnung p 1 und wir haben das Modell: Diese Ausdrücke geben an, dass der geschätzte Wert von x zum Zeitpunkt t durch den unmittelbar vorhergehenden Wert von x (dh zum Zeitpunkt t -1) multipliziert mit einem Maß, alpha, bestimmt wird . Des Ausmaßes, in dem die Werte für alle Wertepaare zu Zeitperioden voneinander abweichen, korreliert (d. h. ihre Autokorrelation) plus einem Restfehlerterm, z. Zum Zeitpunkt t. Aber das ist genau die Definition eines Markov-Prozesses. So ist ein Markov-Prozess ein autoregressiver Prozess erster Ordnung. Wenn alpha & sub1; das Modell besagt, daß der nächste Wert von x einfach der vorhergehende Wert plus ein zufälliger Fehlerterm ist und daher ein einfacher 1D-Zufallsweg ist. Wenn mehr Ausdrücke enthalten sind, schätzt das Modell den Wert von x zum Zeitpunkt t durch eine gewichtete Summe dieser Ausdrücke zuzüglich einer Zufallsfehlerkomponente. Wenn wir den zweiten Ausdruck oben in den ersten Satz setzen, haben wir: und wiederholte Anwendung dieser Substitution ergibt sich: Wenn nun alpha lt1 und k groß sind, kann dieser Ausdruck in umgekehrter Reihenfolge mit abnehmenden Ausdrücken und mit Beitrag aus dem Ausdruck geschrieben werden In x auf der rechten Seite des Ausdrucks verschwindend klein, so haben wir: Da die rechte Seite dieses Ausdrucks xt als Summe eines gewichteten Satzes von vorherigen Werten, hier zufälligen Fehlertermen, klar ist, Dieses AR-Modell ist in der Tat eine Form des MA-Modells. Und wenn wir annehmen, daß die Fehlerterme null mittlere und konstante Varianz haben, so haben wir, wie im MA-Modell, den Erwartungswert des Modells auch als 0, wobei angenommen wird, daß die xt so eingestellt sind, daß sie einen Nullmittelwert mit der Varianz bereitstellen Wenn diese Summe endlich ist und einfach 1 / (1 - alpha) ist, so haben wir: Wie bei dem obengenannten MA-Modell kann diese Analyse erweitert werden, um die Kovarianz cov (xt · tk) von a zu evaluieren (1), so ergibt sich: Dies zeigt, dass für ein autoregressives Modell erster Ordnung die Autokorrelationsfunktion (acf) ist Einfach definiert durch sukzessive Potenzen der Autokorrelation erster Ordnung, mit der Bedingung alpha lt1. Für alpha gt0 ist dies einfach eine rasch abnehmende oder exponentialartige Kurve, die gegen Null strebt oder für lt0 eine dämpfende Oszillationskurve, die wiederum gegen Null geht. Wenn angenommen wird, dass die Zeitreihe stationär ist, kann die obige Analyse auf Autokorrelationen zweiter und höherer Ordnung erweitert werden. Um ein AR-Modell einem beobachteten Datensatz anzupassen, versuchen wir, die Summe der quadratischen Fehler (eine kleinste Quadrate-Anpassung) unter Verwendung der kleinsten Anzahl von Ausdrücken zu minimieren, die eine zufriedenstellende Anpassung an die Daten liefern. Modelle dieser Art werden als autoregressiv beschrieben. Und können sowohl auf Zeitreihen als auch auf räumliche Datensätze angewendet werden (siehe weiter, räumliche Autoregressionsmodelle). Obwohl in der Theorie ein autoregressives Modell eine gute Anpassung an einen beobachteten Datensatz bereitstellen könnte, würde es im allgemeinen eine vorherige Entfernung von Trend - und periodischen Komponenten erfordern und selbst dann eine große Anzahl von Ausdrücken benötigen, um eine gute Anpassung an die Daten zu gewährleisten. Durch die Kombination der AR-Modelle mit MA-Modellen können wir jedoch eine Familie von gemischten Modellen herstellen, die in einer Vielzahl von Situationen eingesetzt werden können. Diese Modelle sind als ARMA - und ARIMA-Modelle bekannt und werden in den folgenden Unterabschnitten beschrieben. In den beiden vorangegangenen Abschnitten haben wir den MA-Modus q: und das AR-Modell der Ordnung p eingeführt: Wir können diese beiden Modelle kombinieren, indem wir sie einfach als Modell der Ordnung (p. Q) zusammenfassen, wobei wir p AR-Terme haben Und q MA-Ausdrücke: Im Allgemeinen kann diese Form des kombinierten ARMA-Modells verwendet werden, um eine Zeitreihe mit weniger Ausdrücken insgesamt als ein MA - oder ein AR-Modell selbst zu modellieren. Sie drückt den Schätzwert zum Zeitpunkt t als Summe von q Gliedern aus, die die mittlere Veränderung der Zufallsvariation über q Vorperioden (die MA-Komponente) plus die Summe von p AR-Terme darstellen, die den aktuellen Wert von x als die gewichtete Summe berechnen Der p letzten Werte. Diese Form des Modells geht jedoch davon aus, dass die Zeitreihe stationär ist, was selten der Fall ist. In der Praxis gibt es Trends und Periodizität in vielen Datensätzen, so dass es notwendig ist, diese Effekte zu entfernen, bevor solche Modelle. Die Entfernung wird typischerweise durchgeführt, indem in das Modell eine anfängliche Differenzierungsstufe, typischerweise einmal, zweimal oder dreimal, aufgenommen wird, bis die Reihe zumindest annähernd stationär ist und keine offensichtlichen Trends oder Periodizitäten aufweist. Wie bei den MA - und AR-Prozessen wird der Differenzierungsprozeß durch die Reihenfolge der Differenzierung, z. B. 1, 2, 3, beschrieben. Zusammengenommen bilden diese drei Elemente ein Tripel: (S. d. Q), das die Art des angewandten Modells definiert. In dieser Form wird das Modell als ARIMA-Modell beschrieben. Der Buchstabe I in ARIMA bezieht sich auf die Tatsache, dass der Datensatz anfangs differenziert wurde (siehe Differenzierung), und wenn die Modellierung abgeschlossen ist, müssen die Ergebnisse dann summiert oder integriert werden, um die endgültigen Schätzungen und Prognosen zu erstellen. Die ARIMA-Modellierung wird nachfolgend diskutiert. Wie im vorigen Unterabschnitt erwähnt, bietet das Kombinieren der Differenzierung einer nichtstationären Zeitreihe mit dem ARMA-Modell eine starke Modellfamilie, die in einer Vielzahl von Situationen angewendet werden kann. Die Entwicklung dieser erweiterten Modellform ist vor allem auf die G E P Box und G M Jenkins zurückzuführen, so dass ARIMA-Modelle auch als Box-Jenkins-Modelle bekannt sind. Der erste Schritt des Box-Jenkins-Verfahrens besteht darin, die Zeitreihe bis zum Stillstand zu differenzieren, so dass Trend - und Saisonkomponenten entfernt werden. In vielen Fällen reicht eine ein - oder zweistufige Differenzierung aus. Die differenzierten Reihen sind kürzer als die Quellenreihe durch c Zeitschritte, wobei c der Bereich der Differenzierung ist. Anschließend wird ein ARMA-Modell an die resultierende Zeitreihe angepasst. Da ARIMA Modelle drei Parameter haben, gibt es viele Varianten zu den möglichen Modellen, die montiert werden könnten. Allerdings kann die Entscheidung darüber, was diese Parameter sein sollen, durch eine Reihe von Grundprinzipien geleitet werden: (i) Das Modell sollte so einfach wie möglich sein, dh möglichst wenige Begriffe enthalten, was wiederum die Werte von p und q bedeutet Sollte klein sein (ii) die Anpassung an historische Daten sollte so gut wie möglich sein, dh die Größe der quadrierten Differenzen zwischen dem geschätzten Wert in einem vergangenen Zeitraum und dem tatsächlichen Wert sollte minimiert werden (Prinzip der kleinsten Quadrate) - die Residuen Aus dem ausgewählten Modell können dann untersucht werden, um festzustellen, ob die verbleibenden Residuen signifikant von 0 verschieden sind (siehe weiter unten) (iii) die gemessene partielle Autokorrelation bei den Lags 1,2,3. Sollte eine Angabe der Reihenfolge der AR-Komponente geben, dh der für q (iv) gewählte Wert der Form der Autokorrelationsfunktion (acf) kann den Typ des erforderlichen ARIMA-Modells vorschlagen Interpretation der Form der acf in Bezug auf die Modellauswahl. ARIMA Modelltyp Auswahl mit acf Form Serie ist nicht stationär. Standard-ARIMA-Modelle werden oft durch das Dreifache beschrieben: (S. d. Q) wie oben erwähnt. Diese definieren die Struktur des Modells in der Reihenfolge der AR, Differenzierung und MA-Modelle verwendet werden. Es ist auch möglich, ähnliche Parameter für die Saisonalität in die Daten aufzunehmen, obwohl solche Modelle komplexer zu passen und zu interpretieren sind. Der Kuttel (P. D. Q) wird im allgemeinen verwendet, um solche Modellkomponenten zu identifizieren. Im unten dargestellten Screenshot von SPSS wird der Dialog zur manuellen Auswahl von nicht saisonalen und saisonalen Strukturelementen angezeigt (ähnliche Einrichtungen sind in anderen integrierten Paketen wie SAS / ETS verfügbar). Wie zu sehen ist, ermöglicht es der Dialog auch, die Daten zu transformieren (typischerweise zur Unterstützung der Varianzstabilisierung) und um den Benutzern zu ermöglichen, eine Konstante in dem Modell (die Voreinstellung) aufzunehmen. Dieses spezielle Software-Tool ermöglicht es, daß Ausreißer bei Bedarf detektiert werden können, gemß einer Reihe von Erfassungsverfahren, aber in vielen Fällen werden Ausreißer untersucht und eingestellt oder entfernt und ersetzte Werte, die geschätzt werden, vor einer solchen Analyse. SPSS Time Series Modellierer: ARIMA-Modellierung, Expertenmodus Eine Anzahl von ARIMA-Modellen kann manuell oder über einen automatisierten Prozess (zB ein schrittweises Verfahren) an die Daten angepasst werden Fit und sparsam. Der Modellvergleich verwendet typischerweise eine oder mehrere der in diesem Handbuch früher beschriebenen informationstheoretischen Maßnahmen - AIC, BIC und / oder MDL (die R-Funktion, arima (), stellt die AIC-Messung bereit, während SPSS eine Reihe von Anpassungsmaßnahmen bereitstellt, Enthalten eine Version der BIC-Statistik andere Werkzeuge variieren in den Maßnahmen - Minitab, die eine Reihe von TSA-Methoden, nicht enthalten AIC / BIC-Statistiken). In der Praxis kann eine breite Palette von Maßnahmen (dh neben / zusätzlich zu den Maßnahmen auf der Basis der kleinsten Quadrate zur Bewertung der Modellqualität verwendet werden, zB der mittlere absolute Fehler und der maximale absolute Fehler sinnvoll sein, da auch a Eine Reihe von Softwarepaketen kann auch eine Gesamtmessung der Autokorrelation vorsehen, die in den Resten nach dem Einbau des Modells verbleiben kann Eine häufig angewandte Statistik ist auf Ljung und Box (1978 LJU1) zurückzuführen, Und ist von der Form: wobei n die Anzahl der Abtastwerte (Datenwerte), ri die Abtastautokorrelation bei der Verzögerung i ist und k die Gesamtzahl der Verzögerungen ist, über die die Berechnung ausgeführt wird Eine Chi-Quadrat-Verteilung mit k-m Freiheitsgraden, wobei m die Anzahl der Parameter ist, die bei der Anpassung des Modells verwendet werden, mit Ausnahme aller konstanten Term - oder Prädiktorvariablen (dh einschließlich der pd q-Tripel) Zeigt, dass die Residuen nach dem Einbau des Modells noch signifikante Autokorrelation aufweisen, was darauf hindeutet, dass ein verbessertes Modell gesucht werden sollte. Beispiel: Modellierung des Wachstums von Fluggastzahlen Im Folgenden sehen Sie ein Beispiel für eine automatisierte Anpassung, wobei SPSS auf die in diesem Handbuch vorgestellten Box-Jenkins-Reinsel-Testdaten der Fluggastzahlen REI1 verwendet wird. Anfangs war keine Spezifikation der Termine, die Monate innerhalb von Jahren angegeben wurden. Das Modell, das durch den automatisierten Prozess ausgewählt wurde, war ein ARIMA Modell (0,1,12), dh der Prozess identifizierte korrekt, dass die Serie eine Ebene der Differenzierung benötigte und ein gleitendes Durchschnittsmodell mit einer Periodizität von 12 und keine Autokorrelationskomponente anpaßte Daten. Das Modell passte einen R 2 - Wert von 0,966, der sehr hoch ist, und einen maximalen absoluten Fehler (MAE) von 75. Die visuelle Anpassung des Modells an die Daten sieht hervorragend aus, aber die graphische Darstellung der restlichen Autokorrelation nach dem Einbau und Ljung - Box-Test zeigt, dass signifikante Autokorrelation bleibt, was darauf hinweist, dass ein verbessertes Modell möglich ist. Automatisierte ARIMA - Anpassung an International Airline Passagiere: Monatliche Gesamtsumme, 1949-1960 Um dies zu untersuchen, wurde ein überarbeitetes Modell auf Basis der Diskussion dieses Datensatzes von Box und Jenkins (1968) und der aktualisierten Ausgabe von Chatfields (1975 CHA1) Die er Minitab verwendet, um seine Analyse zu illustrieren (6. Auflage, 2003). Die Zeitreihe wurde mit einer Periodizität von 12 Monaten und einem ARIMA-Modell mit Komponenten (0,1,1), (0,1,1) definiert. Graphisch sind die Ergebnisse sehr ähnlich dem obigen Diagramm, aber bei diesem Modell ist das R-Quadrat 0,991, die MAE41 und die Ljung-Box-Statistik ist nicht mehr signifikant (12,6, mit 16 Freiheitsgraden). Das Modell ist somit eine Verbesserung gegenüber der ursprünglichen (automatisch generierten) Version, die aus einer nicht saisonalen MA und einer saisonalen MA-Komponente, einer autoregressiven Komponente und einer Differenzierungsstufe für saisonale und nicht saisonale Strukturen besteht. Ob Armatur manuell oder automatisiert, ein ARIMA Modell kann ein gutes Rahmenwerk für die Modellierung einer Zeitreihe liefern, oder es kann sein, dass alternative Modelle oder Ansätze ein zufriedenstellenderes Ergebnis liefern. Oft ist es schwierig, im Voraus zu wissen, wie gut jedes gegebene Prognosemodell sein wird, da es nur im Licht seiner Fähigkeit ist, zukünftige Werte der Datenreihe vorherzusagen, dass es wirklich beurteilt werden kann. Oft wird dieser Prozeß durch Anpassen des Modells an vergangene Daten mit Ausnahme der letzten Zeitperioden (auch als Holdout-Abtastwerte bezeichnet) angenähert, und dann unter Verwendung des Modells, um diese bekannten zukünftigen Ereignisse vorherzusagen, aber auch dies bietet nur ein begrenztes Vertrauen in seine zukünftige Gültigkeit. Längerfristige Prognosen können mit solchen Methoden äußerst unzuverlässig sein. Es ist klar, dass das oben beschriebene internationale Luftverkehrsstatistikmodell nicht in der Lage ist, die Passagierzahlen bis in die 1990er Jahre und darüber hinaus korrekt vorherzusagen, noch den 5-jährigen Rückgang der US-amerikanischen Fluggastzahlen nach dem 11. September 2001. Ebenso kann ein ARIMA-Modell auf historische Werte von Börsenkursen oder Indexwerten (zB die NYSE - oder FTSE-Indizes) angepasst werden und wird typischerweise eine hervorragende Anpassung an die Daten liefern (was einen R-Quadrat-Wert von besser als 0,99 ergibt) Die oft nur wenig genutzt werden, um zukünftige Werte dieser Kurse oder Indizes vorherzusagen. Typischerweise werden ARIMA-Modelle zur Prognose eingesetzt, insbesondere im Bereich der makro - und mikroökonomischen Modellierung. Sie können jedoch in einem breiten Spektrum von Disziplinen angewendet werden, entweder in der hier beschriebenen Form oder mit zusätzlichen Vorhersagevariablen, von denen angenommen wird, dass sie die Zuverlässigkeit der Prognosen verbessern. Letztere sind wichtig, da die gesamte Struktur der oben diskutierten ARMA-Modelle von vorherigen Werten und unabhängigen Zufallsereignissen über die Zeit abhängt, nicht von erklärenden oder ursächlichen Faktoren. Daher werden ARIMA-Modelle nur die bisherigen Muster reflektieren und erweitern, die in Prognosen durch Faktoren wie das makroökonomische Umfeld, Technologieverschiebungen oder längerfristige Ressourcen - und / oder Umweltveränderungen modifiziert werden müssen. BOX1 Kasten G E P, Jenkins G M (1968). Einige jüngste Fortschritte in der Prognose und Kontrolle. (1994) Zeitreihenanalyse, - prognose und - steuerung. Zeitschrift für anorganische und allgemeine Chemie. 3. Aufl. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) Die Analyse der Zeitreihen: Theorie und Praxis. Chapman und Hall, London (siehe auch, 6. Aufl. 2003) LJU1 Ljung G M, Kasten G E P (1978) Über einen Maßstab für einen Mangel an Fit in Zeitreihenmodellen. Biometrika, 65, 297303 NIST / SEMATECH e-Handbuch statistischer Methoden, itl. nist. gov/div898/handbook/ Abschnitt 6.4: Einführung in Zeitreihen. (2008) AnalyzeForecasting (Zeitreihenmodelle) REI1 Reinsel GC Datensätze für Box-Jenkins Modelle: stat. wisc. edu/Dokumentation ist das unbedingte Mittel des Prozesses und x03C8 (L) ist eine rationale, unendlich - (1 x03C8 1 L x03C8 2 L 2 x 2026). Anmerkung: Die Constant-Eigenschaft eines arima-Modellobjekts entspricht c. Und nicht das unbedingte Mittel 956. Durch Wolds-Zerlegung 1. Gleichung 5-12 entspricht einem stationären stochastischen Prozeß, vorausgesetzt, daß die Koeffizienten x03C8i absolut summierbar sind. Dies ist der Fall, wenn das AR-Polynom, x03D5 (L). Stabil ist. Dh alle Wurzeln liegen außerhalb des Einheitskreises. Zusätzlich ist das Verfahren kausal, vorausgesetzt das MA-Polynom ist invertierbar. Dh alle Wurzeln liegen außerhalb des Einheitskreises. Econometrics Toolbox forciert Stabilität und Invertierbarkeit von ARMA Prozessen. Wenn Sie ein ARMA-Modell mit Arima angeben. Erhalten Sie einen Fehler, wenn Sie Koeffizienten eingeben, die nicht einem stabilen AR-Polynom oder einem invertierbaren MA-Polynom entsprechen. Ähnlich erfordert die Schätzung während der Schätzung Stationaritäts - und Invertibilitätsbeschränkungen. Literatur 1 Wold, H. Eine Studie in der Analyse stationärer Zeitreihen. Uppsala, Schweden: Almqvist amp Wiksell, 1938. Wählen Sie Ihr Land


No comments:

Post a Comment