Saturday 23 September 2017

Rest Normalität Test In Stata Forex


Willkommen beim Institut für Digitale Forschung und Bildung Stata Web Books Regression mit Stata Kapitel 2 - Regressionsdiagnose Kapitel Outline 2.0 Regressionsdiagnostik 2.1 Ungewöhnliche und einflussreiche Daten 2.2 Überprüfung der Normalität der Residuen 2.3 Überprüfung der Homosedastizität 2.4 Überprüfung der Multikollinearität 2.5 Überprüfung der Linearität 2.6 Modellspezifikation 2.7 Of Independence 2.8 Zusammenfassung 2.9 Selbsteinschätzung 2.10 Für weitere Informationen 2.0 Regressionsdiagnostik Im vorigen Kapitel haben wir gelernt, wie man eine lineare lineare Regression mit Stata durchführt und mit Methoden zur Untersuchung der Verteilung unserer Variablen abschließt. Ohne zu überprüfen, ob Ihre Daten die Annahmen, die der OLS-Regression zugrunde liegen, erfüllt haben, können Ihre Ergebnisse irreführend sein. In diesem Kapitel wird untersucht, wie Sie mit Stata überprüfen können, wie gut Ihre Daten die Annahmen der OLS-Regression erfüllen. Insbesondere werden wir die folgenden Annahmen berücksichtigen. Linearität - die Beziehungen zwischen den Prädiktoren und der Ergebnisvariablen sollten linear sein Normalität - die Fehler sollten normalverteilt sein - technisch Normalität ist nur notwendig, wenn Hypothesenprüfungen gültig sind, erfordert die Schätzung der Koeffizienten nur, dass die Fehler identisch und unabhängig verteilt sind - die Fehlervarianz sollte konstant sein Unabhängigkeit - die mit einer Beobachtung verbundenen Fehler sind nicht mit den Fehlern einer anderen Beobachtung korreliert Fehler in Variablen - Prädiktorvariablen werden fehlerfrei gemessen (wir werden dies in Kapitel 4 behandeln) Modell Spezifikation - das Modell sollte richtig spezifiziert werden (einschließlich aller relevanten Variablen und ohne irrelevante Variablen) Darüber hinaus gibt es Probleme, die während der Analyse auftreten können, die zwar streng genommen keine Annahmen der Regression sind, jedoch von großer Bedeutung sind Datenanalysten. Einfluss - individuelle Beobachtungen, die einen unangemessenen Einfluss auf die Koeffizienten ausüben Collinearity - Prädiktoren, die hochkollinear sind, d. h. linear verwandt sind, können Probleme bei der Schätzung der Regressionskoeffizienten verursachen. Viele grafische Methoden und numerische Tests wurden im Laufe der Jahre für Regressionsdiagnostik entwickelt. Stata hat viele dieser Methoden eingebaut, und andere sind verfügbar, die über das Internet heruntergeladen werden können. Insbesondere hat Nicholas J. Cox (University of Durham) eine Sammlung von Convenience-Befehlen erstellt, die von SSC heruntergeladen werden können (ssc install commandname). Diese Befehle umfassen Indexplot. Rvfplot2. Rdplot. Qfrplot und ovfplot. In diesem Kapitel werden wir diese Methoden erforschen und zeigen, wie Regression Annahmen zu überprüfen und zu erkennen, potenzielle Probleme mit Stata. 2.1 Ungewöhnliche und einflussreiche Daten Eine einzige Beobachtung, die sich wesentlich von allen anderen Beobachtungen unterscheidet, kann einen großen Unterschied in den Ergebnissen Ihrer Regressionsanalyse ausmachen. Wenn eine einzelne Beobachtung (oder kleine Gruppe von Beobachtungen) Ihre Ergebnisse wesentlich ändert, möchten Sie dies wissen und weiter untersuchen. Es gibt drei Möglichkeiten, dass eine Beobachtung ungewöhnlich sein kann. Ausreißer. In der linearen Regression ist ein Ausreißer eine Beobachtung mit großen Resten. Mit anderen Worten, es ist eine Beobachtung, deren abhängiger Variablenwert ungewöhnlich ist, wenn ihre Werte auf den Prädiktorvariablen liegen. Ein Ausreißer kann auf eine Sample-Eigenart hindeuten oder einen Dateneingabefehler oder ein anderes Problem anzeigen. Hebelwirkung . Eine Beobachtung mit einem Extremwert auf einer Prädiktorvariablen wird als Punkt mit hoher Hebelwirkung bezeichnet. Leverage ist ein Maß dafür, wie weit eine Beobachtung vom Mittelwert dieser Variablen abweicht. Diese Hebelpunkte können sich auf die Schätzung der Regressionskoeffizienten auswirken. Einfluss . Eine Beobachtung soll einflussreich sein, wenn das Entfernen der Beobachtung die Schätzung der Koeffizienten wesentlich ändert. Einfluss kann als das Produkt der Hebelwirkung und Ausreißer gedacht werden. Wie können wir diese drei Arten von Beobachtungen identifizieren Lets Blick auf ein Beispiel Dataset genannt Verbrechen. Dieser Datensatz erscheint in den statistischen Methoden für Sozialwissenschaften, dritte Ausgabe von Alan Agresti und Barbara Finlay (Prentice Hall, 1997). Die Variablen sind State Id (sid), State Name (Staat), Gewaltverbrechen pro 100.000 Menschen (Verbrechen), Morde pro 1.000.000 (Mord), der Prozentsatz der Bevölkerung in Metropolregionen (pctmetro), der Prozentsatz der Bevölkerung Ist weiß (pctwhite), Prozent der Bevölkerung mit einer Oberschule oder höher (pcths), Prozent der Bevölkerung leben unter Armutsgrenze (Armut) und Prozent der Bevölkerung, die Alleinerziehende sind (einzeln). Lets sagen, dass wir vorhersagen wollen Verbrechen von pctmetro. Armut. Und Einzelzimmer. Das heißt, wir wollen ein lineares Regressionsmodell zwischen dem variablen Antwortverhalten und den unabhängigen Variablen pctmetro aufbauen. Armut und Einzelne. Wir werden zuerst die Streudiagramme von Verbrechen gegen jede der Prädiktorvariablen vor der Regressionsanalyse betrachten, so dass wir einige Ideen über mögliche Probleme haben werden. Wir können eine Scatterplot-Matrix dieser Variablen wie unten gezeigt erstellen. Die Graphen des Verbrechens mit anderen Variablen zeigen einige mögliche Probleme. In jedem Plot sehen wir einen Datenpunkt, der weit entfernt vom Rest der Datenpunkte liegt. Lets machen einzelne Graphen des Verbrechens mit pctmetro und Armut und Single, so können wir einen besseren Überblick über diese Scatterplots. Wir werden die mlabel (state) - Option hinzufügen, um jede Markierung mit dem Statusnamen zu kennzeichnen, um Außenzustände zu identifizieren. Alle Streudiagramme deuten darauf hin, dass die Beobachtung für Zustand dc ein Punkt ist, der zusätzliche Aufmerksamkeit erfordert, da er sich von allen anderen Punkten abhebt. Wir halten es im Auge, wenn wir unsere Regressionsanalyse durchführen. Jetzt können Sie versuchen, die Regression Befehl Vorhersage Verbrechen aus pctmetro Armut und Single. Wir gehen Schritt für Schritt, um alle potenziell ungewöhnlichen oder einflussreichen Punkte danach zu identifizieren. Wir untersuchen die studentisierten Residuen als ein erstes Mittel zur Identifizierung von Ausreißern. Im folgenden verwenden wir den Vorhersagebefehl mit der Option rstudent, um studentisierte Residuen zu generieren und die Residuen r zu nennen. Wir können einen beliebigen Namen wählen, solange es sich um einen rechtlichen Stata-Variablennamen handelt. Studentisierte Residuen sind eine Art von standardisierten Residuen, die verwendet werden können, um Ausreißer zu identifizieren. Lets untersuchen die Reste mit einem Stamm-und Blatt-Plot. Wir sehen drei Reste, die herausragen, -3.57, 2.62 und 3.77. Die Stamm - und Blattanzeige hilft uns, einige mögliche Ausreißer zu sehen, aber wir können nicht sehen, welcher Zustand (welche Beobachtungen) potenzielle Ausreißer sind. Ermöglicht, die Daten auf den Residuen zu sortieren und die 10 größten und 10 kleinsten Residuen zusammen mit der Status-ID und dem Statusnamen anzuzeigen. Beachten Sie, dass im zweiten Listenkommando -10l der letzte Wert der Buchstabe quotlquot, NOT die Nummer Eins ist. Wir sollten schulpflichtige Residuen beachten, die 2 oder -2 übersteigen und sich noch mehr um Residuen kümmern, die 2,5 oder -2,5 übersteigen und noch mehr um Residuen, die 3 oder -3 übersteigen, besorgt sind. Diese Ergebnisse zeigen, dass DC und MS die am meisten besorgniserregenden Beobachtungen sind, gefolgt von FL. Eine andere Möglichkeit, diese Art von Ausgabe zu erhalten, ist mit einem Befehl namens hilo. Sie können hilo von innerhalb von Stata herunterladen, indem Sie findit hilo eingeben (siehe Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Sobald installiert, können Sie die folgenden eingeben und erhalten Ausgabe ähnlich wie oben, indem Sie nur einen Befehl. Lets zeigen alle Variablen in unserer Regression, wobei der studentisierte Restwert 2 oder -2 übersteigt, dh wenn der absolute Wert des Restes 2 überschreitet. Wir sehen die Daten für die drei potentiellen Ausreißer, die wir identifiziert haben, nämlich Florida, Mississippi und Washington DC Looking Sorgfältig bei diesen drei Beobachtungen, konnten wir nicht finden alle Dateneingabe Fehler, obwohl wir vielleicht eine andere Regressionsanalyse mit dem extremen Punkt wie DC gelöscht tun möchten. Wir werden später auf diese Frage zurückkommen. Betrachten wir nun die Hebel, um Beobachtungen zu identifizieren, die einen großen Einfluss auf die Regressionskoeffizientenschätzungen haben werden. Wir verwenden die Show (5) hohe Optionen auf dem Hilo-Befehl, um nur die 5 größten Beobachtungen zu zeigen (die High-Option kann als h abgekürzt werden). Wir sehen, dass DC die größte Hebelwirkung hat. Im Allgemeinen sollte ein Punkt mit Hebel größer als (2k2) n sorgfältig untersucht werden. Hier ist k die Anzahl der Prädiktoren und n die Anzahl der Beobachtungen. In unserem Beispiel können wir Folgendes tun. Wie wir gesehen haben, ist DC eine Beobachtung, dass beide eine große Rest - und große Hebelwirkung haben. Solche Punkte sind potentiell die einflussreichsten. Wir können eine Handlung vornehmen, die die Hebelwirkung des verbleibenden Quadrates zeigt und nach Beobachtungen sucht, die gemeinsam auf beiden dieser Maßnahmen liegen. Wir können dies mit dem Befehl lvr2plot tun. Lvr2plot steht für Leverage gegen Restquadrate. Mit dem Restquadrat anstelle des Restes selbst wird der Graph auf den ersten Quadranten beschränkt, und die relativen Positionen der Datenpunkte bleiben erhalten. Dies ist eine schnelle Möglichkeit, potenzielle Einflussbeobachtungen und Ausreißer gleichzeitig zu überprüfen. Beide Arten von Punkten sind uns sehr wichtig. Die beiden Bezugslinien sind die Mittel für Hebelwirkung, horizontal und für den normalisierten Restquadrat, vertikal. Die Punkte, die sofort unsere Aufmerksamkeit erregen, sind DC (mit dem größten Hebel) und MS (mit dem größten Restquadrat). Sehen Sie sich diese Beobachtungen genauer an, indem Sie sie auflisten. Nun können wir uns auf die Gesamtmaßnahme des Einflusses konzentrieren, speziell auf Köche D und DFITS. Diese Maßnahmen kombinieren Informationen über die Rest - und Hebelwirkung. Köche D und DFITS sind sehr ähnlich, außer dass sie anders skalieren, aber sie geben uns ähnliche Antworten. Der niedrigste Wert, den Köche D annehmen können, ist Null, und je höher der Köche D ist, desto einflussreicher der Punkt. Der Grenzwert für die Konvention ist 4n. Wir können jede Beobachtung über dem Cut-off-Punkt, indem Sie die folgenden. Wir sehen, dass die Köche D für DC bei weitem der größte ist. Nun können Sie einen Blick auf DFITS. Der Grenzwert für DFITS ist 2sqrt (kn). DFITS können entweder positiv oder negativ sein, wobei die Zahlen in der Nähe von Null den Punkten mit kleinem oder Null-Einfluss entsprechen. Wie wir sehen, zeigt dfit auch, dass DC bei weitem die einflussreichste Beobachtung ist. Die obigen Maßnahmen sind allgemeine Einflußgrößen. Sie können auch spezifische Einflussgrößen berücksichtigen, die beurteilen, wie sich jeder Koeffizient durch Löschen der Beobachtung ändert. Diese Maßnahme heißt DFBETA und wird für jeden der Prädiktoren erstellt. Anscheinend ist dies rechenintensiver als summarische Statistiken wie Köche D, da mehr Prädiktoren ein Modell hat, desto mehr Berechnungen kann es mit sich bringen. Wir können unsere Aufmerksamkeit nur auf diejenigen Prädiktoren beschränken, mit denen wir am meisten beschäftigt sind, um zu sehen, wie gut sich diese Prädiktoren verhalten haben. In Stata erzeugt der Befehl dfbeta die DFBETAs für jeden der Prädiktoren. Die Namen für die neu erzeugten Variablen werden von Stata automatisch gewählt und beginnen mit den Buchstaben DF. Das erzeugte drei Variablen, DFpctmetro. DFpoverty und DFsingle. Betrachten wir die ersten 5 Werte. Der Wert für DFsingle für Alaska beträgt 0,14, was bedeutet, dass Alaska durch die Einbeziehung in die Analyse (im Vergleich zum ausgeschlossenen) den Koeffizienten für Einzelwerte um 0,14 Standardfehler erhöht, dh das 14-fache des Standardfehlers für BSingle oder um 0,14 15.5). Da die Einbeziehung einer Beobachtung entweder zu einer Erhöhung oder Abnahme eines Regressionskoeffizienten beitragen kann, können DFBETAs entweder positiv oder negativ sein. Ein DFBETA-Wert von mehr als 2sqrt (n) verdient eine weitere Untersuchung. In diesem Beispiel würden wir uns über absolute Werte über 2sqrt (51) oder .28 Gedanken machen. Wir können alle drei DFBETA-Werte gegen die Zustands-ID in einem unten gezeigten Diagramm darstellen. Wir fügen eine Zeile bei .28 und -.28 hinzu, um uns potenziell störende Beobachtungen zu zeigen. Wir sehen den größten Wert ist etwa 3,0 für DFsingle. Wir können diesen Graphen mit der Option mlabel () im Diagrammbefehl wiederholen, um die Punkte zu beschriften. Mit dem obigen Diagramm können wir identifizieren, welches DFBeta ein Problem ist, und mit dem folgenden Diagramm können wir diese Beobachtung mit dem Zustand assoziieren, von dem sie stammt. Jetzt können Sie diese Beobachtungen mit DFsingle auflisten, die größer als der Grenzwert ist. Die folgende Tabelle faßt die allgemeinen Daumenregeln zusammen, die wir für diese Maßnahmen verwenden, um Beobachtungen zu ermitteln, die einer weiteren Untersuchung wert sind (wobei k die Anzahl der Prädiktoren ist und n die Anzahl der Beobachtungen ist). Wir haben den Vorhersagebefehl verwendet, um eine Anzahl von Variablen zu erstellen, die mit der Regressionsanalyse und der Regressionsdiagnose assoziiert sind. Der Befehl help regress gibt nicht nur Hilfe zum Regress-Befehl, sondern listet auch alle Statistiken auf, die über den Predict-Befehl generiert werden können. Unten sehen wir ein Snippet der Stata-Hilfedatei, in dem die verschiedenen Statistiken dargestellt werden, die über den Vorhersagebefehl berechnet werden können. Wir haben eine Reihe von Statistiken erforscht, die wir nach dem Regress-Befehl erhalten können. Es gibt auch einige Graphen, die verwendet werden können, um nach ungewöhnlichen und einflussreichen Beobachtungen zu suchen. Der Befehl avplot schlägt eine addierte Variable vor. Sie wird auch als Teilregressionsdiagramm bezeichnet und ist sehr nützlich, um einflussreiche Punkte zu identifizieren. Zum Beispiel, in der avplot für einzelne unten gezeigt, zeigt die Grafik Kriminalität von einzelnen nach beiden Kriminalität und Single wurden für alle anderen Prädiktoren im Modell angepasst. Die geplante Linie hat die gleiche Steigung wie der Koeffizient für Einzel. Dieses Diagramm zeigt, wie die Beobachtung für DC den Koeffizienten beeinflusst. Sie können sehen, wie die Regressionsgerade nach oben gezogen wird und versucht, durch den extremen Wert von DC passen. Alaska und West Virginia können auch erhebliche Hebelwirkung auf den Koeffizienten der einzelnen. Stata hat auch den avplots Befehl, der ein addiertes Variablenplot für alle Variablen erzeugt, die sehr nützlich sein können, wenn Sie viele Variablen haben. Es erzeugt kleine Graphen, aber diese Graphen können schnell zeigen, ob Sie problematische Beobachtungen auf der Grundlage der addierten Variablenplots haben. DC erschien als Ausreißer sowie ein einflussreicher Punkt in jeder Analyse. Da DC wirklich kein Staat ist, können wir dies verwenden, um das Auslassen aus der Analyse zu erklären, dass wir wirklich nur Staaten analysieren wollen. Erstens können wir wiederholen unsere Analyse einschließlich DC, indem Sie einfach Regress. Nun können Sie die Analyse auslassen DC, indem Sie, wenn state quotdcquot auf dem Regress-Befehl (hier steht für quotnot gleich quot, aber Sie könnten auch die gleiche Sache bedeuten). Wie wir erwarten, löschte das Löschen von DC eine große Änderung im Koeffizienten für Einzelpersonen. Der Koeffizient für Einzelpersonen fiel von 132,4 auf 89,4. Nach dem Löschen von DC würden wir den Vorgang wiederholen, den wir in diesem Abschnitt veranschaulicht haben, um nach anderen äußeren und einflussreichen Beobachtungen zu suchen. Schließlich haben wir gezeigt, dass der Befehl avplot verwendet werden kann, um nach Ausreißern unter den vorhandenen Variablen in Ihrem Modell zu suchen, aber wir sollten beachten, dass der Befehl avplot nicht nur für die Variablen im Modell arbeitet, sondern auch für Variablen, die nicht im Modell, weshalb es als Add-Variable Plot. Verwenden wir die Regression, die DC enthält, wie wir weiterhin sehen wollen, wie das Verhalten von DC als Demonstration für Regression-Diagnostik verursacht. Wir können ein avplot auf variablen pctwhite tun. An der Spitze der Handlung haben wir quotcoef-3.509quot. Es ist der Koeffizient für pctwhite, wenn es in das Modell gestellt wurde. Wir können überprüfen, dass durch eine Regression wie unten. In diesem Abschnitt untersuchten wir eine Reihe von Methoden zur Identifizierung von Ausreißern und einflussreichen Punkten. In einer typischen Analyse würden Sie wahrscheinlich nur einige dieser Methoden verwenden. Generell gibt es zwei Arten von Methoden zur Bewertung von Ausreißern: Statistiken wie Residuen, Hebelwirkung, Köche D und DFITS, die die Gesamtauswirkungen einer Beobachtung auf die Regressionsergebnisse und Statistiken wie DFBETA beurteilen, die die spezifischen Auswirkungen einer Beobachtung der Regressionskoeffizienten. In unserem Beispiel fanden wir, dass DC ein wichtiger Punkt war. Wir haben eine Regression mit ihr und ohne sie durchgeführt und die Regressionsgleichungen waren sehr unterschiedlich. Wir können es rechtfertigen, es aus unserer Analyse zu entfernen, indem wir davon ausgehen, dass unser Modell die Kriminalitätsrate für Staaten, nicht für Metropolregionen vorherzusagen ist. 2.2 Überprüfung der Normalität von Residuen Viele Forscher glauben, dass multiple Regression Normalität erfordert. Das ist nicht der Fall. Die Normalität der Residuen ist nur für gültige Hypothesentests erforderlich, dh die Normalitätsannahme stellt sicher, dass die p-Werte für die t-Tests und den F-Test gültig sind. Eine Normalität ist nicht erforderlich, um unbestimmte Schätzungen der Regressionskoeffizienten zu erhalten. OLS-Regression erfordert lediglich, dass die Residuen (Fehler) identisch und unabhängig verteilt sind. Darüber hinaus gibt es keine Annahme oder Anforderung, dass die Prädiktor-Variablen normal verteilt werden. Wenn dies der Fall wäre, könnten wir in unseren Modellen keine dummy-codierten Variablen verwenden. Nachdem wir eine Regressionsanalyse durchgeführt haben, können wir den Vorhersagebefehl verwenden, um Residuen zu erzeugen und dann Befehle wie kdensity zu verwenden. Qnorm und pnorm, um die Normalität der Residuen zu überprüfen. Verwenden wir die elemapi2-Datei, die wir in Kapitel 1 für diese Analysen gesehen haben. Ermöglicht die Vorhersage der akademischen Leistung (api00) von Prozent, die freie Mahlzeiten (Mahlzeiten), Prozent der englischsprachigen Lernenden (ell) und Prozent der Lehrer mit Notfallqualifikationen (emer) erhalten. Wir verwenden dann den Vorhersagebefehl, um Residuen zu erzeugen. Im folgenden verwenden wir den Befehl kdensity zur Erzeugung eines Kerneldichteplots mit der normalen Option, die anfordert, dass eine normale Dichte auf dem Diagramm überlagert wird. Kdensity steht für kernel density estimate. Es kann als ein Histogramm mit engen Bins und gleitenden Durchschnitt gedacht werden. Der pnorm-Befehl beschreibt eine normierte Normalwahrscheinlichkeit (P-P), während qnorm die Quantile einer Variablen gegen die Quantile einer Normalverteilung aufzeichnet. Pnorm ist empfindlich für Nicht-Normalität im mittleren Bereich der Daten und qnorm ist empfindlich auf Nicht-Normalität in der Nähe der Schwänze. Wie Sie unten sehen, zeigen die Ergebnisse von pnorm keine Anzeichen für die Nicht-Normalität, während der qnorm-Befehl eine leichte Abweichung vom Normalen am oberen Schwanz zeigt, wie aus der obigen K-Dichte ersichtlich ist. Dennoch scheint dies eine kleine und triviale Abweichung von der Normalität zu sein. Wir können akzeptieren, dass die Residuen in der Nähe einer Normalverteilung sind. Es gibt auch numerische Tests für die Prüfung der Normalität. Einer der Tests ist der Test von Lawrence C. Hamilton, Abt. Für Soziologie, Univ. Von New Hampshire, genannt iqr. Sie können dieses Programm von Stata erhalten, indem Sie findit iqr eingeben (siehe Wie kann ich den findit-Befehl verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Iqr steht für den inter-quartilen Bereich und nimmt die Symmetrie der Verteilung an. Starke Ausreißer bestehen aus jenen Punkten, die entweder 3 Inter-Quartile-Bereiche unterhalb des ersten Quartils oder 3 Inter-Quartile-Bereiche oberhalb des dritten Quartils sind. Das Vorhandensein von schweren Ausreißern sollte hinreichender Beweis sein, um die Normalität auf einem Niveau von 5 zu verwerfen. Milder Ausreißer sind in Proben beliebiger Größe üblich. In unserem Fall haben wir keine schweren Ausreißer und die Verteilung scheint ziemlich symmetrisch. Die Residuen haben eine annähernd normale Verteilung. Ein weiterer Test ist der Swilk-Test, der den Shapiro-Wilk W-Test zur Normalität durchführt. Der p-Wert basiert auf der Annahme, dass die Verteilung normal ist. In unserem Beispiel ist es sehr groß (.51), was zeigt, dass wir nicht ablehnen können, dass r normal verteilt ist. 2.3 Überprüfung der Homosedastizität von Residuen Eine der Hauptannahmen für die gewöhnliche Kleinste-Quadrate-Regression ist die Homogenität der Varianz der Residuen. Wenn das Modell gut aufgesetzt ist, sollte kein Resonanzmuster auf die eingefügten Werte aufgetragen werden. Wenn die Varianz der Residuen nicht konstant ist, dann wird die Restvarianz als quotheteroscedastic bezeichnet. Es gibt graphische und nicht-graphische Methoden zum Nachweis von Heterosedastizität. Ein gängiges grafisches Verfahren besteht darin, die Residuen gegenüber angepaßten (vorhergesagten) Werten aufzuzeichnen. Wir tun dies, indem wir den Befehl rvfplot ausgeben. Im folgenden verwenden wir den Befehl rvfplot mit der Option yline (0), um eine Referenzlinie auf y0 zu setzen. Wir sehen, dass das Muster der Datenpunkte nach rechts etwas enger wird, was ein Hinweis auf Heterosedastizität ist. Nun sehen wir uns ein paar Befehle an, die auf Heterosedastizität testen. Der erste Test auf Heteroskedastizität, der von imest gegeben wird, ist der Whites-Test und der zweite, der von hettest gegeben wird, ist der Breusch-Pagan-Test. Beide testen die Nullhypothese, daß die Varianz der Residuen homogen ist. Daher, wenn der p-Wert sehr klein ist, müssten wir die Hypothese zurückweisen und akzeptieren die alternative Hypothese, dass die Varianz nicht homogen ist. In diesem Fall ist der Beweis gegen die Nullhypothese, dass die Varianz homogen ist. Diese Tests sind sehr empfindlich auf Modellannahmen, wie die Annahme der Normalität. Daher ist es eine gängige Praxis, die Tests mit diagnostischen Diagrammen zu kombinieren, um ein Urteil über die Schwere der Heterosedastizität zu machen und zu entscheiden, ob eine Korrektur für die Heterosedastizität erforderlich ist. In unserem Fall zeigt die Handlung oben nicht zu starke Beweise. So werden wir nicht in Details über, wie man für heteroscedasticity, obwohl es Methoden zur Verfügung zu korrigieren. 2.4 Prüfung auf Multicollinearität Wenn es eine perfekte lineare Beziehung zwischen den Prädiktoren gibt, können die Schätzungen für ein Regressionsmodell nicht eindeutig berechnet werden. Der Begriff Kollinearität impliziert, dass zwei Variablen nahezu perfekte Linearkombinationen voneinander sind. Wenn mehr als zwei Variablen beteiligt sind, wird sie oft Multikollinearität genannt, obwohl die beiden Begriffe oft synonym verwendet werden. Das Hauptanliegen ist, dass mit zunehmendem Multicollinearitätsgrad die Regressionsmodellschätzwerte der Koeffizienten instabil werden und die Standardfehler für die Koeffizienten wild aufgeblasen werden können. In diesem Abschnitt werden wir einige Stata-Befehle erforschen, die helfen, Multikollinearität zu erkennen. Wir können den vif-Befehl nach der Regression verwenden, um nach Multikollinearität zu suchen. Vif steht für Varianzinflationsfaktor. Als Faustregel gilt eine Variable, deren VIF-Werte größer als 10 sind, für weitere Untersuchungen. Toleranz, definiert als 1VIF, wird von vielen Forschern verwendet, um den Grad der Kollinearität zu überprüfen. Ein Toleranzwert kleiner als 0,1 ist vergleichbar mit einem VIF von 10. Es bedeutet, dass die Variable als Linearkombination von anderen unabhängigen Variablen betrachtet werden könnte. Lassen Sie uns den ersten Blick auf die Regression, die wir aus dem letzten Abschnitt, das Regressionsmodell vorhersagen api00 aus Mahlzeiten, ell und emer und dann die Ausgabe der vif-Befehl. Die VIFs sehen hier gut aus. Hier ist ein Beispiel, wo die VIFs mehr besorgniserregend sind. In diesem Beispiel sind die VIF - und Toleranzwerte (1VIF) für avged gradsch und colgrad besorgniserregend. Alle diese Variablen messen Ausbildung der Eltern und die sehr hohen VIF-Werte zeigen, dass diese Variablen sind möglicherweise redundant. Zum Beispiel, nachdem Sie gradsch und colgrad kennen. Können Sie vermutlich avged sehr gut vorhersagen. In diesem Beispiel, Multikollinearität entsteht, weil wir in zu viele Variablen, die die gleiche Sache, Elternbildung zu messen gesetzt haben. Läßt eine der Elternausbildungsvariablen weglassen, avged. Beachten Sie, dass die VIF-Werte in der Analyse unten deutlich besser aussehen. Beachten Sie auch, wie die Standardfehler für die Elternausbildungsvariablen, gradsch und colgrad reduziert werden. Dies liegt daran, dass der hohe Grad der Kollinearität verursacht, dass die Standardfehler aufgeblasen werden. Mit der Multicollinearität beseitigt, der Koeffizient für gradsch. Die nicht signifikant war, ist jetzt signifikant. Lasst uns einen weiteren Befehl über die Kollinearität einführen. Der Befehl collin zeigt mehrere verschiedene Kollinearitätsmaße an. Zum Beispiel können wir für die Kollinearität unter den Variablen, die wir in den beiden obigen Beispielen verwendet haben, testen. Beachten Sie, dass der Befehl collin nicht im Zusammenhang mit einem Regress-Befehl ausgeführt werden muss, im Gegensatz zum Befehl vif, der auf einen Regress-Befehl folgt. Beachten Sie außerdem, dass nur Prädiktor (unabhängige) Variablen mit dem Befehl collin verwendet werden. Sie können collin aus Stata herunterladen, indem Sie findit collin eingeben (siehe Wie kann ich den findit-Befehl verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Wir entfernen jetzt avged und sehen die Collinearity-Diagnosen deutlich verbessern. Die Bedingungsnummer ist ein allgemein verwendete Index der globalen Instabilität der Regressionskoeffizienten - eine große Bedingungszahl, 10 oder mehr, ist ein Hinweis auf Instabilität. 2.5 Überprüfung der Linearität Wenn wir eine lineare Regression durchführen, nehmen wir an, dass die Beziehung zwischen der Antwortvariable und den Prädiktoren linear ist. Dies ist die Annahme der Linearität. Wenn diese Annahme verletzt wird, wird die lineare Regression versuchen, eine gerade Linie an Daten anzupassen, die nicht einer geraden Linie folgen. Die Überprüfung der linearen Annahme bei einfacher Regression ist einfach, da wir nur einen Prädiktor haben. Alles, was wir tun müssen, ist ein Streudiagramm zwischen der Antwortvariablen und dem Prädiktor, um zu sehen, ob Nichtlinearität vorhanden ist, wie etwa ein gekrümmtes Band oder eine große wellenförmige Kurve. Zum Beispiel, erinnern wir uns eine einfache lineare Regression in Kapitel 1 mit dem Dataset elemapi2. Im Folgenden verwenden wir den Scatter-Befehl, um einen Scatterplot zu zeigen, der api00 von der Registrierung angibt und lfit verwendet, um eine lineare Anpassung zu zeigen, und dann lowess, um eine niedrigere glattere Vorhersage von api00 von der Einschreibung zu zeigen. Wir sehen ein gewisses Maß an Nichtlinearität. Die Überprüfung der Linearitätsannahme ist bei multipler Regression nicht so einfach. Wir werden versuchen, einige der Techniken, die Sie verwenden können zu illustrieren. Die einfachste Vorgehensweise besteht darin, die standardisierten Residuen gegen jede der Prädiktorvariablen im Regressionsmodell darzustellen. Wenn es ein klares nichtlineares Muster gibt, gibt es ein Problem der Nichtlinearität. Ansonsten sollten wir für jede der Plots nur eine zufällige Streuung von Punkten sehen. Lets weiter verwenden Datensatz elemapi2 hier. Verwenden Sie ein anderes Modell. Die beiden verbleibenden Versus-Prädiktor-Variablen-Diagramme zeigen nicht stark eine deutliche Abweichung von der Linearität. Ein weiterer Befehl zum Erfassen der Nichtlinearität ist aplot. Acprplot-Graphen eine erweiterte Komponente-plus-Residuum-Diagramm, a. k.augmentierte partielle Residual-Plot. Es kann verwendet werden, um Nichtlinearitäten in den Daten zu identifizieren. Verwenden Sie den Befehl acprplot für die Mahlzeiten und somecol und verwenden Sie die Optionen lowess lsopts (bwidth (1)), um eine Lowess-Glättung mit einer Bandbreite von 1 anzufordern. Im ersten Diagramm liegt die geglättete Linie sehr nahe an der gewöhnlichen Regressionsgeraden Ganzes Muster scheint ziemlich einheitlich. Die zweite Handlung scheint am rechten Ende problematischer zu sein. Dies kann von einigen potentiellen Einflusspunkten kommen. Insgesamt schauen sie nicht zu schlecht und wir sollten nicht zu besorgt über Nicht-Linearitäten in den Daten. Wir haben gesehen, wie man acprplot verwendet, um Nichtlinearität zu erkennen. Allerdings zeigte unser letztes Beispiel nicht viel Nichtlinearität. Betrachten wir ein interessanteres Beispiel. Dieses Beispiel stammt aus quotStatistiken mit Stata 5quot von Lawrence C. Hamilton (1997, Duxbery Press). Der Dataset, den wir verwenden, heißt nations. dta. Wir können den Dataset aus dem Internet. Ein Modell, das die Geburtenrate (Geburtenrate) prognostiziert, pro Kopf Bruttosozialprodukt (gnpcap) und Stadtbevölkerung (städtisch). Wenn dies eine vollständige Regressionsanalyse wäre, würden wir mit der Untersuchung der Variablen beginnen, aber zur Veranschaulichung der Nichtlinearität springen wir direkt zur Regression. Nun können wir die acprplot auf unsere Prädiktoren. Das acprplot Diagramm für gnpcap zeigt freie Abweichung von der Linearität und das für städtische zeigt nicht annähernd so viel Abweichung von der Linearität. Nun sehen wir uns diese Variablen genauer an. Wir sehen, dass die Beziehung zwischen Geburtenrate und Pro-Kopf-Bruttosozialprodukt eindeutig nichtlinear ist und die Beziehung zwischen Geburtenrate und städtischer Bevölkerung nicht allzu weit davon entfernt ist, linear zu sein. Also konzentriert sich auf Variable gnpcap. Zuerst betrachten wir die Verteilung von gnpcap. Wir vermuten, dass gnpcap sehr schief sein kann. Dies kann das Erscheinungsbild des Acprplots beeinträchtigen. Tatsächlich ist es sehr schief. Dies legt uns nahe, dass eine gewisse Transformation der Variablen erforderlich sein kann. Eine der häufigsten Transformationen ist die log Transformation. Versuchen wir es hier. Die Transformation scheint zu helfen, die Schräge stark korrigieren. Als nächstes können wir die Regression wieder ersetzen gnpcap durch lggnp. Das oben gezeigte Diagramm zeigt eine geringere Abweichung von der Nichtlinearität als zuvor, obwohl das Problem der Nichtlinearität noch nicht vollständig gelöst ist. 2.6 Modellspezifikation Ein Modellspezifikationsfehler kann auftreten, wenn eine oder mehrere relevante Variablen aus dem Modell weggelassen werden oder eine oder mehrere irrelevante Variablen in dem Modell enthalten sind. Wenn relevante Variablen aus dem Modell weggelassen werden, kann die gemeinsame Varianz, die sie mit eingeschlossenen Variablen teilen, falsch diesen Variablen zugeschrieben werden, und der Fehlerterm ist aufgeblasen. Wenn auf der anderen Seite irrelevante Variablen in dem Modell enthalten sind, kann die gemeinsame Varianz, die sie mit eingeschlossenen Variablen teilen, ihnen falsch zugeordnet werden. Modellspezifikationsfehler können die Schätzung der Regressionskoeffizienten wesentlich beeinflussen. Betrachten Sie das Modell unten. Diese Regression deutet darauf hin, dass mit zunehmender Klassengröße die akademische Leistung steigt. Bevor wir Ergebnisse veröffentlichen, dass die erhöhte Klassengröße mit einer höheren akademischen Leistung assoziiert ist, können wir die Modellspezifikation überprüfen. Es gibt ein paar Methoden, um Spezifikationsfehler zu erkennen. Der Befehl linktest führt einen Modellspezifikations-Link-Test für Einzelgleichungsmodelle durch. Linktest basiert auf der Idee, dass, wenn eine Regression richtig spezifiziert ist, keine zusätzliche unabhängige Variablen gefunden werden können, die signifikant sind, außer durch Zufall. Linktest erzeugt zwei neue Variablen, die Variable der Vorhersage, Hut. Und die Variable der quadrierten Vorhersage, Hatsq. Das Modell wird dann refit mit diesen beiden Variablen als Prädiktoren. Hut bedeutend sein sollte, da er der vorhergesagte Wert ist. Auf der anderen Seite, hatsq shouldnt, denn wenn unser Modell richtig spezifiziert ist, sollten die quadrierten Prognosen nicht viel Erklärungskraft haben. Das ist, würden wir nicht erwarten, dass hatsq ein bedeutender Prädiktor sein, wenn unser Modell korrekt spezifiziert wird. Wir werden also den p-Wert für Hatsu betrachten. Von der oben genannten linktest. Der Test von Hatsq ist nicht signifikant. Dies bedeutet, dass linktest nicht die Annahme zurückgewiesen hat, dass das Modell korrekt angegeben wurde. Daher scheint es uns, dass wir nicht über einen Spezifikationsfehler. Aber jetzt, schauen wir uns einen anderen Test, bevor wir zum Schluss springen. Der Befehl ovtest führt einen weiteren Test der Regressionsmodell-Spezifikation durch. Es führt einen Regressionsspezifikationsfehlertest (RESET) für weggelassene Variablen aus. Die Idee hinter ovtest ist sehr ähnlich zu linktest. Es schafft auch neue Variablen auf der Grundlage der Prädiktoren und refits das Modell mit diesen neuen Variablen zu sehen, ob einer von ihnen wäre signifikant. Lets versuchen ovtest auf unserem Modell. Der Befehl ovtest gibt an, dass Variablen ausgelassen sind. So we have tried both the linktest and ovtest . and one of them ( ovtest ) tells us that we have a specification error. We therefore have to reconsider our model. Lets try adding the variable full to the model. Now, both the linktest and ovtest are significant, indicating we have a specification error. Lets try adding one more variable, meals . to the above model. The linktest is once again non-significant while the p-value for ovtest is slightly greater than .05. Note that after including meals and full . the coefficient for class size is no longer significant. While acsk3 does have a positive relationship with api00 when no other variables are in the model, when we include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive . linktest and ovtest are tools available in Stata for checking specification errors, though linktest can actually do more than check omitted variables as we used here, e. g. checking the correctness of link function specification. For more details on those tests, please refer to Stata manual. 2.7 Issues of Independence The statement of this assumption that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations. Consider the case of collecting data from students in eight different elementary schools. It is likely that the students within each school will tend to be more like one another than students from different schools, that is, their errors are not independent. We will deal with this type of situation in Chapter 4 when we demonstrate the regress command with cluster option. Another way in which the assumption of independence can be broken is when data are collected on the same variables over time. Lets say that we collect truancy data every semester for 12 years. In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than for observations more separated in time. This is known as autocorrelation. When you have data that can be considered to be time-series you should use the dwstat command that performs a Durbin-Watson test for correlated residuals. We dont have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected. We will also need to use the tsset command to let Stata know which variable is the time variable. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2. The observed value in our example is very small, close to zero, which is not surprising since our data are not truly time-series. A simple visual check would be to plot the residuals versus the time variable. In this chapter, we have used a number of tools in Stata for determining whether our data meets the regression assumptions. Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Influential Data predict -- used to create predicted values, residuals, and measures of influence. rvpplot --- graphs a residual-versus-predictor plot. rvfplot -- graphs residual-versus-fitted plot. lvr2plot -- graphs a leverage-versus-squared-residual plot. dfbeta -- calculates DFBETAs for all the independent variables in the linear model. avplot -- graphs an added-variable plot, a. k.a. partial regression plot. Tests for Normality of Residuals kdensity -- produces kernel density plot with normal distribution overlayed. pnorm -- graphs a standardized normal probability (P-P) plot. qnorm --- plots the quantiles of varname against the quantiles of a normal distribution. iqr -- resistant normality check and outlier identification. swilk -- performs the Shapiro-Wilk W test for normality. Tests for Heteroscedasticity rvfplot -- graphs residual-versus-fitted plot. hettest -- performs Cook and Weisberg test for heteroscedasticity. whitetst -- computes the White general test for Heteroscedasticity. Tests for Multicollinearity vif -- calculates the variance inflation factor for the independent variables in the linear model. collin -- calculates the variance inflation factor and other multicollinearity diagnostics Tests for Non-Linearity acprplot -- graphs an augmented component-plus-residual plot. cprplot --- graphs component-plus-residual plot, a. k.a. residual plot. Tests for Model Specification linktest -- performs a link test for model specification. ovtest -- performs regression specification error test (RESET) for omitted variables. See the Stata Topics: Regression page for more information and resources on regression diagnostics in Stata. 2.9 Self Assessment 1 . The following data set consists of measured weight, measured height, reported weight and reported height of some 200 people. You can get it from within Stata by typing use ats. ucla. edustatstatawebbooksregdavis We tried to build a model to predict measured weight by reported weight, reported height and measured height. We did an lvr2plot after the regression and here is what we have. Explain what you see in the graph and try to use other STATA commands to identify the problematic observation(s). What do you think the problem is and what is your solution 2 . Using the data from the last exercise, what measure would you use if you want to know how much change an observation would make on a coefficient for a predictor For example, show how much change would it be for the coefficient of predictor reptht if we omit observation 12 from our regression analysis What are the other measures that you would use to assess the influence of an observation on regression What are the cut-off values for them 3 . The following data file is called bbwt. dta and it is from Weisbergs Applied Regression Analysis. You can obtain it from within Stata by typing use ats. ucla. edustatstatawebbooksregbbwt It consists of the body weights and brain weights of some 60 animals. We want to predict the brain weight by body weight, that is, a simple linear regression of brain weight against body weight. Show what you have to do to verify the linearity assumption. If you think that it violates the linearity assumption, show some possible remedies that you would consider. 4. We did a regression analysis using the data file elemapi2 in chapter 2. Continuing with the analysis we did, we did an avplot here. Explain what an avplot is and what type of information you would get from the plot. If variable full were put in the model, would it be a significant predictor 5 . The data set wage. dta is from a national sample of 6000 households with a male head earning less than 15,000 annually in 1966. You can get this data file by typing use ats. ucla. edustatstatawebbooksregwage from within Stata . The data were classified into 39 demographic groups for analysis. We tried to predict the average hours worked by average age of respondent and average yearly non-earned income. Both predictors are significant. Now if we add ASSET to our predictors list, neither NEIN nor ASSET is significant. Can you explain why 6. Continue to use the previous data set. This time we want to predict the average hourly wage by average percent of white respondents. Carry out the regression analysis and list the STATA commands that you can use to check for heteroscedasticity. Explain the result of your test(s). Now we want to build another model to predict the average percent of white respondents by the average hours worked. Repeat the analysis you performed on the previous regression model. Explain your results. Fig. 7 We have a data set that consists of volume, diameter and height of some objects. Someone did a regression of volume on diameter and height. Explain what tests you can use to detect model specification errors and if there is any, your solution to correct it. Click here for our answers to these self assessment questions. 2.10 For more information2.9 Regression Diagnostics All of the diagnostic measures discussed in the lecture notes can be calculated in Stata, some in more than one way. In particular, you may want to read about the command predict after regress in the Stata manual. In this section we will be working with the additive analysis of covariance model of the previous section. To save typing the model each time we need it, we can define a local macro Now we can fit our model using the following command Let us start with the residuals. The easiest way to get them is as options of the predict command. Specify the option res for the raw residuals, rstand for the standardized residuals, and rstud for the studentized (or jackknifed) residuals. Let us obtain all three: To get the diagonal elements of the hat matrix and Cooks distance we use two more options of predict. hat and cook. We are now ready to print Table 2.29 in the notes Here is an easy way to find the cases highlighted in Table 2.29, those with standardized or jackknifed residuals greater than 2 in magnitude: We will use a scalar to calculate the maximum acceptable leverage, which is 2pn in general, and then list the cases exceeding that value (if any). We find that Haiti has a lot of leverage, but very little actual influence. Let us list the six most influential countries. I will do this by sorting the data in descending order of influence and then listing the first six. Statas regular sort command sorts only in ascending order, but gsort can do descending if you specify - di. Turns out that the D. R. Cuba, and Ecuador are fairly influential observations. Try refitting the model without the D. R. to verify what I say on page 57 of the lecture notes. Residual Plots On to plots Here is the standard residual plot in Figure 2.6, produced using the following commands: Now for that lovely Q-Q-plot in Figure 2.7 of the notes: Wasnt that easy Statas qnorm evaluates the inverse normal cdf at i(n1) rather than at (i-38)(n14) or some of the other approximations discussed in the notes. Of course you can use any approximation you want, at the expense of doing a bit more work. I will illustrate the general idea by calculating Fillibens approximation to the expected order statistics or rankits, using Statas built-in system variables n for the observation number and N for the number of cases. Fortunately the Filliben correlation agrees with the value in the notes: 0 .9655. I will skip the graph because it looks almost identical to the one produced by qnorm. copy 2017 Germaacuten Rodriacuteguez, Princeton University

No comments:

Post a Comment