Friday 27 October 2017

Flytting Gjennomsnitt Modell Autokorrelasjons Funksjon


Formål: Kontroller Randomness Autocorrelation plots (Box og Jenkins, s. 28-32) er et vanlig brukt verktøy for å sjekke tilfeldighet i et datasett. Denne tilfeldigheten er fastslått ved å beregne autokorrelasjoner for dataværdier ved varierende tidsforsinkelser. Hvis tilfeldig, bør slike autokorrelasjoner være nær null for alle tidsforsinkelsesavvik. Hvis ikke-tilfeldig, vil en eller flere av autokorrelasjonene være betydelig ikke-null. I tillegg brukes autokorrelasjonsplott i modellidentifikasjonsfasen for Box-Jenkins autoregressive, bevegelige gjennomsnittlige tidsseriemodeller. Autokorrelasjon er bare ett mål for tilfeldighet. Merk at ukorrelert ikke nødvendigvis betyr tilfeldig. Data som har betydelig autokorrelasjon er ikke tilfeldig. Data, som ikke viser signifikant autokorrelasjon, kan imidlertid fortsatt vise seg tilfeldig på andre måter. Autokorrelasjon er bare et mål for tilfeldighet. I sammenheng med modellvalidering (som er den primære typen tilfeldighet som vi skriver i håndboken), er kontroll av autokorrelasjon vanligvis en tilstrekkelig test av tilfeldighet, siden resterne fra en dårlig passende modell har en tendens til å vise ikke-subtil tilfeldighet. Noen programmer krever imidlertid en strengere bestemmelse av tilfeldighet. I disse tilfellene blir det brukt et batteri av tester, som kan omfatte kontroll av autokorrelasjon, da data kan være ikke-tilfeldig på mange forskjellige og ofte subtile måter. Et eksempel på hvor det er behov for en strengere kontroll for tilfeldighet, ville være å teste tilfeldige tallgivere. Eksempelplott: Autokorrelasjoner bør være nær null for tilfeldighet. Slik er ikke tilfellet i dette eksemplet, og dermed slår tilfeldighetsforutsetningen bort. Denne prøveautokorrelasjonsplottet viser at tidsserien ikke er tilfeldig, men har snarere en høy grad av autokorrelasjon mellom tilstøtende og nærliggende observasjoner. Definisjon: r (h) versus h Autokorrelasjonsplottene dannes av Vertikal akse: Autokorrelasjonskoeffisient der Ch er autokovariansfunksjonen og C 0 er variansfunksjonen Merk at R h er mellom -1 og 1. Merk at enkelte kilder kan bruke Følgende formel for autokovariansfunksjonen Selv om denne definisjonen har mindre bias, har formuleringen (1N) noen ønskelige statistiske egenskaper og er formen som oftest brukes i statistikklitteraturen. Se side 20 og 49-50 i Chatfield for detaljer. Horisontal akse: Tidsforsinkelse h (h 1, 2, 3.) Ovenstående linje inneholder også flere horisontale referanselinjer. Midtlinjen er null. De andre fire linjene er 95 og 99 konfidensbånd. Merk at det er to forskjellige formler for å generere konfidensbåndene. Hvis autokorrelasjonsplottet brukes til å teste for tilfeldighet (det er ingen tidsavhengighet i dataene), anbefales følgende formel: hvor N er prøvestørrelsen, er z den kumulative fordelingsfunksjonen til standard normalfordeling og (alfa ) er signifikansnivået. I dette tilfellet har konfidensbåndene en fast bredde som avhenger av prøvestørrelsen. Dette er formelen som ble brukt til å generere konfidensbåndene i det ovenstående diagrammet. Autocorrelation plots brukes også i modellidentifikasjonstrinnet for montering av ARIMA-modeller. I dette tilfellet antas en bevegelig gjennomsnittsmodell for dataene, og følgende konfidensbånd skal genereres: hvor k er lagret, N er prøvestørrelsen, z er den kumulative fordelingsfunksjonen til standard normalfordeling og (alfa) er betydningsnivået. I dette tilfellet øker konfidensbåndene etter hvert som laget øker. Autokorrelasjonsplottet kan gi svar på følgende spørsmål: Er data-tilfeldig Er en observasjon knyttet til en tilstøtende observasjon Er en observasjon knyttet til en observasjon to ganger fjernet (etc.) Er den observerte tidsserien hvit støy Er den observerte tidsserien sinusformet Er den observerte tidsserien autoregressiv Hva er en passende modell for de observerte tidsserier Er modellen gyldig og tilstrekkelig Er formelen ssqrt gyldig Viktighet: Sikre gyldigheten av ingeniørkonklusjoner Tilfeldighet (sammen med fast modell, fast variasjon og fast distribusjon) er En av de fire antagelsene som vanligvis ligger til grunn for alle måleprosesser. Tilfeldighetsforutsetningen er kritisk viktig av følgende tre grunner: De fleste standardstatistiske tester er avhengig av tilfeldighet. Gyldigheten av testkonklusjonene er direkte knyttet til gyldigheten av tilfeldighetsforutsetningen. Mange vanlige statistiske formler avhenger av tilfeldighetsforutsetningen, den vanligste formelen er formelen for å bestemme standardavviket til prøvens gjennomsnitt: hvor s er standardavviket til dataene. Selv om det er mye brukt, er resultatene fra å bruke denne formelen av ingen verdi med mindre tilfeldigheten antakelsen holder. For univariate data er standardmodellen Hvis dataene ikke er tilfeldige, er denne modellen feil og ugyldig, og estimatene for parametrene (for eksempel konstanten) blir uanstendige og ugyldige. Kort sagt, hvis analytikeren ikke ser etter tilfeldighet, blir gyldigheten av mange av de statistiske konklusjonene mistenkt. Autokorrelasjonsplottet er en utmerket måte å sjekke for slik tilfeldighet.2.2 Delvis autokorrelasjonsfunksjon (PACF) Utskriftsvennlig versjon Generelt er en delvis korrelasjon en betinget korrelasjon. Det er sammenhengen mellom to variabler under antagelsen om at vi vet og tar hensyn til verdiene til et annet sett med variabler. For eksempel vurdere en regresjonskontekst der y-responsvariabel og x 1 er. x 2. og x 3 er prediktorvariabler. Den delvise korrelasjonen mellom y og x 3 er korrelasjonen mellom variablene bestemt med hensyn til hvor både y og x 3 er relatert til x 1 og x 2. I regresjonen kunne denne delvise korrelasjonen bli funnet ved å korrelere residualene fra to forskjellige regressioner: (1) Regresjon der vi forutsier y fra x 1 og x 2. (2) regresjon der vi forutser x 3 fra x 1 og x 2. I utgangspunktet korrelerer vi delene av y og x 3 som ikke forutsettes av x 1 og x 2. Mer formelt kan vi definere den delvise korrelasjonen som bare er beskrevet som Merk at dette også er hvordan parametrene til en regresjonsmodell tolkes. Tenk på forskjellen mellom tolkning av regresjonsmodellene: (y beta0 beta1x2 tekst y beta0beta1xbeta2x2) I den første modellen kan 1 tolkes som den lineære avhengigheten mellom x 2 og y. I den andre modellen skulle 2 tolkes som den lineære avhengigheten mellom x 2 og y med avhengigheten mellom x og y allerede regnet for. For en tidsserie er den delvise autokorrelasjonen mellom x t og x t-h definert som den betingede korrelasjonen mellom x t og x t-h. betinget av x t-h1. x t-1. settet av observasjoner som kommer mellom tidspunkter t og th. Den første ordre-partielle autokorrelasjonen vil bli definert til lik den 1 st ordens autokorrelasjon. Den andre orden (lag) delvis autokorrelasjon er Dette er sammenhengen mellom verdiene to tidsperioder for hverandre betinget av kunnskap om verdien i mellom. (Forresten vil de to avvikene i nevnen likestille hverandre i en stasjonær serie.) Den tredje orden (lag) delvis autokorrelasjon er Og så videre, for enhver lagring. Vanligvis brukes matrise manipulasjoner som har å gjøre med kovariansmatrisen av en multivariabel fordeling for å bestemme estimater for de delvise autokorrelasjoner. Noen nyttige fakta om PACF - og ACF-mønstre Identifisering av en AR-modell er ofte best gjort med PACF. For en AR-modell slår den teoretiske PACF seg forbi rekkefølgen av modellen. Uttrykket slår av betyr at i teorien er de delvise autokorrelasjoner lik 0 utover det punktet. Sett på en annen måte, gir antall ikke-null delvise autokorrelasjoner rekkefølgen til AR-modellen. Ved rekkefølgen av modellen mener vi det ekstreme lag x som brukes som en prediktor. Eksempel. I Leksjon 1.2 identifiserte vi en AR (1) modell for en tidsserie av årlige antall jordskjelv på verdensbasis med en seismisk størrelse større enn 7,0. Følgende er prøven PACF for denne serien. Merk at den første lagverdien er statistisk signifikant, mens delvise autokorrelasjoner for alle andre lags ikke er statistisk signifikante. Dette antyder en mulig AR (1) modell for disse dataene. Identifisering av en MA-modell er ofte best gjort med ACF i stedet for PACF. For en MA-modell, lukker den teoretiske PACF ikke av, men i stedet klemmer seg mot 0 på noen måte. Et klarere mønster for en MA-modell er i ACF. ACF vil ha ikke-null autokorrelasjoner bare ved lags involvert i modellen. Leksjon 2.1 inkluderte følgende sample ACF for en simulert MA (1) serie. Merk at den første lag-autokorrelasjonen er statistisk signifikant, mens alle etterfølgende autokorrelasjoner ikke er. Dette antyder en mulig MA (1) modell for dataene. Teori notat. Modellen som ble brukt til simuleringen var x t 10 w t 0,7 w t-1. I teorien var den første lagautokorrelasjonen 1 (1 1 2) .7 (1.7 2) .4698 og autokorrelasjoner for alle andre lags 0. Den underliggende modellen som ble brukt for MA (1) - imuleringen i leksjon 2.1 var xt 10 vekt 0,7 w t -1 . Følgende er den teoretiske PACF (delvis autokorrelasjon) for den modellen. Merk at mønsteret gradvis strekker seg til 0. R notat: PACF nettopp vist ble opprettet i R med disse to kommandoene: ma1pacf ARMAacf (ma c (.7), lag. max 36, pacfTRUE) plot (ma1pacf, typh, hoved teoretisk PACF av MA (1) med theta 0,7) Navigasjon2.1 Flytte gjennomsnittlige modeller (MA modeller) Tidsseriemodeller kjent som ARIMA-modeller kan omfatte autoregressive vilkår og eller flytte gjennomsnittlige termer. I uke 1 lærte vi et autoregressivt uttrykk i en tidsseriemodell for variabelen x t er en forsinket verdi på x t. For eksempel er et lag 1 autoregressivt uttrykk x t-1 (multiplisert med en koeffisient). Denne leksjonen definerer glidende gjennomsnittlige vilkår. En glidende gjennomsnittlig term i en tidsseriemodell er en tidligere feil (multiplisert med en koeffisient). La (wt overset N (0, sigma2w)), noe som betyr at w t er identisk, uavhengig distribuert, hver med en normalfordeling med gjennomsnittlig 0 og samme varians. Den første ordre-flytende gjennomsnittsmodellen, betegnet med MA (1), er (xt mu wt theta1w) Den andre ordens bevegelige gjennomsnittsmodellen, betegnet med MA (2), er (xt mu wt theta1w theta2w) , betegnet med MA (q) er (xt mu wt theta1w theta2w punkter thetaqw) Merknad. Mange lærebøker og programvare definerer modellen med negative tegn før betingelsene. Dette endrer ikke de generelle teoretiske egenskapene til modellen, selv om den ikke flipper de algebraiske tegnene på estimerte koeffisientverdier og (unsquared) termer i formler for ACFer og avvik. Du må sjekke programvaren for å verifisere om negative eller positive tegn har blitt brukt for å skrive riktig estimert modell. R bruker positive tegn i sin underliggende modell, som vi gjør her. Teoretiske egenskaper av en tidsrekkefølge med en MA (1) modell Merk at den eneste ikke-nullverdien i teoretisk ACF er for lag 1. Alle andre autokorrelasjoner er 0. Således er en prøve-ACF med en signifikant autokorrelasjon bare ved lag 1 en indikator på en mulig MA (1) modell. For interesserte studenter er bevis på disse egenskapene et vedlegg til denne utdelingen. Eksempel 1 Anta at en MA (1) modell er x t 10 w t .7 w t-1. hvor (wt overset N (0,1)). Dermed er koeffisienten 1 0,7. Den teoretiske ACF er gitt av Et plott av denne ACF følger. Plottet som nettopp er vist er den teoretiske ACF for en MA (1) med 1 0,7. I praksis vil en prøve vanligvis ikke gi et slikt klart mønster. Ved hjelp av R simulerte vi n 100 prøveverdier ved hjelp av modellen x t 10 w t .7 w t-1 hvor w t iid N (0,1). For denne simuleringen følger en tidsserie-plott av prøvedataene. Vi kan ikke fortelle mye fra denne plottet. Prøven ACF for de simulerte dataene følger. Vi ser en spike i lag 1 etterfulgt av generelt ikke signifikante verdier for lags forbi 1. Merk at prøven ACF ikke samsvarer med det teoretiske mønsteret til den underliggende MA (1), som er at alle autokorrelasjoner for lags forbi 1 vil være 0 . En annen prøve ville ha en litt annen prøve-ACF vist nedenfor, men vil trolig ha de samme brede funksjonene. Terapeutiske egenskaper av en tidsserie med en MA (2) modell For MA (2) modellen er teoretiske egenskaper følgende: Merk at de eneste ikke-nullverdiene i teoretisk ACF er for lags 1 og 2. Autokorrelasjoner for høyere lags er 0 . En ACF med signifikant autokorrelasjoner på lags 1 og 2, men ikke-signifikante autokorrelasjoner for høyere lags indikerer en mulig MA (2) modell. iid N (0,1). Koeffisientene er 1 0,5 og 2 0,3. Fordi dette er en MA (2), vil den teoretiske ACF bare ha null nullverdier ved lags 1 og 2. Verdier av de to ikke-null-autokorrelasjonene er Et plot av teoretisk ACF følger. Som nesten alltid er tilfellet, vil prøvedataene ikke oppføre seg så perfekt som teori. Vi simulerte n 150 utvalgsverdier for modellen x t 10 w t .5 w t-1 .3 w t-2. hvor det er N (0,1). Tidsserien av dataene følger. Som med tidsserien for MA (1) eksempeldata, kan du ikke fortelle mye om det. Prøven ACF for de simulerte dataene følger. Mønsteret er typisk for situasjoner der en MA (2) modell kan være nyttig. Det er to statistisk signifikante pigger på lags 1 og 2 etterfulgt av ikke-signifikante verdier for andre lags. Merk at på grunn av prøvetakingsfeil, samsvarte ACF ikke nøyaktig det teoretiske mønsteret. ACF for General MA (q) Modeller En egenskap av MA (q) - modeller generelt er at det finnes ikke-null autokorrelasjoner for de første q lagene og autokorrelasjonene 0 for alle lagene gt q. Ikke-entydighet av sammenhengen mellom verdier av 1 og (rho1) i MA (1) Modell. I MA (1) - modellen, for en verdi på 1. Den gjensidige 1 1 gir samme verdi. For eksempel, bruk 0,5 for 1. og bruk deretter 1 (0,5) 2 for 1. Du får (rho1) 0,4 i begge tilfeller. For å tilfredsstille en teoretisk begrensning kalt invertibility. vi begrenser MA (1) - modeller for å ha verdier med absolutt verdi mindre enn 1. I eksemplet som er gitt, vil 1 0,5 være en tillatelig parameterverdi, mens 1 10,5 2 ikke vil. Invertibility av MA modeller En MA-modell sies å være invertibel hvis den er algebraisk tilsvarer en konvergerende uendelig rekkefølge AR-modell. Ved konvergering mener vi at AR-koeffisientene reduseres til 0 da vi beveger oss tilbake i tid. Invertibility er en begrensning programmert i tidsserier programvare som brukes til å estimere koeffisientene av modeller med MA termer. Det er ikke noe vi ser etter i dataanalysen. Ytterligere opplysninger om inverterbarhetsbegrensningen for MA (1) - modeller er gitt i vedlegget. Avansert teorienotat. For en MA (q) modell med en spesifisert ACF, er det bare en inverterbar modell. Den nødvendige betingelsen for invertibilitet er at koeffisientene har verdier slik at ligningen 1- 1 y-. - q y q 0 har løsninger for y som faller utenfor enhetens sirkel. R-kode for eksemplene I eksempel 1, plotte vi den teoretiske ACF av modellen x t10 w t. 7w t-1. og deretter simulert n 150 verdier fra denne modellen og plottet prøve tidsseriene og prøven ACF for de simulerte dataene. R-kommandoene som ble brukt til å plotte den teoretiske ACF var: acfma1ARMAacf (mac (0,7), lag. max10) 10 lag av ACF for MA (1) med theta1 0,7 lags0: 10 skaper en variabel som heter lags som varierer fra 0 til 10. plot (lags, acfma1, xlimc (1,10), ylabr, typh, main ACF for MA (1) med theta1 0,7) abline (h0) legger til en horisontal akse på plottet. Den første kommandoen bestemmer ACF og lagrer den i en gjenstand kalt acfma1 (vårt valg av navn). Plot-kommandoen (den tredje kommandoen) plots lags versus ACF-verdiene for lags 1 til 10. ylab-parameteren merker y-aksen og hovedparameteren setter en tittel på plottet. For å se de numeriske verdiene til ACF, bruk bare kommandoen acfma1. Simuleringen og tomtene ble gjort med følgende kommandoer. xcarima. sim (n150, liste (mac (0.7))) Simulerer n 150 verdier fra MA (1) xxc10 legger til 10 for å gjøre gjennomsnitt 10. Simuleringsstandarder betyr 0. Plot (x, typeb, mainSimulated MA (1) data) acf (x, xlimc (1,10), mainACF for simulerte prøvedata) I eksempel 2 skisserte vi den teoretiske ACF av modellen xt 10 wt .5 w t-1 .3 w t-2. og deretter simulert n 150 verdier fra denne modellen og plottet prøve tidsseriene og prøven ACF for de simulerte dataene. R-kommandoene som ble brukt var acfma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 plot (lags, acfma2, xlimc (1,10), ylabr, typh, hoved ACF for MA (2) med theta1 0,5, theta20.3) abline (h0) xcarima. sim (n150, liste (mac (0,5, 0,3)) xxc10 plot (x, typeb, hoved Simulert MA (2) Serie) acf (x, xlimc (1,10) mainACF for simulert MA (2) Data) Vedlegg: Bevis på egenskaper av MA (1) For interesserte studenter, her er bevis for teoretiske egenskaper av MA (1) modellen. Varians: (tekst (xt) tekst (mu wt theta1 w) 0 tekst (wt) tekst (theta1w) sigma2w theta21sigma2w (1theta21) sigma2w) Når h 1, er det forrige uttrykket 1 w 2. For ethvert h 2, . Årsaken er at ved definisjon av uavhengighet av wt. E (w k w j) 0 for noen k j. Videre, fordi w t har middelverdien 0, E (w jw j) E (w j 2) w 2. For en tidsserie, Bruk dette resultatet for å få ACF gitt ovenfor. En inverterbar MA-modell er en som kan skrives som en uendelig rekkefølge AR-modell som konvergerer slik at AR-koeffisientene konvergerer til 0 mens vi beveger oss uendelig tilbake i tiden. Vel demonstrere invertibility for MA (1) modellen. Vi erstatter deretter forholdet (2) for w t-1 i ligning (1) (3) (zt wt theta1 (z-theta1w) wt theta1z-tet2w) Ved tid t-2. (2) blir vi da erstatter forholdet (4) for w t-2 i ligning (3) (zt wt theta1z-teteta21wt theta1z-teteta21 (z-theta1w) wt theta1z-theta12z theta31w) Hvis vi skulle fortsette uendelig), ville vi få den uendelige rekkefølgen AR-modellen (zt wt theta1z - theta21z theta31z - theta41z prikker) Merk imidlertid at hvis 1 1, vil koeffisientene som multipliserer lagene av z, øke (uendelig) i størrelse når vi beveger oss tilbake i tid. For å forhindre dette, trenger vi 1 lt1. Dette er betingelsen for en inverterbar MA (1) modell. Uendelig Order MA-modell I uke 3 ser du at en AR (1) - modell kan konverteres til en uendelig rekkefølge MA-modell: (xt - mu wt phi1w phi21w prikker phik1 w dots sum phij1w) Denne summeringen av tidligere hvite støybetingelser er kjent som årsakssammenheng av en AR (1). Med andre ord, x t er en spesiell type MA med et uendelig antall vilkår som går tilbake i tid. Dette kalles en uendelig ordre MA eller MA (). En endelig ordre MA er en uendelig orden AR og en hvilken som helst endelig rekkefølge AR er en uendelig rekkefølge MA. Tilbakekall i uke 1, bemerket vi at et krav til en stasjonær AR (1) er at 1 lt1. Lar beregne Var (x t) ved hjelp av årsakssammensetningen. Dette siste trinnet bruker et grunnfakta om geometrisk serie som krever (phi1lt1) ellers ser serien ut. NavigationTime Series analyse tsa statsmodels. tsa inneholder modellklasser og funksjoner som er nyttige for tidsserier analyse. Dette inkluderer for øyeblikket univariate autoregressive modeller (AR), vektor autoregressive modeller (VAR) og univariate autoregressive moving average modeller (ARMA). Den inneholder også beskrivende statistikk for tidsserier, for eksempel autokorrelasjon, delvis autokorrelasjonsfunksjon og periodogram, samt de tilsvarende teoretiske egenskapene til ARMA eller relaterte prosesser. Det inkluderer også metoder for å arbeide med autoregressive og bevegelige gjennomsnittlige lag-polynomier. I tillegg er relaterte statistiske tester og noen nyttige hjelpefunksjoner tilgjengelige. Estimering gjøres enten ved nøyaktig eller betinget maksimal sannsynlighet eller betinget minste kvadrat, enten ved bruk av Kalman Filter eller direkte filtre. For øyeblikket må funksjoner og klasser importeres fra den tilsvarende modulen, men hovedklassene vil bli gjort tilgjengelig i navnemodellen statsmodels. tsa. Modulstrukturen er innenfor statistikkmodeller. tsa er stattools. empiriske egenskaper og tester, acf, pacf, granger-causality, adf unit root test, ljung-box test og andre. armodel. univariate autoregressive prosess, estimering med betinget og nøyaktig maksimal sannsynlighet og betinget minst-kvadratisk arimamodel. univariate ARMA prosess, estimering med betinget og eksakt maksimal sannsynlighet og betingede minst-kvadratene vektorar, var. vektor autoregressive prosess (VAR) estimeringsmodeller, impulsrespons analyse, prognose feil varians dekomposisjoner og data visualisering verktøy kalmanf. estimat klasser for ARMA og andre modeller med nøyaktig MLE ved hjelp av Kalman Filter armaprocess. egenskaper av arma prosesser med gitt parametere, dette inkluderer verktøy for å konvertere mellom ARMA, MA og AR-representasjon samt akf, pacf, spektral tetthet, impulsrespons funksjon og lignende sandbox. tsa. fftarma. ligner på armaprocess, men arbeider i frekvensdomene tsatools. tilleggshjelpsfunksjoner, for å lage arrays av forsinkede variabler, konstruere regressorer for trend, detrend og lignende. filtre. Hjelperfunksjon for filtrering av tidsserier Noen tilleggsfunksjoner som også er nyttige for tidsserieanalyse, finnes i andre deler av statistikkmodeller, for eksempel flere statistiske tester. Noen relaterte funksjoner er også tilgjengelige i matplotlib, nitime og scikits. talkbox. Disse funksjonene er utformet mer for bruk i signalbehandling der lengre tidsserier er tilgjengelige og arbeider oftere i frekvensdomenet. Beskrivende statistikk og tester stattools. acovf (x, unbiased, demean, fft)

No comments:

Post a Comment