Személysérüléses közúti közlekedési balesetek – Módszertani leírás
Az Országos Rendőr-főkapitányság (ORFK) a tárgyhónapot követő 10–20. napon közzéteszi honlapján gyorsriportját az előző havi közúti közlekedési baleseti adatokról. Az ORFK tájékoztatásában megfigyelhető egy szisztematikus alulbecslés a Központi Statisztikai Hivatal (KSH) által a tárgyhónapot követő 50–55. napon publikált adatokhoz képest. Ennek az az egyik fő oka, hogy a KSH – az európai sztenderdekkel összhangban – azt tekinti a balesetben meghalt személynek, aki a baleset következtében 30 napon belül hunyt el. Ennek megfelelően a gyorsriport elkészítésekor még nem állnak rendelkezésre a baleset bekövetkezése utáni 30. napra vonatkozó adatok. A KSH a probléma áthidalására az idősorban lévő tendenciákat figyelembe vevő ún. ARIMA-modelleket készített külön Budapestre és a többi vármegyére együttesen, és most közzéteszi az ily módon külön-külön becsült adatok összegét.
A gyorsbecslés módszertana:
A módszer lényege, hogy az ORFK által készített gyorsriportok segítségével előrejelzést készítsünk a baleseti adatok alakulására. Az eljárás azon az empirikus megfigyelésen alapul, hogy erős kapcsolat figyelhető meg a gyorsriportok és a végleges baleseti adatok között. Mivel mindkét adattermék azonos eseménytípusok számbavételére készült, a magas korreláció statisztikailag indokolható. A gyorsriportok szisztematikus alulbecslésének kiküszöbölésére a SARIMAX-modell (Seasonal AutoRegressive Integrated Moving Average with eXogenous variables) becslését alkalmaztuk. A SARIMAX egy klasszikus lineáris idősormodell, amely az yₜ értékét az alábbiak alapján magyarázza:
**(1) AR – autoregresszív tag:**y korábbi értékei
**(2) I – integrált (differenciálás):**stacionaritás biztosítása differenciálással
**(3) MA – mozgóátlag-hiba tag:**korábbi előrejelzési hibák
**(4) S – szezonális változatok:**AR, I, MA a szezonális léptéknél (s=12, éves)
**(5) X – exogén változók:**külső magyarázó regresszorok (ebben az esetben az ORFK gyorsriportjában szereplő számok)
Az eljárásban használt modell specifikáció:
Autoregresszív rend (1, 0, 1) :
• p = 1 → AR(1): egy lag, φ₁·yₜ₋₁
• d = 0 → nincs szezonális differenciálás (stacioner idősorokat használunk)
• q = 1 → MA(1): egy hibalag, θ₁·εₜ₋₁
Szezonális rend = (1, 1, 1, 12):
• P = 1 → SAR(1): Φ₁·yₜ₋₁₂
• D = 1 → egy szezonális differenciálás: Δ₁₂yₜ = yₜ − yₜ₋₁₂
• Q = 1 → SMA(1): Θ₁·εₜ₋₁₂
• s = 12 → havi adatok, éves szezonalitás
A python statsmodels csomagja az alábbi maximum likelihood becslési eljárást használja. Normális hibaeloszlást feltételezve a log-likelihood:
ℓ(ψ) = −(T/2)·ln(2π) − (T/2)·ln(σ²) − (1/2σ²)·Σ εₜ(ψ)²
ahol ψ = (φ₁, Φ₁, θ₁, Θ₁, β, σ²) a paramétervektor, az εₜ(ψ) maradékokat pedig rekurzívan, a Kalman-szűrőn keresztül számítja a modell.
Elsőrendű feltételek:
∂ℓ/∂ψ = (1/σ²)·Σ εₜ · (∂εₜ/∂ψ) = 0
Az MA-tagok miatt εₜ nemlineáris függvénye θ₁-nek és Θ₁-nek, ezért nincs zárt formájú megoldás – a statsmodels numerikus optimalizálással (alapértelmezetten L-BFGS-B) maximalizálja ℓ-t.
Sztenderd hibák – Fisher-mátrix inverze:
Var(ψ) = [ −∂²ℓ/∂ψ∂ψᵀ ]⁻¹ (az MLE a becsült ψ-ban kiértékelve)
Személysérüléses közúti közlekedési balesetek – Módszertani leírás
Az Országos Rendőr-főkapitányság (ORFK) a tárgyhónapot követő 10–20. napon közzéteszi honlapján gyorsriportját az előző havi közúti közlekedési baleseti adatokról. Az ORFK tájékoztatásában megfigyelhető egy szisztematikus alulbecslés a Központi Statisztikai Hivatal (KSH) által a tárgyhónapot követő 50–55. napon publikált adatokhoz képest. Ennek az az egyik fő oka, hogy a KSH – az európai sztenderdekkel összhangban – azt tekinti a balesetben meghalt személynek, aki a baleset következtében 30 napon belül hunyt el. Ennek megfelelően a gyorsriport elkészítésekor még nem állnak rendelkezésre a baleset bekövetkezése utáni 30. napra vonatkozó adatok. A KSH a probléma áthidalására az idősorban lévő tendenciákat figyelembe vevő ún. ARIMA-modelleket készített külön Budapestre és a többi vármegyére együttesen, és most közzéteszi az ily módon külön-külön becsült adatok összegét.
A gyorsbecslés módszertana:
A módszer lényege, hogy az ORFK által készített gyorsriportok segítségével előrejelzést készítsünk a baleseti adatok alakulására. Az eljárás azon az empirikus megfigyelésen alapul, hogy erős kapcsolat figyelhető meg a gyorsriportok és a végleges baleseti adatok között. Mivel mindkét adattermék azonos eseménytípusok számbavételére készült, a magas korreláció statisztikailag indokolható. A gyorsriportok szisztematikus alulbecslésének kiküszöbölésére a SARIMAX-modell (Seasonal AutoRegressive Integrated Moving Average with eXogenous variables) becslését alkalmaztuk. A SARIMAX egy klasszikus lineáris idősormodell, amely az yₜ értékét az alábbiak alapján magyarázza:
**(1) AR – autoregresszív tag:**y korábbi értékei
**(2) I – integrált (differenciálás):**stacionaritás biztosítása differenciálással
**(3) MA – mozgóátlag-hiba tag:**korábbi előrejelzési hibák
**(4) S – szezonális változatok:**AR, I, MA a szezonális léptéknél (s=12, éves)
**(5) X – exogén változók:**külső magyarázó regresszorok (ebben az esetben az ORFK gyorsriportjában szereplő számok)
Az eljárásban használt modell specifikáció:
Autoregresszív rend (1, 0, 1) :
• p = 1 → AR(1): egy lag, φ₁·yₜ₋₁
• d = 0 → nincs szezonális differenciálás (stacioner idősorokat használunk)
• q = 1 → MA(1): egy hibalag, θ₁·εₜ₋₁
Szezonális rend = (1, 1, 1, 12):
• P = 1 → SAR(1): Φ₁·yₜ₋₁₂
• D = 1 → egy szezonális differenciálás: Δ₁₂yₜ = yₜ − yₜ₋₁₂
• Q = 1 → SMA(1): Θ₁·εₜ₋₁₂
• s = 12 → havi adatok, éves szezonalitás
A python statsmodels csomagja az alábbi maximum likelihood becslési eljárást használja. Normális hibaeloszlást feltételezve a log-likelihood:
ℓ(ψ) = −(T/2)·ln(2π) − (T/2)·ln(σ²) − (1/2σ²)·Σ εₜ(ψ)²
ahol ψ = (φ₁, Φ₁, θ₁, Θ₁, β, σ²) a paramétervektor, az εₜ(ψ) maradékokat pedig rekurzívan, a Kalman-szűrőn keresztül számítja a modell.
Elsőrendű feltételek:
∂ℓ/∂ψ = (1/σ²)·Σ εₜ · (∂εₜ/∂ψ) = 0
Az MA-tagok miatt εₜ nemlineáris függvénye θ₁-nek és Θ₁-nek, ezért nincs zárt formájú megoldás – a statsmodels numerikus optimalizálással (alapértelmezetten L-BFGS-B) maximalizálja ℓ-t.
Sztenderd hibák – Fisher-mátrix inverze:
Var(ψ) = [ −∂²ℓ/∂ψ∂ψᵀ ]⁻¹ (az MLE a becsült ψ-ban kiértékelve)