Személysérüléses közúti közlekedési balesetek – Módszertani leírás

Az Országos Rendőr-főkapitányság (ORFK) a tárgyhónapot követő 10–20. napon közzéteszi honlapján gyorsriportját az előző havi közúti közlekedési baleseti adatokról. Az ORFK tájékoztatásában megfigyelhető egy szisztematikus alulbecslés a Központi Statisztikai Hivatal (KSH) által a tárgyhónapot követő 50–55. napon publikált adatokhoz képest. Ennek az az egyik fő oka, hogy a KSH – az európai sztenderdekkel összhangban – azt tekinti a balesetben meghalt személynek, aki a baleset következtében 30 napon belül hunyt el. Ennek megfelelően a gyorsriport elkészítésekor még nem állnak rendelkezésre a baleset bekövetkezése utáni 30. napra vonatkozó adatok. A KSH a probléma áthidalására az idősorban lévő tendenciákat figyelembe vevő ún. ARIMA-modelleket készített külön Budapestre és a többi vármegyére együttesen, és most közzéteszi az ily módon külön-külön becsült adatok összegét.

A gyorsbecslés módszertana:

A módszer lényege, hogy az ORFK által készített gyorsriportok segítségével előrejelzést készítsünk a baleseti adatok alakulására. Az eljárás azon az empirikus megfigyelésen alapul, hogy erős kapcsolat figyelhető meg a gyorsriportok és a végleges baleseti adatok között. Mivel mindkét adattermék azonos eseménytípusok számbavételére készült, a magas korreláció statisztikailag indokolható. A gyorsriportok szisztematikus alulbecslésének kiküszöbölésére a SARIMAX-modell (Seasonal AutoRegressive Integrated Moving Average with eXogenous variables) becslését alkalmaztuk. A SARIMAX egy klasszikus lineáris idősormodell, amely az yₜ értékét az alábbiak alapján magyarázza:

**(1)  AR – autoregresszív tag:**y korábbi értékei

**(2)  I  – integrált (differenciálás):**stacionaritás biztosítása differenciálással

**(3)  MA – mozgóátlag-hiba tag:**korábbi előrejelzési hibák

**(4)  S  – szezonális változatok:**AR, I, MA a szezonális léptéknél (s=12, éves)

**(5)  X  – exogén változók:**külső magyarázó regresszorok (ebben az esetben az ORFK gyorsriportjában szereplő számok)

Az eljárásban használt modell specifikáció:

Autoregresszív rend (1, 0, 1) :

• p = 1 → AR(1): egy lag, φ₁·yₜ₋₁

• d = 0 → nincs szezonális differenciálás (stacioner idősorokat használunk)

• q = 1 → MA(1): egy hibalag, θ₁·εₜ₋₁

Szezonális rend = (1, 1, 1, 12):

  • P = 1 → SAR(1): Φ₁·yₜ₋₁₂

  • D = 1 → egy szezonális differenciálás: Δ₁₂yₜ = yₜ − yₜ₋₁₂

  • Q = 1 → SMA(1): Θ₁·εₜ₋₁₂

  • s = 12 → havi adatok, éves szezonalitás

A python statsmodels csomagja az alábbi maximum likelihood becslési eljárást használja. Normális hibaeloszlást feltételezve a log-likelihood:

ℓ(ψ) = −(T/2)·ln(2π) − (T/2)·ln(σ²) − (1/2σ²)·Σ εₜ(ψ)²

ahol ψ = (φ₁, Φ₁, θ₁, Θ₁, β, σ²) a paramétervektor, az εₜ(ψ) maradékokat pedig rekurzívan, a Kalman-szűrőn keresztül számítja a modell.

Elsőrendű feltételek:

∂ℓ/∂ψ = (1/σ²)·Σ εₜ · (∂εₜ/∂ψ) = 0

Az MA-tagok miatt εₜ nemlineáris függvénye θ₁-nek és Θ₁-nek, ezért nincs zárt formájú megoldás – a statsmodels numerikus optimalizálással (alapértelmezetten L-BFGS-B) maximalizálja ℓ-t.

Sztenderd hibák – Fisher-mátrix inverze:

Var(ψ) = [ −∂²ℓ/∂ψ∂ψᵀ ]⁻¹   (az MLE  a becsült ψ-ban kiértékelve)