A negyedéves vándorlási egyenleg számítására vonatkozó kísérleti statisztika adatforrása és módszertana

 

1.  A nemzetközi vándorlás mérése

A migrációs statisztika egyik fontos célja a hazánkban tartózkodó külföldi állampolgárok számának a szokásos lakóhellyel rendelkező népesség európai uniós definíciója (legalább 12 hónapos tartózkodás) szerinti megállapítása, illetve szintén e definíció alapján a be- és kivándorló külföldi állampolgárok számának meghatározása. További cél a magyar állampolgárok vándorlásának vizsgálata: a ki-, illetve visszavándorló magyar állampolgárok számának szintén a szokásos lakóhellyel rendelkező népesség fogalma alapján történő megállapítása.

A vándorlási adatokat a migrációs statisztikai adatátvételek kezdete óta éves gyakorisággal publikálja a KSH. A jelenlegi kísérleti statisztika célja a vándorlási egyenleg negyedéves gyakoriságú becslése, amelyhez szükség volt 1) az adatátvételek gyakoriságának évesről negyedévesre, illetve havira történő növelésére, illetve 2) a negyedéves migráció becslési modelljeinek kidolgozására. A becslési eljárás alapjául a már rendelkezésre álló múltbeli adatokon futtatott regressziós modellek szolgáltak, amelyek révén becsülhetővé vált a vándorló népesség várható tartózkodási ideje. A többváltozós elemzési módszerrel végzett hiányzó adatpótlás (imputálás) lehetővé tette a tartózkodási időtartamok becslését azon személyek esetében is, akiknél a vándorlási időtartam adatai hiányosak voltak.

2. Adatforrások

Jelenleg a vándorlásstatisztika előállításához használt legfőbb adminisztratív adatforrások a következők:

a)      Energiaügyi Minisztérium, Személyi adat- és lakcímnyilvántartás (OSAP 2228);

b)      Magyar állampolgárok ki- és visszavándorlása: A Nemzeti Egészségbiztosítási Alapkezelő (NEAK) Társadalombiztosítási Azonosító Jel (TAJ) nyilvántartása (OSAP 2197);

A kötelező egészségbiztosítás ellátásairól szóló 1997. évi LXXXIII. törvény 80. § (5) bekezdése előírja, hogy aki külföldi egészségbiztosítást köt, annak azt kötelező bejelenteni az itthoni egészségbiztosító felé. A TAJ-nyilvántartás tehát a kivándorlásra vonatkozó bejelentési kötelezettségen alapuló adatokat tartalmazza, és a regisztrált vándorlási események jelennek meg benne. A kötelezettség ellenére az adatok nem teljeskörűek.

c)      Külföldi állampolgárok ki- és bevándorlása: Az Országos Idegenrendészeti Főigazgatóság (OIF) idegenrendészeti nyilvántartásai (OSAP 2196, 2550 adatátvételek);

Külön regiszterben szerepelnek az Európai Gazdasági Térség (EGT) országainak szabad mozgás és tartózkodás jogával rendelkező állampolgárai és a harmadik országbeli állampolgárok.

  3. A vándorlásstatisztikai adatfeldolgozás gyakorlata

Az OIF adatbázisa (OSAP 2196 és 2550) panel-elrendezésű adatbázis: egy személy több sorban is szerepelhet (több vándorlási eseménye lehet). A társadalmi-gazdasági és vándorlásra vonatkozó változók magyarázó változóként bevonhatók többváltozós elemzésekbe, magyarázó modellekbe. Az OIF-adatbázis lehetővé teszi az olyan változók elemzését, mint a nem, az életkor, a családi állapot, az állampolgárság, a migráció célja, az iskolai végzettség és a foglalkozás. Az utóbbi két változót azonban csak a harmadik országbeli állampolgárok esetében rögzítik.

Az OIF által vezetett külföldiek nyilvántartása az egyik legfontosabb statisztikai adatforrás a Magyarországra érkezett és tartózkodási vagy állandó tartózkodási engedélyt kapott külföldiekről. A nyilvántartás az Európai Unió és az EGT országainak állampolgárait és a harmadik országbeli állampolgárokat tartalmazza. A nyilvántartások adatait havonta veszi át a KSH.

Az EGT-állomány sajátossága, hogy az egy személyre vonatkozó regisztrációs események nem kapcsolódnak egymáshoz. A harmadik országbeli állampolgárok adatbázisában viszont az egy személyre vonatkozó bejelentések összekapcsolódnak. A két állomány között azonban lehet átjárás. A negyedéves vándorlási egyenleg elkészítése során az egyik lényeges kihívást az képezte, hogy az Országos Idegenrendészeti Főigazgatóság (OIF) idegenrendészeti állományaiban az EGT-állampolgárok többsége esetében nem rendelkezünk tartózkodási időtartammal. A fő feladat abban állt, hogy miként tudunk tartózkodási időtartamokat rendelni a hiányzó tartózkodási időtartamok helyére.

A NEAK adatbázisa is panelszerkezetű: egy személy több sorban is szerepelhet (több vándorlási eseménye lehet). Egy többváltozós statisztikai modellben például a következő társadalmi-gazdasági változókat lehet magyarázó változóként használni: nem, életkor, családi állapot és kivándorlási ország. A dátum típusú változók használata a NEAK adatbázisban különösen problematikus: gyakoriak az ún. cenzorált adatok, amikor a megfigyelt időszak alatt még nem következett be a vándorlási esemény vége, vagyis a kivándorlás időpontja ismert, de a visszatérés időpontja nem. Előfordulhat az is, hogy a visszavándorlás előtti kivándorlás időpontja nem ismert. Beszélhetünk olyan esetekről is, amikor két vándorlási esemény között további kivándorlás(ok) és visszavándorlás(ok) történtek, azonban azok nem ismertek. Ezek a hiányzó időpontok például abból adódhatnak, hogy a kivándorló magyar állampolgárok nem jelentik be ki- és visszavándorlásukat a hatóságoknak. A cenzorált és hiányzó adatok miatt a magyar állampolgárok külföldön tartózkodásának időtartamát többváltozós elemzési módszerekkel lehet becsülni.

  4. Lineáris regresszió

A vándorlási események cenzorált és hiányzó időtartamának becslésére sokféle statisztikai módszer alkalmazható (pl. lineáris vagy cenzorált regressziós modellek), amelyek figyelembe vehetik a korábban már említett magyarázó változókat. A loglineáris regressziós modellt választottuk a migrációs események hiányzó időtartamának becslésére. A modell egyenlete az alábbiak szerint írható fel:

ahol:

A modell magyarázó változói lehetnek az egyén társadalmi-demográfiai jellemzői és a vándorlási eseményekhez kapcsolódó főbb jellemzők. Ha a vándorlási eseményhez csak egy ismert kezdő vagy befejező dátum kapcsolódik, akkor a magyarországi/külföldi tartózkodás becsült időtartamának napokban kifejezett értékét hozzáadva az adott dátumhoz vagy kivonva az adott dátumból, megkapjuk a hiányzó dátumot. A loglineáris modell segítségével lehetőség van jövőbeli időpontok imputálására, azaz a migrációs esemény várható befejezésének becslésére.

5.  A hiányzó adatok pótlása

Az OIF és NEAK adatainak esetében az ismert időtartamokkal jellemezhető vándorlási adatokat 80–20%-os arányban tanító- és teszthalmazra bontottuk, és a tanítóhalmazon futtatott regresszió eredményeit felhasználva becsültünk a teszthalmazra vonatkozóan vándorlási időtartamokat. A teszthalmaz valós és prediktált időtartamainak összehasonlítása során a MAE (Mean Absolute Error) értékek magasak voltak. Ennek egyik oka, hogy a loglineáris modell által prediktált időtartamok túlságosan rövidek, különösen az EGT- állampolgárok esetében, akik között magas az ismeretlen tartózkodási időtartammal jellemezhetők aránya. A referencia-időszak elején Magyarországon tartózkodó külföldiek közül azoknál, akiknél hiányzott a tartózkodási időtartam, a következőképpen jártunk el: a loglineáris modellel becsült időtartamot nem a bevándorlás időpontjához, hanem a referencia-időszak kezdetéhez adtuk hozzá. Bevándorlónak azokat a személyeket tekintettük, akiknek valós vagy becsült tartózkodási ideje meghaladta a 12 hónapot.

A NEAK-adatállományt tekintve két esetben fogadtuk el az időtartambecslés eredményeit. Amennyiben egy vándorlási esemény kapcsán csak a visszavándorlás dátuma volt ismert, akkor a becsült, külföldön töltött időtartam hosszát figyelembe véve állapítottuk meg a visszavándorlók számát a referencia-időszakban. Ha a külföldön töltött idő becsült hossza legalább 12 hónap volt és a visszavándorlás tényleges dátuma a vizsgált negyedévre esett, akkor azt visszavándorlásként számba vettük. Amennyiben csak a kivándorlás dátuma volt ismert, akkor megvizsgáltuk, hogy a kivándorlás a referencia-időszakban vagy pedig a referencia- időszakot megelőzően, egy évvel korábban történt-e. Előző esetben figyelembe vettük, hogy az időtartam becsült értéke alapján a külföldön tartózkodás várhatóan eléri-e az egy évet. Ha igen, akkor azt kivándorlásként számoltuk el. A NEAK-adatbázis esetén nagy figyelmet fordítottunk arra, hogy az egyes időszakokat tekintve ne legyenek átfedések, és így a cirkuláris migráció az eddig megszokott gyakorlathoz képest pontosabb képet mutasson. Ez a ki- és visszavándorlás volumenét csökkentette, azonban az egyenleget kevésbé befolyásolta.