Módszertani információk

A felhasznált adatállományok

Az LTK által kezelt energiatanúsítvány-adatbázist a KSH az OSAP 2561 sz. adatátvétel keretében kapja meg. Évente mintegy 130–150 ezer lakás felmérése készül el, amelyek részletes dokumentációját a tanúsítást készítő szakemberek feltöltik az LTK rendszerébe. 2023 végén a tanúsítási rendszer megváltozott, a régi és az új rendszer között nincs közvetlen átváltási lehetőség. Ezért úgy döntöttünk, hogy az új rendszerben előállt tanúsítványokat nem használjuk fel, de hogy minél több lakásról rendelkezzünk tanúsított energiaigény-adattal, a népszámlálást megelőző két évben kiadott tanúsítványokat is figyelembe vettük, tehát a 2020 és 2023 közötti időszak energiatanúsítvány-adatait használtuk. Ezeket az adatokat a rendelkezésre álló részletes címinformációk alapján kapcsoltuk össze a népszámláláskor regisztrált címekkel, és ezeken keresztül a népszámlálási lakásadatokkal.

Elsőként az átvett energetikai tanúsítványok címeihez hozzárendeltük a KSH címregiszterének címazonosítóit. Ez a művelet 67%-ban volt sikeres: a négy évből rendelkezésre álló tanúsítványok közül majdnem 370 ezer kapott albetétes szintig címazonosítót. Ezek között mintegy 35 ezer tanúsítvány duplikátumnak bizonyult, az adott időszakban ugyanarra a lakásra többször is elkészült. A régebbi tanúsítványok elhagyásával végül 335 ezer rekordot tudtunk felhasználni.

Ezután következett a 2022. évi népszámlálási lakásállomány-táblával való összekapcsolás, ami ugyanúgy a címazonosítók mentén történt. A 335 ezer rekordból 279 ezer lakáshoz, a közel 4,6 millió lakás 6,5%-ához sikerült hozzárendelnünk energiatanúsítványt. A kapcsolódó rekordok területi megoszlása többnyire jól követi a népszámlálási lakásállomány régiós eloszlását, bár Budapesten a többlakásos épületek címének bonyolultsága (épület, lépcsőház, emelet, ajtó) kissé rontotta a találati esélyeket a jobbára családi házas területek egyszerűbb címzésű épületeihez képest. Ezzel együtt sikerült elérni, hogy mindegyik régióban 5%-ot meghaladó arányban álljon rendelkezésünkre energiatanúsítvány.

1. tábla
A felhasznált adatállományok jellemzői, a kapcsolódás fő mutatói
Régió A lakások száma (népszámlálás, 2022) A lakások területi megoszlása, % Lakásrekordhoz kapcsolt energetikai tanúsítványok száma A kapcsolódó tanúsítványok területi megoszlása, % Tanúsítvánnyal rendelkező lakások aránya, %
Budapest 961 061    21,0    53 291    19,1    5,5   
Pest 519 420    11,3    32 819    11,8    6,3   
Közép-Dunántúl 474 371    10,4    29 652    10,6    6,3   
Nyugat-Dunántúl 457 369    10,0    26 208    9,4    5,7   
Dél-Dunántúl 418 847    9,1    24 947    8,9    6,0   
Észak-Magyarország 510 187    11,1    36 281    13,0    7,1   
Észak-Alföld 625 854    13,7    41 853    15,0    6,7   
Dél-Alföld 613 429    13,4    33 969    12,2    5,5   
Összesen 4 580 538    100,0    279 020    100,0    6,1   

Regressziós elemzés

A korábbi, 2020-ban elvégzett vizsgálathoz képest hátrányt jelentett, hogy nem állt rendelkezésre információ a lakóházakon elvégzett felújításokról, így azokról az energiamegtakarítást eredményező munkákról sem, amelyekről a 2016. évi mikrocenzus során beszámolhattak a válaszadók. A népszámlálási információkra építő regressziószámítás (OLS) ennek következtében még a 10%-os outlierszűrés után is csak nagyjából 60% körüli arányban tudta megmagyarázni a megfigyelések varianciáját. A regressziószámításban felhasznált változókat, ezek együtthatóit és szignifikanciájukat elsősorban azért közöljük, hogy bemutassuk az egyes magyarázó változók és a lakások fajlagos primerenergia-fogyasztása közötti kapcsolat jellegét, egyúttal bemutassuk a további elemzésekben is felhasznált változókészletet. Két modell készült, külön a családi házakra és külön a társasházi lakásokra. Mindkét esetben szembetűnő, hogy a lakások energiaigényét alapvetően befolyásolja az épületek kora. Minél újabb egy lakóház, annál alacsonyabb az energiaszükséglete, és ez a különbség még a 2016–2020 és a 2020–2022 közötti épületek esetében is szembetűnő.

2. tábla
A regressziós modellek együtthatói és p-értékei
A modell magyarázóváltozói
Függő változó: fajlagos primerfogyasztás (a TNM-rendelet szerint)
Társasházmodell
R²= 0,597
Családiház-modell
R²= 0,616
B p B p
  Konstans 371,6 0,000 457,062 0,000
Települési fajlagos lakásár, millió forint -7,624 0,000 -82,304 0,000
Lakás-alapterület -0,275 0,000 -0,389 0,000
Régió (kontroll: Dél-Alföld)
  Dél-Dunántúl -26,909 0,000 -4,769 0,000
  Észak-Alföld 2,625 0,000 2,257 0,001
  Észak-Magyarország -8,566 0,000 -0,940 0,192
  Közép-Dunántúl -10,509 0,000 -2,016 0,006
  Nyugat-Dunántúl -20,813 0,000 -10,907 0,000
Településtípus
  Budapest -26,556 0,000 4,390 0,000
  megyeszékhely -25,989 0,000 -8,203 0,000
  város -16,919 0,000 -1,348 0,007
Építési év (kontroll 1919 előtt)
  1919–1945 -12,365 0,000 13,599 0,000
  1946–1960 -42,289 0,000 16,336 0,000
  1961–1980 -64,704 0,000 13,771 0,000
  1981–2000 -69,075 0,000 -43,050 0,000
  2001–2010 -121,199 0,000 -104,281 0,000
  2011–2015 -131,618 0,000 -128,983 0,000
  2016–2020 -152,124 0,000 -148,669 0,000
  2021–2022 -167,467 0,000 -168,851 0,000
Falazat (kontroll: tégla)
  betonfalazat -8,260 0,000 -3,210 0,008
  vályog-, fa-, egyéb falazat -6,728 0,006 1,975 0,000
  panelfalazat -18,573 0,000
Lakások száma (kontroll: 4–12 alatt)
  13 és annál több lakásos -0,817 0,127
Fűtőanyag (kontroll: vezetékes gáz)
  egyéb -5,708 0,827 -19,338 0,140
  PB-gáz -21,534 0,729 1,150 0,912
  szén 29,185 0,000 -116,043 0,055
  villany 23,286 0,322 -29,646 0,106
Az épület magassága (kontroll: földszintes)
  2–3 emeletes -42,493 0,000
  4 emeletes -57,800 0,000
  5 és annál több emeletes -61,886 0,000
Van a lakásban/házban
internet -4,004 0,000 -21,120 0,000
hőszivattyús fűtés -12,240 0,000 11,529 0,000
klímaberendezés -2,630 0,000 -27,286 0,000
napelem -17,342 0,000 -97,923 0,000
napkollektor 35,626 0,000 109,706 0,000
Fűtés és fűtőanyag(ok) (kontroll: helyiségfűtés vezetékes gázzal)
elektromos árammal, helyiségenként 67,436 0,000 16,254 0,377
fával, helyiségenként 64,585 0,300 -22,693 0,000
szénnel, helyiségenként 92,726 0,135
egyéb fűtőanyaggal, helyiségenként 41,782 0,111 -28,430 0,031
hálózati (vezetékes) gázzal és elektromos árammal, helyiségenként 7,306 0,000 3,822 0,062
hálózati (vezetékes) gázzal és fával, helyiségenként 18,800 0,013 -8,270 0,000
hálózati (vezetékes) gázzal és más fűtőanyaggal, helyiségenként -74,862 0,000 -9,531 0,359
elektromos árammal és fával, helyiségenként 62,546 0,000 7,528 0,683
elektromos árammal és más fűtőanyaggal, helyiségenként 30,641 0,133 44,448 0,006
szénnel és fával, helyiségenként 86,724 0,173 -22,511 0,000
egyéb fűtőanyagokkal, helyiségenként 62,765 0,123 10,714 0,322
központi kazánnal, elektromos árammal 47,788 0,000 25,745 0,161
központi kazánnal, fával 89,694 0,152 19,234 0,000
központi kazánnal, szénnel 18,545 0,476 144,609 0,018
központi kazánnal, egyéb fűtőanyaggal 3,475 0,011 -20,449 0,111
központi kazánnal, hálózati (vezetékes) gázzal és árammal 0,721 0,446
központi kazánnal, hálózati (vezetékes) gázzal és fával -11,632 0,027 7,001 0,000
központi kazánnal, hálózati (vezetékes) gázzal és más fűtőanyaggal -12,825 0,326 12,853 0,008
központi kazánnal, elektromos árammal és fával 40,628 0,004 28,431 0,123
központi kazánnal, elektromos árammal és más fűtőanyaggal 21,968 0,211 8,357 0,638
központi kazánnal, szénnel és fával 96,928 0,145 31,579 0,000
központi kazánnal, többféle egyéb fűtőanyaggal -32,395 0,000 -11,662 0,132
távfűtés -32,617 0,000
 
Melegvíz-ellátás bojler, kazán stb. -11,149 0,016 5,579 0,000
távvezeték -33,375 0,000 -17,580 0,000
Magas panelépület -5,296 0,000
1. ábra

A regressziós becslés az ismert energiaosztályú lakások 34%-ában eredményezte a mért érték szerinti energiaosztályt, további 37%-ban egy osztállyal alá- vagy fölébecsülte a kategóriát. A becslés főleg a családi házaknál teljesített rosszul, a társasházi lakásoknál az esetek 72%-ában legfeljebb egy kategóriát hibázott.

Random forest modellezés

Az energetikai tanúsítványok esetében a lineáris regressziós becslések fő korlátja, hogy a fajlagos energetikai mutató összefüggéseit az egyes lakástulajdonságokkal kizárólag lineáris formában képesek kezelni. Tudjuk például, hogy a különlegesen jó minőségű és új építésű lakások, illetve a különlegesen rossz minőségű, régi lakások mutatói sokkal jobbak vagy rosszabbak, mint egy átlagos lakásé – másként fogalmazva a megbecsülni kívánt mutatóban nem lineáris viselkedést tapasztalhatunk. Ezért olyan módszer alkalmazására kell törekedni, amelynek nincsenek ilyen jellegű implicit feltételei és korlátai. A random forest regresszió olyan gépi tanulási módszer, amely különösen jól alkalmazható ebben az esetben. Lényege, hogy nem egyetlen döntési fát használ, hanem sok százat vagy ezret egyidejűleg, majd ezek eredményeit átlagolja, mintha egy szakértői bizottság minden tagja külön-külön értékelné az épületet, azután közös véleményt alakítanának ki. Ez a megközelítés kifejezetten alkalmas olyan energiahatékonysági értékelési rendszerekhez, ahol a pontok kiosztása feltételes logikai mintákat követ, nem pedig egyszerű lineáris együtthatókat. Az algoritmus természetes módon fedezi fel ezeket a rejtett pontozási küszöbértékeket rekurzív bináris felosztással, gyakorlatilag újraépítve a mögöttes értékelési rendszert anélkül, hogy azt külön be kellene programozni. Ez azért működik jól energiahatékonysági problémáknál, mert egy épület energiafogyasztását rengeteg összetett tényező befolyásolja egyszerre: a mérete, a szigetelése, a fűtési rendszere, az elhelyezkedése és ezek bonyolult kölcsönhatásai. A random forest képes felfedezni ezeket a rejtett összefüggéseket anélkül, hogy előre meg kellene mondanunk, milyen matematikai képlet írja le őket. Ráadásul a módszer jól tolerálja, ha egyes tulajdonságok szorosan összefüggenek egymással (például a ház kora és falazata), és problémamentesen kezeli a különböző típusú adatokat – legyen szó számokról, kategóriákról vagy igen/nem válaszokról.

A random forest modellünkben ugyanazokat a lakástulajdonságokat és földrajzi változókat használtuk, mint a lineáris regressziós modell esetében. Mivel az ilyen bonyolult, sok paraméteres modellek esetében fennáll a túlillesztés veszélye (az, hogy azok a minták, amelyek az adatunkat meghatározzák, túlzott pontossággal, így alig általánosíthatóan kerülnek feldolgozásra a modell által), keresztvalidációt alkalmaztunk. Az adatunkból több partíciót is készítettünk, amelyekre egy-egy modellt illesztettünk, és ezeket a különböző modelleket hasonlítottuk össze predikciós teljesítményük, pontosságuk alapján. A végső modellt végül felhasználtuk arra, hogy minden ismert energetikai tanúsítványú lakásra becslést adjunk, majd ezeket a becsléseket összehasonlítottuk a valós értékekkel. Az összehasonlítást az egyéni lakások szintjén is és különböző területi egységek átlagaiban is megtettük. A következő ábra megmutatja, hogy milyen összefüggés van az egyéni lakások sokaságában a megfigyelt és a prediktált energiaigények között. A grafikonon a vízszintes tengelyen láthatók a megfigyelt, a függőlegesen a becsült értékek. A grafikon területe cellákra van osztva, ezeknek a celláknak a színe azt jelzi, hogy hány lakás esik a területükre – ha világosak, akkor sok, ha sötétek, akkor kevés (akár 1 darab). Látható, hogy a lakások jelentős részében a megfigyelt és becsült értékek nagyon közel esnek egymáshoz, tehát a becslés jól működik. Ugyanakkor kevés lakás nagymértékben szóródik az egyenlőséget jelző vonal két oldalán, tehát vannak olyan lakások, amelyek esetében a modellünk hibázik, akár az átlagosnál nagyobb mértékben is. Az ilyen eltérések tipikusan az olyan esetekben a legnagyobbak, ahol a megfigyelt pontszám különlegesen magas (a lakás szélsőségesen kevéssé energiahatékony), és ezt a modell nem képes megbecsülni. Az ilyen esetekben is rossz (esetünkben magas) értéket becsül a modell, de nem elég rosszat. Általában elmondható, hogy ilyen mennyiségű és változatosságú lakás esetén ilyen szóródás várható, és a fő kritérium, hogy a lakások túlnyomó többsége esetében legyen kicsi a becslési pontatlanság esetünkben fennáll.

2. ábra

Amennyiben az egyes lakások energetikai hatékonyságát nem a folytonos mutatóban, hanem a kiszámított energetikai kategóriákban mérjük, jól látható a mért és a becsült értékek ÉKM-rendelet szerinti besorolásának eltérése. A random forest modell a kategóriákat nagyobb pontossággal találta el, mint az OLS.  Az is észrevehető, hogy mindkét számítás több lakás esetében becsült a megfigyelt értéknél valamivel rosszabb energetikai kategóriát, mint a valós érték.

3. ábra

Ugyanakkor a számítások célja nem az, hogy egyes lakások energiaigényét megállapítsuk, hanem hogy területi egységek (vármegyék, régiók) vagy egyéb csoportok értékelését képesek legyünk pontosan megbecsülni. Fontos hangsúlyozni, hogy a vármegye mint prediktorváltozó a modell része, így a nagy eltérés azt mutatná, hogy a modellünk nem működik. Ez nem áll fenn, sok vármegye-lakástípus kombináció esetében az átlagok eltérései a tizedesjegy-tartományban találhatók, és a legnagyobb eltérések sem két számjegyűek.

3. tábla
Megfigyelt és becsült értékek vármegyei szintű átlagai épülettípus szerint, ÉKM, 2022
Vármegye Családi ház Társasház
tanúsított érték becsült érték tanúsított érték becsült érték
Bács-Kiskun 311,1 316,7 190,7 190,9
Baranya 299,5 297,7 145,6 146,8
Békés 335,0 336,7 210,8 211,6
Borsod-Abaúj-Zemplén 327,7 330,8 180,9 180,3
Csongrád-Csanád 240,4 241,9 206,4 206,9
Fejér 308,9 305,7 182,0 181,1
Budapest 291,4 293,6 172,8 173,4
Győr-Moson-Sopron 262,0 263,2 166,6 167,5
Hajdú-Bihar 280,6 284,4 175,5 175,5
Heves 339,2 336,8 193,4 195,3
Jász-Nagykun-Szolnok 353,9 348,6 210,0 206,7
Komárom-Esztergom 294,8 294,2 194,2 190,1
Nógrád 359,7 358,7 218,0 221,2
Pest 262,6 260,3 184,5 185,4
Somogy 323,5 318,8 191,7 192,6
Szabolcs-Szatmár-Bereg 327,4 329,2 159,6 164,1
Tolna 311,9 323,4 170,2 173,1
Vas 290,9 298,7 191,5 192,3
Veszprém 296,2 295,7 174,6 177,5
Zala 309,7 306,6 173,2 175,8

Mivel a vármegyére utaló információ a modellünk része, az erre vonatkozó becslési pontosság még nem bizonyíték arra, hogy területi egységekre jól prediktál a modell olyan esetekben is, amiket nem ismer. A járások vizsgálata értékesebb teszt ezt a prediktív képességet eldönteni, hiszen a járást nem vontuk be változóként a modell illesztése során, így az egyes járások összetételét nem is tanulhatta meg az algoritmus. A megfigyelt és a becsült pontszámok járási átlagaiból vett különbségek eloszlásából látható, hogy a különbségek itt már jóval nagyobb tartományban mozognak, mint a vármegyék esetében. Ugyanakkor szembetűnő, hogy 75 járás esetében a különbség –2 és +4 kWh/m²/a közé esik, ami különösen jó modellműködést mutat, hiszen az energetikai pontszám terjedelme a többszázas léptéket éri el. A járások túlnyomó részében, a 198 járás közül 144-ben az eltérés –9 és +14 kWh/m²/a közé esik, ami szintén jó teljesítmény. Csak néhány olyan járás van, ahol a modellünk ennél nagyobb eltérést mutat. Ezek általában olyan járások, ahol a lakáspiaci forgalom alacsony, így kevés energetikai tanúsítvány azonosítható, ezért a megfigyelt tanúsítványok átlagos értéke is bizonytalanabb. Ezek a járások tipikusan falusiasak, átlag alatti lakásállománnyal, szegényebb régiókban. Eredményeink megmutatják, hogy miért fontos fenntartásokkal kezelni az apró területi egységekre történő becslést: minél kisebb egy területi egység, annál nagyobb az esélye, hogy olyan speciális körülmények jellemzik, amelyek a teljes sokaságból nem általánosíthatók, ráadásul annál kevesebb lehet a megfigyelések száma is, és ez a két faktor sok esetben együtt jár.

4. ábra

Az a jelenség, hogy az egyes épületekre vonatkozó előrejelzések jelentős hibaszélességet mutatnak, ugyanakkor csoportosítva – például járások, vármegyék vagy régiók szintjén – feltűnően közel kerülnek a valós értékekhez, a random forest modellek egyik kulcsfontosságú erősségét hangsúlyozza az energiahatékonyság előrejelzésében. Ez a statisztikai viselkedés a modell kiegyensúlyozott hibaeloszlásából ered, ahol az előrejelzési hibák nem szisztematikusan torzulnak egy bizonyos irányba, hanem szimmetrikusan oszlanak el a valós értékek körül. Amikor ezeket az előrejelzéseket regionális szinten összesítjük, a pozitív és a negatív hibák hatékonyan kiegyenlítik egymást, olyan átlagokat produkálva, amelyek 1-2 pontnyi távolságra vannak a megfigyelt értékektől egy többszázas skálán, ami figyelemre méltó pontosság. Ez a példa azt mutatja, hogy a random forest kiváló eszköz a lakóépület-jellemzők és energiafogyasztás közötti makroszintű kapcsolatok megragadásában, miközben egyedi szinten nagyobb bizonytalanságot mutat. Ezek a tulajdonságok a modellt különösen értékessé teszik szakpolitikai tervezéshez, regionális energiahatékonysági értékeléshez és trendanalízishez, még akkor is, ha az egyedi épület-előrejelzések nagyobb változékonyságot hordoznak.