Módszertani információk
A felhasznált adatállományok
Az LTK által kezelt energiatanúsítvány-adatbázist a KSH az OSAP 2561 sz. adatátvétel keretében kapja meg. Évente mintegy 130–150 ezer lakás felmérése készül el, amelyek részletes dokumentációját a tanúsítást készítő szakemberek feltöltik az LTK rendszerébe. 2023 végén a tanúsítási rendszer megváltozott, a régi és az új rendszer között nincs közvetlen átváltási lehetőség. Ezért úgy döntöttünk, hogy az új rendszerben előállt tanúsítványokat nem használjuk fel, de hogy minél több lakásról rendelkezzünk tanúsított energiaigény-adattal, a népszámlálást megelőző két évben kiadott tanúsítványokat is figyelembe vettük, tehát a 2020 és 2023 közötti időszak energiatanúsítvány-adatait használtuk. Ezeket az adatokat a rendelkezésre álló részletes címinformációk alapján kapcsoltuk össze a népszámláláskor regisztrált címekkel, és ezeken keresztül a népszámlálási lakásadatokkal.
Elsőként az átvett energetikai tanúsítványok címeihez hozzárendeltük a KSH címregiszterének címazonosítóit. Ez a művelet 67%-ban volt sikeres: a négy évből rendelkezésre álló tanúsítványok közül majdnem 370 ezer kapott albetétes szintig címazonosítót. Ezek között mintegy 35 ezer tanúsítvány duplikátumnak bizonyult, az adott időszakban ugyanarra a lakásra többször is elkészült. A régebbi tanúsítványok elhagyásával végül 335 ezer rekordot tudtunk felhasználni.
Ezután következett a 2022. évi népszámlálási lakásállomány-táblával való összekapcsolás, ami ugyanúgy a címazonosítók mentén történt. A 335 ezer rekordból 279 ezer lakáshoz, a közel 4,6 millió lakás 6,5%-ához sikerült hozzárendelnünk energiatanúsítványt. A kapcsolódó rekordok területi megoszlása többnyire jól követi a népszámlálási lakásállomány régiós eloszlását, bár Budapesten a többlakásos épületek címének bonyolultsága (épület, lépcsőház, emelet, ajtó) kissé rontotta a találati esélyeket a jobbára családi házas területek egyszerűbb címzésű épületeihez képest. Ezzel együtt sikerült elérni, hogy mindegyik régióban 5%-ot meghaladó arányban álljon rendelkezésünkre energiatanúsítvány.
1. tábla
A felhasznált adatállományok jellemzői, a kapcsolódás fő mutatói
Régió
A lakások száma (népszámlálás, 2022)
A lakások területi megoszlása, %
Lakásrekordhoz kapcsolt energetikai tanúsítványok száma
A kapcsolódó tanúsítványok területi megoszlása, %
Tanúsítvánnyal rendelkező lakások aránya, %
Budapest
961 061
21,0
53 291
19,1
5,5
Pest
519 420
11,3
32 819
11,8
6,3
Közép-Dunántúl
474 371
10,4
29 652
10,6
6,3
Nyugat-Dunántúl
457 369
10,0
26 208
9,4
5,7
Dél-Dunántúl
418 847
9,1
24 947
8,9
6,0
Észak-Magyarország
510 187
11,1
36 281
13,0
7,1
Észak-Alföld
625 854
13,7
41 853
15,0
6,7
Dél-Alföld
613 429
13,4
33 969
12,2
5,5
Összesen
4 580 538
100,0
279 020
100,0
6,1
Regressziós elemzés
A korábbi, 2020-ban elvégzett vizsgálathoz képest hátrányt jelentett, hogy nem állt rendelkezésre információ a lakóházakon elvégzett felújításokról, így azokról az energiamegtakarítást eredményező munkákról sem, amelyekről a 2016. évi mikrocenzus során beszámolhattak a válaszadók. A népszámlálási információkra építő regressziószámítás (OLS) ennek következtében még a 10%-os outlierszűrés után is csak nagyjából 60% körüli arányban tudta megmagyarázni a megfigyelések varianciáját. A regressziószámításban felhasznált változókat, ezek együtthatóit és szignifikanciájukat elsősorban azért közöljük, hogy bemutassuk az egyes magyarázó változók és a lakások fajlagos primerenergia-fogyasztása közötti kapcsolat jellegét, egyúttal bemutassuk a további elemzésekben is felhasznált változókészletet. Két modell készült, külön a családi házakra és külön a társasházi lakásokra. Mindkét esetben szembetűnő, hogy a lakások energiaigényét alapvetően befolyásolja az épületek kora. Minél újabb egy lakóház, annál alacsonyabb az energiaszükséglete, és ez a különbség még a 2016–2020 és a 2020–2022 közötti épületek esetében is szembetűnő.
2. tábla
A regressziós modellek együtthatói és p-értékei
A modell magyarázóváltozói
Függő változó: fajlagos primerfogyasztás (a TNM-rendelet szerint)
Társasházmodell
R²= 0,597
Családiház-modell
R²= 0,616
B
p
B
p
Konstans
371,6
0,000
457,062
0,000
Települési fajlagos lakásár, millió forint
-7,624
0,000
-82,304
0,000
Lakás-alapterület
-0,275
0,000
-0,389
0,000
Régió (kontroll: Dél-Alföld)
Dél-Dunántúl
-26,909
0,000
-4,769
0,000
Észak-Alföld
2,625
0,000
2,257
0,001
Észak-Magyarország
-8,566
0,000
-0,940
0,192
Közép-Dunántúl
-10,509
0,000
-2,016
0,006
Nyugat-Dunántúl
-20,813
0,000
-10,907
0,000
Településtípus
Budapest
-26,556
0,000
4,390
0,000
megyeszékhely
-25,989
0,000
-8,203
0,000
város
-16,919
0,000
-1,348
0,007
Építési év (kontroll 1919 előtt)
1919–1945
-12,365
0,000
13,599
0,000
1946–1960
-42,289
0,000
16,336
0,000
1961–1980
-64,704
0,000
13,771
0,000
1981–2000
-69,075
0,000
-43,050
0,000
2001–2010
-121,199
0,000
-104,281
0,000
2011–2015
-131,618
0,000
-128,983
0,000
2016–2020
-152,124
0,000
-148,669
0,000
2021–2022
-167,467
0,000
-168,851
0,000
Falazat (kontroll: tégla)
betonfalazat
-8,260
0,000
-3,210
0,008
vályog-, fa-, egyéb falazat
-6,728
0,006
1,975
0,000
panelfalazat
-18,573
0,000
Lakások száma (kontroll: 4–12 alatt)
13 és annál több lakásos
-0,817
0,127
Fűtőanyag (kontroll: vezetékes gáz)
egyéb
-5,708
0,827
-19,338
0,140
PB-gáz
-21,534
0,729
1,150
0,912
szén
29,185
0,000
-116,043
0,055
villany
23,286
0,322
-29,646
0,106
Az épület magassága (kontroll: földszintes)
2–3 emeletes
-42,493
0,000
4 emeletes
-57,800
0,000
5 és annál több emeletes
-61,886
0,000
Van a lakásban/házban
internet
-4,004
0,000
-21,120
0,000
hőszivattyús fűtés
-12,240
0,000
11,529
0,000
klímaberendezés
-2,630
0,000
-27,286
0,000
napelem
-17,342
0,000
-97,923
0,000
napkollektor
35,626
0,000
109,706
0,000
Fűtés és fűtőanyag(ok) (kontroll: helyiségfűtés vezetékes gázzal)
elektromos árammal, helyiségenként
67,436
0,000
16,254
0,377
fával, helyiségenként
64,585
0,300
-22,693
0,000
szénnel, helyiségenként
92,726
0,135
egyéb fűtőanyaggal, helyiségenként
41,782
0,111
-28,430
0,031
hálózati (vezetékes) gázzal és elektromos árammal, helyiségenként
7,306
0,000
3,822
0,062
hálózati (vezetékes) gázzal és fával, helyiségenként
18,800
0,013
-8,270
0,000
hálózati (vezetékes) gázzal és más fűtőanyaggal, helyiségenként
-74,862
0,000
-9,531
0,359
elektromos árammal és fával, helyiségenként
62,546
0,000
7,528
0,683
elektromos árammal és más fűtőanyaggal, helyiségenként
30,641
0,133
44,448
0,006
szénnel és fával, helyiségenként
86,724
0,173
-22,511
0,000
egyéb fűtőanyagokkal, helyiségenként
62,765
0,123
10,714
0,322
központi kazánnal, elektromos árammal
47,788
0,000
25,745
0,161
központi kazánnal, fával
89,694
0,152
19,234
0,000
központi kazánnal, szénnel
18,545
0,476
144,609
0,018
központi kazánnal, egyéb fűtőanyaggal
3,475
0,011
-20,449
0,111
központi kazánnal, hálózati (vezetékes) gázzal és árammal
0,721
0,446
központi kazánnal, hálózati (vezetékes) gázzal és fával
-11,632
0,027
7,001
0,000
központi kazánnal, hálózati (vezetékes) gázzal és más fűtőanyaggal
-12,825
0,326
12,853
0,008
központi kazánnal, elektromos árammal és fával
40,628
0,004
28,431
0,123
központi kazánnal, elektromos árammal és más fűtőanyaggal
21,968
0,211
8,357
0,638
központi kazánnal, szénnel és fával
96,928
0,145
31,579
0,000
központi kazánnal, többféle egyéb fűtőanyaggal
-32,395
0,000
-11,662
0,132
távfűtés
-32,617
0,000
Melegvíz-ellátás
bojler, kazán stb.
-11,149
0,016
5,579
0,000
távvezeték
-33,375
0,000
-17,580
0,000
Magas panelépület
-5,296
0,000
1. ábra
A regressziós becslés az ismert energiaosztályú lakások 34%-ában eredményezte a mért érték szerinti energiaosztályt, további 37%-ban egy osztállyal alá- vagy fölébecsülte a kategóriát. A becslés főleg a családi házaknál teljesített rosszul, a társasházi lakásoknál az esetek 72%-ában legfeljebb egy kategóriát hibázott.
Random forest modellezés
Az energetikai tanúsítványok esetében a lineáris regressziós becslések fő korlátja, hogy a fajlagos energetikai mutató összefüggéseit az egyes lakástulajdonságokkal kizárólag lineáris formában képesek kezelni. Tudjuk például, hogy a különlegesen jó minőségű és új építésű lakások, illetve a különlegesen rossz minőségű, régi lakások mutatói sokkal jobbak vagy rosszabbak, mint egy átlagos lakásé – másként fogalmazva a megbecsülni kívánt mutatóban nem lineáris viselkedést tapasztalhatunk. Ezért olyan módszer alkalmazására kell törekedni, amelynek nincsenek ilyen jellegű implicit feltételei és korlátai. A random forest regresszió olyan gépi tanulási módszer, amely különösen jól alkalmazható ebben az esetben. Lényege, hogy nem egyetlen döntési fát használ, hanem sok százat vagy ezret egyidejűleg, majd ezek eredményeit átlagolja, mintha egy szakértői bizottság minden tagja külön-külön értékelné az épületet, azután közös véleményt alakítanának ki. Ez a megközelítés kifejezetten alkalmas olyan energiahatékonysági értékelési rendszerekhez, ahol a pontok kiosztása feltételes logikai mintákat követ, nem pedig egyszerű lineáris együtthatókat. Az algoritmus természetes módon fedezi fel ezeket a rejtett pontozási küszöbértékeket rekurzív bináris felosztással, gyakorlatilag újraépítve a mögöttes értékelési rendszert anélkül, hogy azt külön be kellene programozni. Ez azért működik jól energiahatékonysági problémáknál, mert egy épület energiafogyasztását rengeteg összetett tényező befolyásolja egyszerre: a mérete, a szigetelése, a fűtési rendszere, az elhelyezkedése és ezek bonyolult kölcsönhatásai. A random forest képes felfedezni ezeket a rejtett összefüggéseket anélkül, hogy előre meg kellene mondanunk, milyen matematikai képlet írja le őket. Ráadásul a módszer jól tolerálja, ha egyes tulajdonságok szorosan összefüggenek egymással (például a ház kora és falazata), és problémamentesen kezeli a különböző típusú adatokat – legyen szó számokról, kategóriákról vagy igen/nem válaszokról.
A random forest modellünkben ugyanazokat a lakástulajdonságokat és földrajzi változókat használtuk, mint a lineáris regressziós modell esetében. Mivel az ilyen bonyolult, sok paraméteres modellek esetében fennáll a túlillesztés veszélye (az, hogy azok a minták, amelyek az adatunkat meghatározzák, túlzott pontossággal, így alig általánosíthatóan kerülnek feldolgozásra a modell által), keresztvalidációt alkalmaztunk. Az adatunkból több partíciót is készítettünk, amelyekre egy-egy modellt illesztettünk, és ezeket a különböző modelleket hasonlítottuk össze predikciós teljesítményük, pontosságuk alapján. A végső modellt végül felhasználtuk arra, hogy minden ismert energetikai tanúsítványú lakásra becslést adjunk, majd ezeket a becsléseket összehasonlítottuk a valós értékekkel. Az összehasonlítást az egyéni lakások szintjén is és különböző területi egységek átlagaiban is megtettük. A következő ábra megmutatja, hogy milyen összefüggés van az egyéni lakások sokaságában a megfigyelt és a prediktált energiaigények között. A grafikonon a vízszintes tengelyen láthatók a megfigyelt, a függőlegesen a becsült értékek. A grafikon területe cellákra van osztva, ezeknek a celláknak a színe azt jelzi, hogy hány lakás esik a területükre – ha világosak, akkor sok, ha sötétek, akkor kevés (akár 1 darab). Látható, hogy a lakások jelentős részében a megfigyelt és becsült értékek nagyon közel esnek egymáshoz, tehát a becslés jól működik. Ugyanakkor kevés lakás nagymértékben szóródik az egyenlőséget jelző vonal két oldalán, tehát vannak olyan lakások, amelyek esetében a modellünk hibázik, akár az átlagosnál nagyobb mértékben is. Az ilyen eltérések tipikusan az olyan esetekben a legnagyobbak, ahol a megfigyelt pontszám különlegesen magas (a lakás szélsőségesen kevéssé energiahatékony), és ezt a modell nem képes megbecsülni. Az ilyen esetekben is rossz (esetünkben magas) értéket becsül a modell, de nem elég rosszat. Általában elmondható, hogy ilyen mennyiségű és változatosságú lakás esetén ilyen szóródás várható, és a fő kritérium, hogy a lakások túlnyomó többsége esetében legyen kicsi a becslési pontatlanság esetünkben fennáll.
2. ábra
Amennyiben az egyes lakások energetikai hatékonyságát nem a folytonos mutatóban, hanem a kiszámított energetikai kategóriákban mérjük, jól látható a mért és a becsült értékek ÉKM-rendelet szerinti besorolásának eltérése. A random forest modell a kategóriákat nagyobb pontossággal találta el, mint az OLS. Az is észrevehető, hogy mindkét számítás több lakás esetében becsült a megfigyelt értéknél valamivel rosszabb energetikai kategóriát, mint a valós érték.
3. ábra
Ugyanakkor a számítások célja nem az, hogy egyes lakások energiaigényét megállapítsuk, hanem hogy területi egységek (vármegyék, régiók) vagy egyéb csoportok értékelését képesek legyünk pontosan megbecsülni. Fontos hangsúlyozni, hogy a vármegye mint prediktorváltozó a modell része, így a nagy eltérés azt mutatná, hogy a modellünk nem működik. Ez nem áll fenn, sok vármegye-lakástípus kombináció esetében az átlagok eltérései a tizedesjegy-tartományban találhatók, és a legnagyobb eltérések sem két számjegyűek.
3. tábla
Megfigyelt és becsült értékek vármegyei szintű átlagai épülettípus szerint, ÉKM, 2022
Vármegye
Családi ház
Társasház
tanúsított érték
becsült érték
tanúsított érték
becsült érték
Bács-Kiskun
311,1
316,7
190,7
190,9
Baranya
299,5
297,7
145,6
146,8
Békés
335,0
336,7
210,8
211,6
Borsod-Abaúj-Zemplén
327,7
330,8
180,9
180,3
Csongrád-Csanád
240,4
241,9
206,4
206,9
Fejér
308,9
305,7
182,0
181,1
Budapest
291,4
293,6
172,8
173,4
Győr-Moson-Sopron
262,0
263,2
166,6
167,5
Hajdú-Bihar
280,6
284,4
175,5
175,5
Heves
339,2
336,8
193,4
195,3
Jász-Nagykun-Szolnok
353,9
348,6
210,0
206,7
Komárom-Esztergom
294,8
294,2
194,2
190,1
Nógrád
359,7
358,7
218,0
221,2
Pest
262,6
260,3
184,5
185,4
Somogy
323,5
318,8
191,7
192,6
Szabolcs-Szatmár-Bereg
327,4
329,2
159,6
164,1
Tolna
311,9
323,4
170,2
173,1
Vas
290,9
298,7
191,5
192,3
Veszprém
296,2
295,7
174,6
177,5
Zala
309,7
306,6
173,2
175,8
Mivel a vármegyére utaló információ a modellünk része, az erre vonatkozó becslési pontosság még nem bizonyíték arra, hogy területi egységekre jól prediktál a modell olyan esetekben is, amiket nem ismer. A járások vizsgálata értékesebb teszt ezt a prediktív képességet eldönteni, hiszen a járást nem vontuk be változóként a modell illesztése során, így az egyes járások összetételét nem is tanulhatta meg az algoritmus. A megfigyelt és a becsült pontszámok járási átlagaiból vett különbségek eloszlásából látható, hogy a különbségek itt már jóval nagyobb tartományban mozognak, mint a vármegyék esetében. Ugyanakkor szembetűnő, hogy 75 járás esetében a különbség –2 és +4 kWh/m²/a közé esik, ami különösen jó modellműködést mutat, hiszen az energetikai pontszám terjedelme a többszázas léptéket éri el. A járások túlnyomó részében, a 198 járás közül 144-ben az eltérés –9 és +14 kWh/m²/a közé esik, ami szintén jó teljesítmény. Csak néhány olyan járás van, ahol a modellünk ennél nagyobb eltérést mutat. Ezek általában olyan járások, ahol a lakáspiaci forgalom alacsony, így kevés energetikai tanúsítvány azonosítható, ezért a megfigyelt tanúsítványok átlagos értéke is bizonytalanabb. Ezek a járások tipikusan falusiasak, átlag alatti lakásállománnyal, szegényebb régiókban. Eredményeink megmutatják, hogy miért fontos fenntartásokkal kezelni az apró területi egységekre történő becslést: minél kisebb egy területi egység, annál nagyobb az esélye, hogy olyan speciális körülmények jellemzik, amelyek a teljes sokaságból nem általánosíthatók, ráadásul annál kevesebb lehet a megfigyelések száma is, és ez a két faktor sok esetben együtt jár.
4. ábra
Az a jelenség, hogy az egyes épületekre vonatkozó előrejelzések jelentős hibaszélességet mutatnak, ugyanakkor csoportosítva – például járások, vármegyék vagy régiók szintjén – feltűnően közel kerülnek a valós értékekhez, a random forest modellek egyik kulcsfontosságú erősségét hangsúlyozza az energiahatékonyság előrejelzésében. Ez a statisztikai viselkedés a modell kiegyensúlyozott hibaeloszlásából ered, ahol az előrejelzési hibák nem szisztematikusan torzulnak egy bizonyos irányba, hanem szimmetrikusan oszlanak el a valós értékek körül. Amikor ezeket az előrejelzéseket regionális szinten összesítjük, a pozitív és a negatív hibák hatékonyan kiegyenlítik egymást, olyan átlagokat produkálva, amelyek 1-2 pontnyi távolságra vannak a megfigyelt értékektől egy többszázas skálán, ami figyelemre méltó pontosság. Ez a példa azt mutatja, hogy a random forest kiváló eszköz a lakóépület-jellemzők és energiafogyasztás közötti makroszintű kapcsolatok megragadásában, miközben egyedi szinten nagyobb bizonytalanságot mutat. Ezek a tulajdonságok a modellt különösen értékessé teszik szakpolitikai tervezéshez, regionális energiahatékonysági értékeléshez és trendanalízishez, még akkor is, ha az egyedi épület-előrejelzések nagyobb változékonyságot hordoznak.
Módszertani információk
A felhasznált adatállományok
Az LTK által kezelt energiatanúsítvány-adatbázist a KSH az OSAP 2561 sz. adatátvétel keretében kapja meg. Évente mintegy 130–150 ezer lakás felmérése készül el, amelyek részletes dokumentációját a tanúsítást készítő szakemberek feltöltik az LTK rendszerébe. 2023 végén a tanúsítási rendszer megváltozott, a régi és az új rendszer között nincs közvetlen átváltási lehetőség. Ezért úgy döntöttünk, hogy az új rendszerben előállt tanúsítványokat nem használjuk fel, de hogy minél több lakásról rendelkezzünk tanúsított energiaigény-adattal, a népszámlálást megelőző két évben kiadott tanúsítványokat is figyelembe vettük, tehát a 2020 és 2023 közötti időszak energiatanúsítvány-adatait használtuk. Ezeket az adatokat a rendelkezésre álló részletes címinformációk alapján kapcsoltuk össze a népszámláláskor regisztrált címekkel, és ezeken keresztül a népszámlálási lakásadatokkal.
Elsőként az átvett energetikai tanúsítványok címeihez hozzárendeltük a KSH címregiszterének címazonosítóit. Ez a művelet 67%-ban volt sikeres: a négy évből rendelkezésre álló tanúsítványok közül majdnem 370 ezer kapott albetétes szintig címazonosítót. Ezek között mintegy 35 ezer tanúsítvány duplikátumnak bizonyult, az adott időszakban ugyanarra a lakásra többször is elkészült. A régebbi tanúsítványok elhagyásával végül 335 ezer rekordot tudtunk felhasználni.
Ezután következett a 2022. évi népszámlálási lakásállomány-táblával való összekapcsolás, ami ugyanúgy a címazonosítók mentén történt. A 335 ezer rekordból 279 ezer lakáshoz, a közel 4,6 millió lakás 6,5%-ához sikerült hozzárendelnünk energiatanúsítványt. A kapcsolódó rekordok területi megoszlása többnyire jól követi a népszámlálási lakásállomány régiós eloszlását, bár Budapesten a többlakásos épületek címének bonyolultsága (épület, lépcsőház, emelet, ajtó) kissé rontotta a találati esélyeket a jobbára családi házas területek egyszerűbb címzésű épületeihez képest. Ezzel együtt sikerült elérni, hogy mindegyik régióban 5%-ot meghaladó arányban álljon rendelkezésünkre energiatanúsítvány.
| Régió | A lakások száma (népszámlálás, 2022) | A lakások területi megoszlása, % | Lakásrekordhoz kapcsolt energetikai tanúsítványok száma | A kapcsolódó tanúsítványok területi megoszlása, % | Tanúsítvánnyal rendelkező lakások aránya, % |
|---|---|---|---|---|---|
| Budapest | 961 061 | 21,0 | 53 291 | 19,1 | 5,5 |
| Pest | 519 420 | 11,3 | 32 819 | 11,8 | 6,3 |
| Közép-Dunántúl | 474 371 | 10,4 | 29 652 | 10,6 | 6,3 |
| Nyugat-Dunántúl | 457 369 | 10,0 | 26 208 | 9,4 | 5,7 |
| Dél-Dunántúl | 418 847 | 9,1 | 24 947 | 8,9 | 6,0 |
| Észak-Magyarország | 510 187 | 11,1 | 36 281 | 13,0 | 7,1 |
| Észak-Alföld | 625 854 | 13,7 | 41 853 | 15,0 | 6,7 |
| Dél-Alföld | 613 429 | 13,4 | 33 969 | 12,2 | 5,5 |
| Összesen | 4 580 538 | 100,0 | 279 020 | 100,0 | 6,1 |
Regressziós elemzés
A korábbi, 2020-ban elvégzett vizsgálathoz képest hátrányt jelentett, hogy nem állt rendelkezésre információ a lakóházakon elvégzett felújításokról, így azokról az energiamegtakarítást eredményező munkákról sem, amelyekről a 2016. évi mikrocenzus során beszámolhattak a válaszadók. A népszámlálási információkra építő regressziószámítás (OLS) ennek következtében még a 10%-os outlierszűrés után is csak nagyjából 60% körüli arányban tudta megmagyarázni a megfigyelések varianciáját. A regressziószámításban felhasznált változókat, ezek együtthatóit és szignifikanciájukat elsősorban azért közöljük, hogy bemutassuk az egyes magyarázó változók és a lakások fajlagos primerenergia-fogyasztása közötti kapcsolat jellegét, egyúttal bemutassuk a további elemzésekben is felhasznált változókészletet. Két modell készült, külön a családi házakra és külön a társasházi lakásokra. Mindkét esetben szembetűnő, hogy a lakások energiaigényét alapvetően befolyásolja az épületek kora. Minél újabb egy lakóház, annál alacsonyabb az energiaszükséglete, és ez a különbség még a 2016–2020 és a 2020–2022 közötti épületek esetében is szembetűnő.
| A modell magyarázóváltozói Függő változó: fajlagos primerfogyasztás (a TNM-rendelet szerint) |
Társasházmodell R²= 0,597 |
Családiház-modell R²= 0,616 |
||||
|---|---|---|---|---|---|---|
| B | p | B | p | |||
| Konstans | 371,6 | 0,000 | 457,062 | 0,000 | ||
| Települési fajlagos lakásár, millió forint | -7,624 | 0,000 | -82,304 | 0,000 | ||
| Lakás-alapterület | -0,275 | 0,000 | -0,389 | 0,000 | ||
| Régió (kontroll: Dél-Alföld) | ||||||
| Dél-Dunántúl | -26,909 | 0,000 | -4,769 | 0,000 | ||
| Észak-Alföld | 2,625 | 0,000 | 2,257 | 0,001 | ||
| Észak-Magyarország | -8,566 | 0,000 | -0,940 | 0,192 | ||
| Közép-Dunántúl | -10,509 | 0,000 | -2,016 | 0,006 | ||
| Nyugat-Dunántúl | -20,813 | 0,000 | -10,907 | 0,000 | ||
| Településtípus | ||||||
| Budapest | -26,556 | 0,000 | 4,390 | 0,000 | ||
| megyeszékhely | -25,989 | 0,000 | -8,203 | 0,000 | ||
| város | -16,919 | 0,000 | -1,348 | 0,007 | ||
| Építési év (kontroll 1919 előtt) | ||||||
| 1919–1945 | -12,365 | 0,000 | 13,599 | 0,000 | ||
| 1946–1960 | -42,289 | 0,000 | 16,336 | 0,000 | ||
| 1961–1980 | -64,704 | 0,000 | 13,771 | 0,000 | ||
| 1981–2000 | -69,075 | 0,000 | -43,050 | 0,000 | ||
| 2001–2010 | -121,199 | 0,000 | -104,281 | 0,000 | ||
| 2011–2015 | -131,618 | 0,000 | -128,983 | 0,000 | ||
| 2016–2020 | -152,124 | 0,000 | -148,669 | 0,000 | ||
| 2021–2022 | -167,467 | 0,000 | -168,851 | 0,000 | ||
| Falazat (kontroll: tégla) | ||||||
| betonfalazat | -8,260 | 0,000 | -3,210 | 0,008 | ||
| vályog-, fa-, egyéb falazat | -6,728 | 0,006 | 1,975 | 0,000 | ||
| panelfalazat | -18,573 | 0,000 | ||||
| Lakások száma (kontroll: 4–12 alatt) | ||||||
| 13 és annál több lakásos | -0,817 | 0,127 | ||||
| Fűtőanyag (kontroll: vezetékes gáz) | ||||||
| egyéb | -5,708 | 0,827 | -19,338 | 0,140 | ||
| PB-gáz | -21,534 | 0,729 | 1,150 | 0,912 | ||
| szén | 29,185 | 0,000 | -116,043 | 0,055 | ||
| villany | 23,286 | 0,322 | -29,646 | 0,106 | ||
| Az épület magassága (kontroll: földszintes) | ||||||
| 2–3 emeletes | -42,493 | 0,000 | ||||
| 4 emeletes | -57,800 | 0,000 | ||||
| 5 és annál több emeletes | -61,886 | 0,000 | ||||
| Van a lakásban/házban | ||||||
| internet | -4,004 | 0,000 | -21,120 | 0,000 | ||
| hőszivattyús fűtés | -12,240 | 0,000 | 11,529 | 0,000 | ||
| klímaberendezés | -2,630 | 0,000 | -27,286 | 0,000 | ||
| napelem | -17,342 | 0,000 | -97,923 | 0,000 | ||
| napkollektor | 35,626 | 0,000 | 109,706 | 0,000 | ||
| Fűtés és fűtőanyag(ok) (kontroll: helyiségfűtés vezetékes gázzal) | ||||||
| elektromos árammal, helyiségenként | 67,436 | 0,000 | 16,254 | 0,377 | ||
| fával, helyiségenként | 64,585 | 0,300 | -22,693 | 0,000 | ||
| szénnel, helyiségenként | 92,726 | 0,135 | ||||
| egyéb fűtőanyaggal, helyiségenként | 41,782 | 0,111 | -28,430 | 0,031 | ||
| hálózati (vezetékes) gázzal és elektromos árammal, helyiségenként | 7,306 | 0,000 | 3,822 | 0,062 | ||
| hálózati (vezetékes) gázzal és fával, helyiségenként | 18,800 | 0,013 | -8,270 | 0,000 | ||
| hálózati (vezetékes) gázzal és más fűtőanyaggal, helyiségenként | -74,862 | 0,000 | -9,531 | 0,359 | ||
| elektromos árammal és fával, helyiségenként | 62,546 | 0,000 | 7,528 | 0,683 | ||
| elektromos árammal és más fűtőanyaggal, helyiségenként | 30,641 | 0,133 | 44,448 | 0,006 | ||
| szénnel és fával, helyiségenként | 86,724 | 0,173 | -22,511 | 0,000 | ||
| egyéb fűtőanyagokkal, helyiségenként | 62,765 | 0,123 | 10,714 | 0,322 | ||
| központi kazánnal, elektromos árammal | 47,788 | 0,000 | 25,745 | 0,161 | ||
| központi kazánnal, fával | 89,694 | 0,152 | 19,234 | 0,000 | ||
| központi kazánnal, szénnel | 18,545 | 0,476 | 144,609 | 0,018 | ||
| központi kazánnal, egyéb fűtőanyaggal | 3,475 | 0,011 | -20,449 | 0,111 | ||
| központi kazánnal, hálózati (vezetékes) gázzal és árammal | 0,721 | 0,446 | ||||
| központi kazánnal, hálózati (vezetékes) gázzal és fával | -11,632 | 0,027 | 7,001 | 0,000 | ||
| központi kazánnal, hálózati (vezetékes) gázzal és más fűtőanyaggal | -12,825 | 0,326 | 12,853 | 0,008 | ||
| központi kazánnal, elektromos árammal és fával | 40,628 | 0,004 | 28,431 | 0,123 | ||
| központi kazánnal, elektromos árammal és más fűtőanyaggal | 21,968 | 0,211 | 8,357 | 0,638 | ||
| központi kazánnal, szénnel és fával | 96,928 | 0,145 | 31,579 | 0,000 | ||
| központi kazánnal, többféle egyéb fűtőanyaggal | -32,395 | 0,000 | -11,662 | 0,132 | ||
| távfűtés | -32,617 | 0,000 | ||||
| Melegvíz-ellátás | bojler, kazán stb. | -11,149 | 0,016 | 5,579 | 0,000 | |
| távvezeték | -33,375 | 0,000 | -17,580 | 0,000 | ||
| Magas panelépület | -5,296 | 0,000 | ||||
A regressziós becslés az ismert energiaosztályú lakások 34%-ában eredményezte a mért érték szerinti energiaosztályt, további 37%-ban egy osztállyal alá- vagy fölébecsülte a kategóriát. A becslés főleg a családi házaknál teljesített rosszul, a társasházi lakásoknál az esetek 72%-ában legfeljebb egy kategóriát hibázott.
Random forest modellezés
Az energetikai tanúsítványok esetében a lineáris regressziós becslések fő korlátja, hogy a fajlagos energetikai mutató összefüggéseit az egyes lakástulajdonságokkal kizárólag lineáris formában képesek kezelni. Tudjuk például, hogy a különlegesen jó minőségű és új építésű lakások, illetve a különlegesen rossz minőségű, régi lakások mutatói sokkal jobbak vagy rosszabbak, mint egy átlagos lakásé – másként fogalmazva a megbecsülni kívánt mutatóban nem lineáris viselkedést tapasztalhatunk. Ezért olyan módszer alkalmazására kell törekedni, amelynek nincsenek ilyen jellegű implicit feltételei és korlátai. A random forest regresszió olyan gépi tanulási módszer, amely különösen jól alkalmazható ebben az esetben. Lényege, hogy nem egyetlen döntési fát használ, hanem sok százat vagy ezret egyidejűleg, majd ezek eredményeit átlagolja, mintha egy szakértői bizottság minden tagja külön-külön értékelné az épületet, azután közös véleményt alakítanának ki. Ez a megközelítés kifejezetten alkalmas olyan energiahatékonysági értékelési rendszerekhez, ahol a pontok kiosztása feltételes logikai mintákat követ, nem pedig egyszerű lineáris együtthatókat. Az algoritmus természetes módon fedezi fel ezeket a rejtett pontozási küszöbértékeket rekurzív bináris felosztással, gyakorlatilag újraépítve a mögöttes értékelési rendszert anélkül, hogy azt külön be kellene programozni. Ez azért működik jól energiahatékonysági problémáknál, mert egy épület energiafogyasztását rengeteg összetett tényező befolyásolja egyszerre: a mérete, a szigetelése, a fűtési rendszere, az elhelyezkedése és ezek bonyolult kölcsönhatásai. A random forest képes felfedezni ezeket a rejtett összefüggéseket anélkül, hogy előre meg kellene mondanunk, milyen matematikai képlet írja le őket. Ráadásul a módszer jól tolerálja, ha egyes tulajdonságok szorosan összefüggenek egymással (például a ház kora és falazata), és problémamentesen kezeli a különböző típusú adatokat – legyen szó számokról, kategóriákról vagy igen/nem válaszokról.
A random forest modellünkben ugyanazokat a lakástulajdonságokat és földrajzi változókat használtuk, mint a lineáris regressziós modell esetében. Mivel az ilyen bonyolult, sok paraméteres modellek esetében fennáll a túlillesztés veszélye (az, hogy azok a minták, amelyek az adatunkat meghatározzák, túlzott pontossággal, így alig általánosíthatóan kerülnek feldolgozásra a modell által), keresztvalidációt alkalmaztunk. Az adatunkból több partíciót is készítettünk, amelyekre egy-egy modellt illesztettünk, és ezeket a különböző modelleket hasonlítottuk össze predikciós teljesítményük, pontosságuk alapján. A végső modellt végül felhasználtuk arra, hogy minden ismert energetikai tanúsítványú lakásra becslést adjunk, majd ezeket a becsléseket összehasonlítottuk a valós értékekkel. Az összehasonlítást az egyéni lakások szintjén is és különböző területi egységek átlagaiban is megtettük. A következő ábra megmutatja, hogy milyen összefüggés van az egyéni lakások sokaságában a megfigyelt és a prediktált energiaigények között. A grafikonon a vízszintes tengelyen láthatók a megfigyelt, a függőlegesen a becsült értékek. A grafikon területe cellákra van osztva, ezeknek a celláknak a színe azt jelzi, hogy hány lakás esik a területükre – ha világosak, akkor sok, ha sötétek, akkor kevés (akár 1 darab). Látható, hogy a lakások jelentős részében a megfigyelt és becsült értékek nagyon közel esnek egymáshoz, tehát a becslés jól működik. Ugyanakkor kevés lakás nagymértékben szóródik az egyenlőséget jelző vonal két oldalán, tehát vannak olyan lakások, amelyek esetében a modellünk hibázik, akár az átlagosnál nagyobb mértékben is. Az ilyen eltérések tipikusan az olyan esetekben a legnagyobbak, ahol a megfigyelt pontszám különlegesen magas (a lakás szélsőségesen kevéssé energiahatékony), és ezt a modell nem képes megbecsülni. Az ilyen esetekben is rossz (esetünkben magas) értéket becsül a modell, de nem elég rosszat. Általában elmondható, hogy ilyen mennyiségű és változatosságú lakás esetén ilyen szóródás várható, és a fő kritérium, hogy a lakások túlnyomó többsége esetében legyen kicsi a becslési pontatlanság esetünkben fennáll.
Amennyiben az egyes lakások energetikai hatékonyságát nem a folytonos mutatóban, hanem a kiszámított energetikai kategóriákban mérjük, jól látható a mért és a becsült értékek ÉKM-rendelet szerinti besorolásának eltérése. A random forest modell a kategóriákat nagyobb pontossággal találta el, mint az OLS. Az is észrevehető, hogy mindkét számítás több lakás esetében becsült a megfigyelt értéknél valamivel rosszabb energetikai kategóriát, mint a valós érték.
Ugyanakkor a számítások célja nem az, hogy egyes lakások energiaigényét megállapítsuk, hanem hogy területi egységek (vármegyék, régiók) vagy egyéb csoportok értékelését képesek legyünk pontosan megbecsülni. Fontos hangsúlyozni, hogy a vármegye mint prediktorváltozó a modell része, így a nagy eltérés azt mutatná, hogy a modellünk nem működik. Ez nem áll fenn, sok vármegye-lakástípus kombináció esetében az átlagok eltérései a tizedesjegy-tartományban találhatók, és a legnagyobb eltérések sem két számjegyűek.
| Vármegye | Családi ház | Társasház | ||
|---|---|---|---|---|
| tanúsított érték | becsült érték | tanúsított érték | becsült érték | |
| Bács-Kiskun | 311,1 | 316,7 | 190,7 | 190,9 |
| Baranya | 299,5 | 297,7 | 145,6 | 146,8 |
| Békés | 335,0 | 336,7 | 210,8 | 211,6 |
| Borsod-Abaúj-Zemplén | 327,7 | 330,8 | 180,9 | 180,3 |
| Csongrád-Csanád | 240,4 | 241,9 | 206,4 | 206,9 |
| Fejér | 308,9 | 305,7 | 182,0 | 181,1 |
| Budapest | 291,4 | 293,6 | 172,8 | 173,4 |
| Győr-Moson-Sopron | 262,0 | 263,2 | 166,6 | 167,5 |
| Hajdú-Bihar | 280,6 | 284,4 | 175,5 | 175,5 |
| Heves | 339,2 | 336,8 | 193,4 | 195,3 |
| Jász-Nagykun-Szolnok | 353,9 | 348,6 | 210,0 | 206,7 |
| Komárom-Esztergom | 294,8 | 294,2 | 194,2 | 190,1 |
| Nógrád | 359,7 | 358,7 | 218,0 | 221,2 |
| Pest | 262,6 | 260,3 | 184,5 | 185,4 |
| Somogy | 323,5 | 318,8 | 191,7 | 192,6 |
| Szabolcs-Szatmár-Bereg | 327,4 | 329,2 | 159,6 | 164,1 |
| Tolna | 311,9 | 323,4 | 170,2 | 173,1 |
| Vas | 290,9 | 298,7 | 191,5 | 192,3 |
| Veszprém | 296,2 | 295,7 | 174,6 | 177,5 |
| Zala | 309,7 | 306,6 | 173,2 | 175,8 |
Mivel a vármegyére utaló információ a modellünk része, az erre vonatkozó becslési pontosság még nem bizonyíték arra, hogy területi egységekre jól prediktál a modell olyan esetekben is, amiket nem ismer. A járások vizsgálata értékesebb teszt ezt a prediktív képességet eldönteni, hiszen a járást nem vontuk be változóként a modell illesztése során, így az egyes járások összetételét nem is tanulhatta meg az algoritmus. A megfigyelt és a becsült pontszámok járási átlagaiból vett különbségek eloszlásából látható, hogy a különbségek itt már jóval nagyobb tartományban mozognak, mint a vármegyék esetében. Ugyanakkor szembetűnő, hogy 75 járás esetében a különbség –2 és +4 kWh/m²/a közé esik, ami különösen jó modellműködést mutat, hiszen az energetikai pontszám terjedelme a többszázas léptéket éri el. A járások túlnyomó részében, a 198 járás közül 144-ben az eltérés –9 és +14 kWh/m²/a közé esik, ami szintén jó teljesítmény. Csak néhány olyan járás van, ahol a modellünk ennél nagyobb eltérést mutat. Ezek általában olyan járások, ahol a lakáspiaci forgalom alacsony, így kevés energetikai tanúsítvány azonosítható, ezért a megfigyelt tanúsítványok átlagos értéke is bizonytalanabb. Ezek a járások tipikusan falusiasak, átlag alatti lakásállománnyal, szegényebb régiókban. Eredményeink megmutatják, hogy miért fontos fenntartásokkal kezelni az apró területi egységekre történő becslést: minél kisebb egy területi egység, annál nagyobb az esélye, hogy olyan speciális körülmények jellemzik, amelyek a teljes sokaságból nem általánosíthatók, ráadásul annál kevesebb lehet a megfigyelések száma is, és ez a két faktor sok esetben együtt jár.
Az a jelenség, hogy az egyes épületekre vonatkozó előrejelzések jelentős hibaszélességet mutatnak, ugyanakkor csoportosítva – például járások, vármegyék vagy régiók szintjén – feltűnően közel kerülnek a valós értékekhez, a random forest modellek egyik kulcsfontosságú erősségét hangsúlyozza az energiahatékonyság előrejelzésében. Ez a statisztikai viselkedés a modell kiegyensúlyozott hibaeloszlásából ered, ahol az előrejelzési hibák nem szisztematikusan torzulnak egy bizonyos irányba, hanem szimmetrikusan oszlanak el a valós értékek körül. Amikor ezeket az előrejelzéseket regionális szinten összesítjük, a pozitív és a negatív hibák hatékonyan kiegyenlítik egymást, olyan átlagokat produkálva, amelyek 1-2 pontnyi távolságra vannak a megfigyelt értékektől egy többszázas skálán, ami figyelemre méltó pontosság. Ez a példa azt mutatja, hogy a random forest kiváló eszköz a lakóépület-jellemzők és energiafogyasztás közötti makroszintű kapcsolatok megragadásában, miközben egyedi szinten nagyobb bizonytalanságot mutat. Ezek a tulajdonságok a modellt különösen értékessé teszik szakpolitikai tervezéshez, regionális energiahatékonysági értékeléshez és trendanalízishez, még akkor is, ha az egyedi épület-előrejelzések nagyobb változékonyságot hordoznak.