HPC Portré-Dr. Bálint Balázs
Hogyan ismerte meg a szuperszámítástechnikát?
A Szegedi Biológiai Kutatóközpont Gomba Genomikai csoportja révén, ami Nagy László vezetésével összehasonlító genomikát végez. A szuperszámítógépek „előszobáját” jelentő klaszterük adminisztrációja lett a feladatom. Ez a mára 11 gépet felsorakoztató klaszter az első vonala az általunk végzett bioinformatikai munkának. 2018-ban a Joint Genome Institute közreműködésével kaptunk gépidőt a kaliforniai NERSC (National Energy Research Scientific Computing Center) a TOP500 ranglistán előkelő helyen álló szuperszámítógépén. Erre azért volt feltétlenül szükség, mert be akartuk bizonyítani, hogy az összehasonlító genomikai programunk nagyon nagy mennyiségű adattal, ezer genommal is használható. A harmadik lábat a KIFÜ szuperszámítógépei jelentik, de amikor teszteltük, nem találtunk megoldást, mert az a szekvenciaillesztő program, amit használni szerettünk volna, nem futott rajta. Ezen a Komondor érkezése biztosan változtatni fog.
Mi volt az első szuperszámítógépes munkája, élménye?
Számomra nincs éles határ a sima számítógép és a szuperszámítógép között, mert az alapjuk közös. Ha így közelítjük meg, akkor 2006 környékén volt az első erőforrásigényes feladatom, ami biológiából indult. Egy baktérium genomszekvenciáját akartuk felépíteni, ami akkoriban különösen nagy kihívás volt. Így nyílt lehetőségem arra, hogy bioinformatikával, programozással, Linuxszal foglalkozzak, ami azóta napi rutinom lett. Ebben számomra az az izgalmas, hogy tulajdonképpen ugyanazokat az eszköztárakat használom, kényelmesen otthonról, szóval olyan ez, mint egy több járműkategóriára érvényes jogosítvány. HPC-t 2018-ban használtam először, az említett, ezer genommal összefüggő szekvenciaillesztési feladat során.
Ön mire használja a szuperszámítógépet?
Evolúciókutatásra. Nagyon leegyszerűsítve, az élőlények katalógusa a genom, ami leírja, hogy milyen „alkatrészek" vannak jelen egy-egy élőlényben. Az örökítőanyag információtartalmát fehérjeszinten is lehet katalogizálni. Tehát, amikor egy örökítőanyag bázissorrendje végig van olvasva, és azon a fehérjekódoló részek azonosítva vannak, minden egyes élőlényhez hozzárendelhető minden fehérje, ami előfordul benne. Ezek a katalógusok segítenek abban, hogy az élőlények és fehérjecsaládok evolúciós történetét jobban megismerhessük. Ehhez nyilvános adatbázisokból összegyűjtöttünk több mint ezer eukarióta élőlényt, bennük fajonként legalább 2000, legfeljebb 50000 fehérjével, és az egymásra leginkább hasonlító fehérjékből csoportokat készítettünk. Ezután minden fehérjecsaládra felrajzolható egy-egy leszármazási ábra, a közös családba sorolt tartozó fehérjék szekvenciái alapján. Ugyancsak készül egy faj leszármazási ábra, ami a fajokat köti össze. Ezek az adatok összegezve kirajzolnak egy evolúciós történetet, ami elmeséli, hogy milyen események történhettek valamikor a nagyon régen a múltban, amik elvezettek a ma megfigyelhető biológiai sokféleséghez.
Tudna konkrét példát mondani?
Vannak olyan, különféle szabályozási funkciókat betöltő fehérjék, amik állatokban nagyon gyakran előfordulnak, de nincsenek jelen például a gombákban. Érdekes kérdés, hogy ez miért alakult így, mikor jelent meg, vagy mikor veszett ki egy-egy funkció az evolúciótörténet során. Ha egy fehérjekészlet, ami az állatokban az egyedfejlődés egy konkrét lépéséért felelős, teljesen hiányzik a gombákból, hogyan oldják meg a gombák ugyanazt a feladatot? Nagyon érdekes, ahogy egy konkrét feladatra „szakosodik” egy-egy állati sejt: például ahogyan hámsejt lesz belőle. Ehhez egy jól szabályozott fejlődési folyamaton megy keresztül. Miközben halad a hámsejtté válás útján, egy dolog már az elején végérvényesen eldől: izomsejt vagy májsejt nem lehet belőle. Azt, hogy azok a funkciók, amikre a továbbiakban nincs már szükség, ne kapcsolódhassanak be később, a DNS-metiláció biztosítja. Ez egy szabályozási rendszer, ami úgy, ahogy van, hiányzik a gombákból. Mégis van egyedfejlődésük, különböző sejttípusok jelennek meg, elkülöníthetőek a gomba különféle részei. Izgalmas kérdés, hogy ha ez a fontos szabályozás nincs jelen, találunk-e valami mást, ami átvette ezt a feladatot. A gombákra jellemző fehérjecsaládok evolúciótörténetének megismerésével választ remélhetünk erre a kérdésre. Azt várjuk, hogy ha egy családnak kiemelt jelentősége van a gombák egyedfejlődése során, akkor annak a családnak az előfordulási gyakorisága nagyobb lesz a gombáknál, a többiekhez képest. Bizonyos, szabad szemmel megfigyelhető jelleget próbálunk megfeleltetni a háttérben meghúzódó genetikai, genomikai, proteomikai különbségeknek. Mivel az adatmennyiség óriási, itt jön a képbe a szuperszámítógép.
Hogyan hasznosíthatóak az Ön eredményei?
A munkám jelentős része alapkutatás, az evolúció kérdéseinek vizsgálata. A gyakorlatban lehet cél például nagyobb terméshozam elérése gombáknál, vagy olyan gombaváltozatok kifejlesztése, amik egyedi termőtestformát vesznek fel, és így jobban eladhatók, vagy például a spóra nélküli gomba kifejlesztése. De ha mondjuk, szeretnénk minél olcsóbban alkoholt előállítani energetikai felhasználásra, és alapanyagként bőven van fa, viszont a fában lévő lignin lebontása egyáltalán nem könnyű, ebben is a gombák tudnak segíteni.
Van olyan projektje, eredménye, ami megvalósíthatatlan lett volna szuperszámítógép nélkül?
Az egész projekt ilyen. Amivel most foglalkozunk, már megvalósítható, de messze van attól, hogy a saját számítógépklaszterünkön kiszámolható legyen. Ugyanakkor rohamléptekkel jönnek az újabb és újabb generációs berendezések, és lehet, hogy az, amihez most szuperszámítógépet használunk, tíz év múlva már egy asztali számítógépen is megoldhatóvá válik.
Van alternatívája a szuperszámítógépnek az Ön szakterületén? Megoldhatóak ezek a feladatok másképp?
Ma még nincs. A felhőben való számítást a mi esetünkben az teszi nagyon körülményessé, hogy nem tudnánk feljuttatni azt az adatmennyiséget, amivel dolgoznunk kell. Köztünk és az amerikai partner, illetve a KIFÜ szuperszámítógépe között is napokig tart az adatmozgatás. Ezt felhőbe feltölteni, hetek, hónapok. Ráadásul ezek az együttműködések anyagilag is kedvezőek, a mi alapkutatásunk nem tud piaci alapon működni, nem engedhetnénk meg magunknak, hogy ekkora kapacitásokat béreljünk.
Minden érv a HPC mellett szól?
Én úgy látom, hogy a HPC egy technikai sport, ami felvonultatja a mindenkori csúcstechnológiát. Borzasztóan drága, ráadásul alig pár év alatt idejétmúlttá válik. Ugyanakkor a HPC-világ egy elitklub, amihez érdemes csatlakozni, különben lemaradunk. Olyan kutatási területeket nyit meg, olyan technológiákat tesz lehetővé, akár a gépi tanulást, akár azt, hogy óriási adatmennyiségből dolgozzunk, ami elképzelhetetlen lenne másképp. Mostanra az adatelemzés lett a fő napirendi pont. Az 1990-es évek végén jelentették be a Human Genom Projektet, több, mint tíz évre tervezve, csillagászati költségvetéssel és hagyományos, automatizált szekvenálógépekkel. Összehasonlításképpen, ma egy jobb mobil áráért meg lehet venni egy saját teljes genomleolvasást, ami napokon belül elkészül. Az így kapott irgalmatlan mennyiségű adat rendszerezése, a releváns információk kinyerése a következő időszak feladata, ebben pedig nagyon erősen rá leszünk szorulva a szuperszámítógépekre.
Nem releváns minden információ?
A mostani munkámban a letöltött ezer genomból legalább 160-170 erősen szennyezett. Példaként tudom említeni a parafatölgyet, ahol a mintavétel során egy híres öreg fa leveléből tisztítottak örökítőanyagot, feldolgozták, majd közzétették a referenciagenomot. Közelebbről megnézve viszont kiderült, hogy valójában két genom volt összeborítva, mert a mintázott levél tömlősgombával volt elszennyezve. Ezt a szerzők szabad szemmel nem vették észre, viszont emiatt a parafatölgygenom valójában egy gomba-növény keverék. A munkám jelenleg arról szól, hogy ezeket a hibákat találjam meg és javítsam ki.
Hogy kell ezt elképzelni a gyakorlatban?
Számítógéppel megvizsgálok minden egyes fehérjét, és megpróbálom elhelyezni a fehérjetérben, megvizsgálni, hogy kik a rokonok. A referencia-adatbázisban 280 millió fehérje van, ehhez a háttérhez hozzá lehet próbálni a minket érdeklő 18 millió fehérjét, ami megfelel a vizsgált 1000 genomnak. Ott bukik ki a dolog, hogy a vizsgált „növényi" fehérje jobban hasonlít majd a gombákhoz, mint a növényekhez. Azt is lehet látni, hogy ezek a furcsán viselkedő fehérjék következetesen egy eléggé szűk gombatársaságot jelölnek meg legközelebbi rokonként. Ezekkel a szabályokkal írom a tisztítóprogramot. A projekt haszna az, hogy visszajelzést adunk a tudományos közösségeknek, mert ha így használják ezeket az adatokat, egészen bizarr eredményeket kaphatnak. Ugyanez a helyzet baktériumokkal, nagyon sok minta van velük szennyezve, és ez sem egy azonnal szembeötlő dolog.
Mennyire gyakori, hogy szennyezett genommal találkozik?
Sajnos nagyon gyakori. Különösen nehéz a tisztítási feladat akkor, amikor ugyanaz a baktérium szennyez el több rokon fajt is. Jó példa erre a Drosophila (ecetmuslica) nemzetség, a modern genetika egyik legnépszerűbb modellélőlény csoportja. Amikor ugyanaz a szennyező fehérjék több muslica genomban, is megjelenik, a rosszul felcímkézett fehérjék kölcsönösen visszaigazolják egymást. Ekkor nehéz észrevenni, hogy valójában szennyezésről van szó. Tehát az óriási adatmennyiség egyfelől áldás, mert olyan kérdéseket lehet feltenni, amik korábban megválaszolhatatlanok voltak, másrészt viszont nem szabad azonnal elhinni mindent, amit az ember lát.
Ehhez is lehet tisztítóprogramot írni?
Az elém kerülő 1000 genom keletkezéstörténetét nem ismerem, de mielőtt elkezdhetnék vele dolgozni, mindenképp le kell ellenőriznem fehérjéről fehérjére. A Drosophila genomok esetében 15-ből 3-4 baktériummal szennyezett, mert amikor a genomszekvenálási program ment, nem fektettek elég nagy hangsúlyt arra, hogy ezeket kitisztítsák az adathalmazból. Ez olyan, mint két puzzle összekeverve, de csak az egyik doboza van meg. Lesznek darabok, amik sehogy sem akarnak beleilleni a képbe. Ha szennyezett adatok alapján próbáljuk megérteni az ecetmuslicák fejlődéstörténetét, eltévedünk.
Okozott Önnek bármilyen meglepetést a szuperszámítógép?
Igen. Azokat a programokat, eljárásokat, amiket kisebb léptékben rutinszerűen használunk, nehéz belepréselni a HPC kereteibe. A HPC elképesztő számítási kapacitást biztosít, ha az adatot úgy tudjuk betáplálni, hogy a lehetőségei jól érvényesüljenek. Nyilván párhuzamos adatfeldolgozásra van szükség, nagyon precízen meg kell tervezni azt, hogyan osztjuk fel az adatokat, hogyan építjük fel a programot. Számomra ez volt az egyik legnagyobb meglepetés, hogy ez milyen nagy figyelmet igényel. Ha változtatás nélkül futtatok egy általános bioinformatikai programkódot, nem leszek elég hatékony, hiába a sok processzor, a rengeteg RAM, kifuthatok a rendelkezésemre álló időből. A másik meglepetés az volt, hogy mennyire hatékony eszköz a szuperszámítógép. Az 1000 genomos elemzés során, az egyik legnehezebb feladat a Markov klaszterezés volt. Ekkor 18 millió fehérjét rendeztünk csoportokba közel 70 milliárdnyi fehérje-fehérje hasonlóságadat alapján. Ennek a feladatnak az elvégzése a saját klaszterünkön gyakorlatilag kivitelezhetetlen lenne. A szuperszámítógépes környezetben viszont ugyanez a feladat alig 2 óra alatt elkészült!
Hogyan lehet értelmezni a kapott eredményt?
A Markov-klaszterezés eredménye egy könnyen olvasható, szöveges file, ami felsorolja a családokat, és a családba besorolt fehérjék azonosítóit. Ezzel már nem nehéz dolgozni. Maga az elemzési lépés, ahogyan a fehérje hasonlósági adatokból fehérje rokonsági gráfot készít a program, majd a csomópontok bejárása alapján fehérjecsaládokat azonosít, az számomra teljesen „fekete mágia”.
Mennyire tartja kihívásnak a szuperszámítógép használatát?
Nagyon. A biológiai adatok feldolgozása a legkegyetlenebb tortúra a szuperszámítógépen, mert van, amikor egy nagy fájlom van, amikor 200 ezer kicsi. Van olyan rész, amit egyáltalán nem lehet párhuzamosítani, van, amit remekül. Ezek a teljesen eltérő, különböző profilozhatóságú részlépések egymás után következnek, és ezeket úgy összefűzni, hogy ne menjen veszendőbe számítási kapacitás, borzasztó nehéz feladat. Az is kihívás, hogy elképesztően könnyű adatot veszíteni. Kupacokban dolgozunk fel adatokat és elképzelhető, hogy az egyik kupac észrevétlenül kiesik. Ha az ember nem ellenőrzi minden egyes ponton magát, a végeredmény könnyen lehet torz. Nagyon gyakori, hogy adatformátum-ellentmondás akad. Az egyik forrás csillaggal jelöli, hol van vége a fehérjének, a másik nem használ semmiféle „stop” jelölést. Bár hasznos a csillag, mert ez biztosít arról, hogy nem egy töredékfehérjéről van szó, létezik olyan elemzőprogram, ami „csillagokat lát” a csillagoktól, és egyáltalán nem is fut le. A szuperszámítógép használatában a legnagyobb kihívás az, hogy hatékonyan csináljuk.
Milyen gyorsan lehet megszerezni a szükséges ismereteket?
Olyan ez, mint egy idegen nyelv. Az alapszókincs gyorsan megvan, de anyanyelvi szinten megismerni a szuperszámítógépet, az egy távoli vágy.
Kinek ajánlaná a szuperszámítógép használatát?
A szuperszámítógépek a Linuxot használják, tehát fontos, hogy legyen valamilyen linuxos háttér. Ez fordítva is igaz, ha valaki szuperszámítógéppel szeretne dolgozni, nem fogja tudni elkerülni a Linuxot. Ezért olyanoknak ajánlanám, akiknek van készségük megtanulni az újat, és van késztetésük szöveges környezetben dolgozni. A szuperszámítógép nagyon messze van a kényelmes, grafikus megoldásoktól. Nem cél az, hogy szép legyen, nem cél az, hogy kényelmes legyen, minden a hatékonyságról szól. Ezzel együtt mindenkinek ajánlom, akinek olyan problémája van, ami indokolttá teszi HPC használatát.
Mi kell ahhoz, hogy valaki hatékony szuperszámítógép-felhasználó legyen?
A probléma és a lehetőségek, a gép adottságainak alapos ismerete. Szükség van a támogatást biztosító szakértők, például dr. Fekete Attila (a HPC Kompetencia Központ senior user support szakértője a szerk.) tanácsaira. El kell tudni igazodni a gép folderei között, tudni kell, milyen programok vannak előkészítve, hogyan lehet telepíteni a programot, ha arra van szükség, ismerni kell a gép felépítését. A jó tervezés a kulcs.
Miért jelentkezett Kompetencia Központ szakértői gárdájába?
Két oka van annak, amiért 2022 végéig én is szeretném a HPC KK szakértői létszámát bővíteni. Az egyik, hogy a helyi rendszeradminisztráció során kialakult bennem egy kép, hogy milyen problémák jönnek szembe felhasználói oldalról, és hogy hol vannak a szűk keresztmetszetek. A szuperszámítógép használata olyan, mint egy növény gondozása. Szüksége van különböző tápkomponensekre. Ha valamelyikből nincs elég, nem fog jól növekedni. A szuperszámítógépes környezetben az összes paramétert egymással összehangolva kell fejleszteni. Azok a tesztelések, benchmarkok, az analitikus diagnosztikai hozzáállás, amiket a saját klaszterünkön elsajátítottam, segítség lehet a Komondor üzemeltetése, a felhasználók támogatása során. A másik ok pedig az, hogy tanuljak. Ez a szakértői gárda egy elitklub, sokféle háttérrel rendelkező, érdekes tagokkal, hasznos tapasztalatokkal. Sokat tudunk egymástól is tanulni.
Mi a Kompetencia Központ legfontosabb feladata?
Két, egymástól nem elválasztható feladatot határoznék meg. Egyrészt lehetővé tenni minél több embernek, hogy megtanulja a szuperszámítógép használatát, másfelől segíteni nekik a tanulásban. Ki kell képezni azokat a szakembereket, akik a rendelkezésre álló, elképesztően drága és értékes erőforrást jól tudják használni. A Komondor hardverösszetételét tekintve nem marad el a világ vezető szuperszámítógépeitől, óriási lehetőség, de az eredményes munkához szükség van arra, hogy megfelelően kezeljék.
Mennyire érzékeli a szuperszámítógépek fejlődését?
Abszolút. Újabb és újabb processzorgenerációk jönnek ki, sokkal nagyobb teljesítménnyel, egy számítási egységbe sokkal nagyobb memória tehető, és ezek kulcsfontosságú előrelépések. Az amerikai partnernél két generáción dolgoztam, az Edison nevű gépet akkor nyugdíjazták, amikor csatlakoztunk. A Cori volt a zászlóshajónk, ami most még létezik, de nemsokára érkezik a leváltására a Perlmutter nevű gép. Eljön az idő, amikor egyszerűen már nem éri meg fizetni a régebbi eszköz villanyszámláját, mert a magasabb számítási kapacitást töredék üzemeltetési költséggel biztosítja majd egy újabb eszköz. Idehaza is látszik ez a trend. A Komondor érkezésével több, mára már elavult rendszer lekapcsolásra kerül majd.
Hogyan látja a szuperszámítástechnika jövőjét?
Elválaszthatatlan a számítástechnika jövőjétől. A fejlesztési trendek minden szintet érintenek, a szuperszámítógépet is. Mindenképpen további teljesítménynövekedést várok, illetve, kíváncsi vagyok, hogy mi fog történni a kvantumszámítások területén. Nagy kérdés, hogy a kvantumszámítógépek elterjedése mikorra várható, és milyen új számítási eszköztárat nyitnak meg, amit most még nem is remélhetünk.