Az Nvidia bemutatta a Lyra 2.0 nevű fejlesztését, ami egyetlen kép alapján képes egy bejárható, 3D-s környezetet létrehozni. A fejlesztés nemcsak látványos technológiai demonstráció, hanem a robotika és a szimulációs ipar szempontjából is fontos előrelépés lehet: az elkészült világok ugyanis közvetlenül exportálhatók más szimulációs környezetekbe is.
Today, we released Lyra 2.0, a framework for generating persistent, explorable 3D worlds at scale, from NVIDIA Research.
Generating large-scale, complex environments is difficult for AI models. Current models often “forget” what spaces look like and lose track of movement over… pic.twitter.com/l6oTNMl5mV
— NVIDIA AI Developer (@NVIDIAAIDev) April 15, 2026
A vállalat Spatial Intelligence Lab nevű kutatócsoportja április 15-én tette közzé a Lyra 2.0-t ismertető tanulmányt. A rendszer célja, hogy megoldja a hosszabb videós világmodellek két alapvető problémáját: azt, amikor a modell elfelejti, hogyan nézett ki egy korábban látott tér, illetve azt, amikor az egymás után generált képkockák apró hibái idővel egyre nagyobb torzulásokká állnak össze.
Bár a mai generatív videómodellek sokszor képesek meggyőző jeleneteket készíteni, de ha egy virtuális kamera hosszabb ideig mozog egy térben, például végigsétál egy folyosón, majd visszafordul, a rendszer gyakran már nem ugyanazt a helyiséget mutatja vissza. Megváltozhatnak a falak színei, máshová kerülhetnek az ajtók, a térbeli következetesség pedig széteshet. Mivel ezen modelleknél minden újabb képkocka az előzőekre épül, így a kisebb vizuális hibák fokozatosan összeadódnak, és a jelenet végére jelentős romlás fordulhat elő.
A Lyra 2.0 ezt egy kétszintű megközelítéssel próbálja kiküszöbölni. Először kamera által irányított, bejárást szimuláló videókat hoz létre, majd ezekből “feed-forward rekonstrukcióval” 3D-s reprezentációt épít. A rendszer működésének kulcsa, hogy az egyes képkockákhoz térbeli geometriát is társít, amely memóriaként szolgál. Amikor új nézetet kell generálni, a modell nem pusztán a korábbi képkockákból próbál következtetni, hanem kiválasztja azokat a múltbeli nézeteket, amelyek a célpozícióhoz térben a leginkább kapcsolódnak.
Ez azért fontos, mert a rendszer így nem vakon találja ki, mi lehet egy visszanézett sarok mögött, hanem a korábban már felépített térbeli információt használja fel a következő kép előállításához. Az Nvidia leírása szerint a geometria nem közvetlen renderelésre szolgál, hanem információ-visszakeresési rétegként működik: segít a releváns múltbeli adatok előhívásában, miközben a végső látványt továbbra is a generatív modell állítja elő.
A másik kulcselem az úgynevezett önkiegészítő tanítás. Ennek lényege, hogy a modellt a tanítás során saját, már kissé eltorzult kimeneteivel is szembesítik, így megtanulja kijavítani az idővel felhalmozódó hibákat, nem pedig továbbörökíteni azokat. Ez a gyakorlatban azt jelenti, hogy a rendszer hosszabb bejárások során is stabilabban tudja megőrizni a jelenet szerkezetét és vizuális folytonosságát.
Az elkészült videós bejárásokból a Lyra 2.0 3D pontfelhőket épít, amelyek menet közben folyamatosan bővülnek, ahogy a felhasználó újabb területeket fedez fel. A rendszerhez egy interaktív kezelőfelület is tartozik, amellyel előre meg lehet tervezni a kameramozgást, vissza lehet térni korábban bejárt helyszínekre, vagy új irányokba lehet indulni. A jelenet tehát nem egyszerre készül el teljes egészében, hanem fokozatosan épül, a mozgással párhuzamosan.
A fejlesztés egyik legérdekesebb része, hogy a végső kimenet 3D Gaussian Splats vagy hagyományos mesh formátumban is exportálható, vagyis kompatibilis lehet más fizikai motorokkal. Az Nvidia demonstrációja szerint a generált világok közvetlenül átvihetők az Isaac Sim rendszerébe, ahol robotok navigációját és interakcióit lehet tesztelni bennük.
Ha azonban egyetlen referenciafotóból lehet szimulációra alkalmas tereket létrehozni, az jelentősen csökkentheti a robotok fejlesztési idejét és költségeit, mivel ezentúl nem kell minden egyes gyárbelsőt, lakást vagy folyosót kézzel felépíteni egy 3D-s motorban, ha egy generatív rendszer képes egyetlen fotóból megfelelően használható változatot előállítani belőle.
A Lyra 2.0-val az Nvidia már nemcsak GPU-gyártóként jelenik meg, hanem a teljes szimulációs lánc beszállítójaként: a világ létrehozásától kezdve a fizikai modellezésen át egészen a tanításhoz szükséges számítási kapacitásig több kulcselem is a kezében került.
Mindez persze nem jelenti azt, hogy a rendszernek ne lennének korlátai. Szokványos belső terek vagy ismert építészeti elrendezések esetén a Lyra 2.0 jól működhet, de szokatlan alaprajzoknál, speciális ipari környezeteknél vagy nagyon egyedi belső tereknél könnyebben megjelenhetnek hibák. A rendszer a térbeli következetességet javítja, de nem teszi varázsütésre tökéletessé a generálást.
A Lyra 2.0 mégis jól mutatja, merre tart az AI: a rövid, a látványos videóktól eljutott a bejárható és szimulálható környezeteket előállításáig.. Ha ez az irány valóban skálázhatóvá válik, az a robotikát, a játékfejlesztést, a digitális oktatást és az ipari tervezést is átalakíthatja.



