Frame Generation

Jonathan · Beitrag von **Jonathan** » 14.09.2025, 15:43

Moin,

wie funktioniert eigentlich Frame-Generation? Also jetzt insbesondere in Hinblick auf Latenz.

Also, das Generieren ansich scheint klar. Man könnte irgendein halbwegs effizientes Neuronales Netzwerk nehmen, gibt ihm 2 gerenderte Frames und vielleicht noch Zusatzinfos wie Kamerabewegung und Tiefenkarte und herauskommt eine temporale Interpolation beider Bilder - das Frame was gut dazwischen passen könnte.

Aber wie sieht dazu die Zeitachse aus? Ich habe mal eine professionelle Skizze angefertigt:

: frame generation.png (3.5 KiB) 1101 mal betrachtet

Man sieht zwei Zeitachse, oben ohne Frame-Generation, unten mit. A und B sind zwei Frames die gerendert werden, in Gelb ist der interpolierte Frame eingezeichnet.
Jetzt sieht man in der Mitte noch in Blau die Eingabe und in Hellblau die Eingabe Latenz. Man drückt eine Taste, die Spielwelt wird aktualisiert und ein neuer Frame gerendert und kurz darauf angezeigt. Das ist der Fall oben, die Latenz ist nett und kurz.
Ok, wenn jetzt Framegeneration 2 Bilder interpoliert, müssen dafür beide fertig sein. Zusätzlich benötigt das Generieren auch minimal Zeit, also kommt der gelbe Strich unten kurz nach dem grünen Strich oben. Man will vielleicht gleichmäßige Frame-unterschiede haben, also wird rot und grün entsprechend nach hinten geschoben, so dass die Framerate verdoppelt wird.

Jetzt hat man im Ergebnis zwar doppelt so viele Frames, aber die Eingabelatenz wurde auch mehr als verdoppelt. Ist das im Wesentlichen, was in echt so passiert? Als Alternative viele mir noch ein, dass man ja vielleicht statt Interpolation auch Extrapolation machen könnte, d.h. man schaut sich den letzten und vorletzten Frame an und rät, wie der nächste Aussehen könnte - allerdings ist das bei jeder Art von Richtungsänderung natürlich ein viel schwierigeres Problem für das Netzwerk, und wenn es falsch liegt wird man das in deutlichen Sprüngen sehen. Aber zumindest könnte man so ggf. die Latenz unverändert lassen, weil man Frame A und B zum selben Zeitpunkt wie zuvor anzeigen könnte.

NytroX · Beitrag von **NytroX** » 14.09.2025, 16:25

Ja, also du hast vollkommen recht mit deinen Vermutungen.

Der Ansatz für das klassische Generieren von Frames basiert auf Interpolation, d.h. die Graka muss warten bis Frame "B" erstellt wurde und erstellt dann 1 oder 2 Frames zwischen A und B. Das System zeigt dann Frame A später an und es entsteht eine Latenz. Und zwar sowohl weil man auf "B" warten muss bis die Interpolation starten kann und auch weil die AI ja Zeit braucht um den Frame zu berechnen. Bei einer menschlichen Reaktionsgeschwindigkeit von > 100ms sind aber 10ms (z.B. bei 100 Hz) oft vernachlässigbar. Dafür hat man halt quasi 100 FPS statt 50 oder 35.
Im Prinzip kompensiert man ja eigentlich nur das Ruckeln über AI.
https://humanbenchmark.com/tests/reactiontime -> versuch mal :-)
Hier das Video hat nette Bilder und zeigt auch die zusätzliche Latenz (um mal ein paar realistische Zahlen zu sehen welche Auswirkung das hat): https://youtu.be/EiOVOnMY5jI?t=401

Es gibt aber auch Extrapolation, d.h. man generiert einen zukünftigen Frame basierend auf den letzten paar Frames. Das ist zwar dann nur ein Forecast, aber es reduziert gefühlt die Latenz. Das macht man oft bei Cloud-Play Sachen bei denen Server-seitig gerendert wird.
Da kommt die zusätzliche Latenz durch das Netzwerk/Streaming. Da die Steuerung aber auch übermittelt wird (also vom Client zum Server) und dadurch auch Latenz hat, ist das Rendering bei Richtungswechseln sowieso langsam und ungenau und dann ist der Forecast egal.
Zudem wird auch neben den letzten Frames der Game/Controller Input verwendet als Input für die AI, d.h. der Forecast versteht dann auch Richtungswechsel. Man bekommt tatsächlich insgesamt das Gefühl dass das Spiel irgendwie besser läuft und schneller reagiert.

Lord Delvin · Beitrag von **Lord Delvin** » 14.09.2025, 16:51

Hatte auch mal über AI-PostFX nachgedacht und im Prinzip so ne Art low-quality Bild reingepackt und dann mit Worten + AI Bilder draus gemacht; wenn man sich das mal genau anschaut ist das alles viel zu langsam und die Fehlerrate ist viel zu hoch. Wenn du vier Bilder generierst und eins davon ist gut, geht das für Webservices. Wenn du das als PostFX machst bedeutet es, dass du Sekunden hast, in denen quasi jedes AI-generierte Bild murks ist. Das wird sich nicht wirklich gut anfühlen. Rein konzeptionell hätte ich für deine Idee sowas gemacht, wie die letzten drei Bilder und dann ein extrapoliertes und nur, wenn die aktuelle Framerate unter der Hälfte des Displays liegt. Wenn du 100 FPS statt 50 willst hättest du nach meiner Rechnung 5ms das Bild zu generieren. Scheint mir momentan bei 4k nicht machbar.

Krishty · Beitrag von **Krishty** » 14.09.2025, 21:07

Lord Delvin hat geschrieben: ↑14.09.2025, 16:51Hatte auch mal über AI-PostFX nachgedacht und im Prinzip so ne Art low-quality Bild reingepackt und dann mit Worten + AI Bilder draus gemacht; wenn man sich das mal genau anschaut ist das alles viel zu langsam und die Fehlerrate ist viel zu hoch

Damit verlässt du jetzt natürlich das Thema, aber: Das wird schon lange gemacht und ist ausreichend schnell, nur hakt’s an der Qualität. Auf AMD-Karten heißt es FidelityFX; bei Nvidia habe ich den Namen vergessen.

Man rendert das Bild bspw. bei halber Auflösung und lässt es durch ein NN heraufskalieren. Der Unterschied zu deinem Vorschlag – und zugleich der Grund, warum es echtzeitfähig ist: Das NN ist konkret auf deinem Spiel trainiert worden und nicht auf Milliarden Videos aus dem Internet.

Pixel vorherzusagen kann schneller sein als sie zu berechnen, und das verbessert wohl wirklich die Frame-Rate. Auf den letzten Videos, die ich mir davon angesehen habe, waren aber noch deutlich Artefakte zu sehen.

Shader Model 6.9 führt auch extra Cooperative Vector ein, damit so etwas in HLSL-Shadern verwendet/implementiert werden kann statt über ein Hersteller-spezifisches SDK.

Lord Delvin · Beitrag von **Lord Delvin** » 16.09.2025, 19:31

Das hat mit meinem Vorschlag eigentlich nur die Verwendung von NNs gemeinsam. Ist ja ein unterschied, ob man Upscaling macht oder zwei-drei Bilder bekommt, die *versteht* und daraus dann ein Zwischenbild rät.

Krishty · Beitrag von **Krishty** » 16.09.2025, 20:27

Lord Delvin hat geschrieben: ↑16.09.2025, 19:31Das hat mit meinem Vorschlag eigentlich nur die Verwendung von NNs gemeinsam. Ist ja ein unterschied, ob man Upscaling macht oder zwei-drei Bilder bekommt, die *versteht* und daraus dann ein Zwischenbild rät.

Schon die Startseite, die ich verlinkt habe, geht auf jetzt verbesserte Temporal Stability ein, aber vielleicht meinst du wirklich was anderes.

Irgendwas mit NN sieht für mich sowieso nur sinnvoll aus, wenn man statt echter Frames direkt Annotations rendert IMHO.

Lord Delvin · Beitrag von **Lord Delvin** » 17.09.2025, 21:33

Ich meinte mehr sowas wie das was in der Bild GenAI Ecke als Image to Image transformation gilt und nicht dieses Upscalinggedöns, was nett ist, aber eben nicht in der Mitte an einem Punkt vorbei kommt, wo dem NN grob klar ist, was wo auf dem Bild ist und es neben dem Upscaling auch den Charakter umdekorieren könnte.

smurfer · Beitrag von **smurfer** » 19.09.2025, 18:20

Meinst du sowas Ähnliches wie diese alten Videos, wo für GTA ein NN trainiert wurde, um eine realistische Optik zu erreichen?
Z.B. so etwas:

Gibt da ja mittlerweile auch noch deutlich mehr Varianten von.

Lord Delvin · Beitrag von **Lord Delvin** » 20.09.2025, 14:55

Ja, nur, dass ich halt nicht nur einen set an Buffern sondern zwei oder drei genommen hätte. Aber die sagen ja selbst auch "less artifacts" und wenn man genau hinschaut sieht man sofort welche. "Less artifacts" ist halt einfach nicht das Niveau wenn man sich mit Lösungen vergleicht die einfach gar nicht funktionieren.

Jonathan · Beitrag von **Jonathan** » 20.09.2025, 16:22

Wobei man bedenken muss, dass "irgendein NN" nehmen auch keine Lösung ist.

Mal ein Rechenbeispiel: Ich will von 50 fps hoch auf 80 fps. Mit ein paar Vereinfachungen (GPU ist voll ausgelastet, etc.) kommt dann sowas raus.

Renderzeit pro Bild: 20 ms
Zeit pro Frame für 80 FPS: 12.5 ms
Zeit für 2 Frames (1 gerendert, 1 generiert): 25 ms
Zeit um 1 Frame zu generieren: 5 ms

Das Frame-generieren muss hier also 4 mal so schnell laufen, und wir haben die Framerate noch nicht einmal verdoppelt. Und in der praxis will man ja zwischen 2 Frames gerne auch mal mehr als bloß 1 Frame generieren. Vielleicht immer 2 oder 3 Zwischenframes?

Nich zu vergessen, fancy Bildgeneratoren laufen ja gerade mit Mühe und Not auf Consumer GPUs. Und der meiste Speicher der Grafikkarte wird ja immer noch für das Spiel selber verwendet.

ZFX + Developia

Frame Generation

Frame Generation

Re: Frame Generation

Re: Frame Generation

Re: Frame Generation

Re: Frame Generation

Re: Frame Generation

Re: Frame Generation

Re: Frame Generation

Re: Frame Generation

Re: Frame Generation