Nvidia Forscher stellten am Montag ein neues Modell der künstlichen Intelligenz (KI) vor, das Objekte in einem Bild verschieben kann. Das Tool mit dem Namen DiffUHaul kann den Kontext eines Bildes räumlich verstehen, um ein Objekt von einem Ort zum anderen zu bewegen, ohne den Hintergrund oder die Form des Bildes zu beeinflussen. Das Einzigartige an dieser Technik ist, dass sie ohne Training auskommt, d. h. für die Erstellung dieses Tools wurden keine Vortrainingsdaten verwendet. Die neue Technologie wurde vom Unternehmen auf der Asia 2024-Konferenz der Special Interest Group on Computer Graphics and Interactive Techniques (SIGGRAPH) vorgestellt.
In einer Recherche PapierNvidia-Forscher haben das neue KI-Tool detailliert beschrieben. Die Technologie wurde in Zusammenarbeit mit der Hebräischen Universität Jerusalem, der Universität Tel Aviv und der Reichman-Universität entwickelt. Mit dem neuen Tool wollten die Forscher ein wichtiges Problem bei KI-Bilderzeugungsmodellen lösen – das Problem der räumlichen Verschiebung von Objekten in einem Bild.
Das Papier hebt hervor, dass diese spezielle Bearbeitungsaufgabe für KI-Wissenschaftler weiterhin ein Engpass darstellt, da KI-Modellen das räumliche Denken fehlt. Bestehende visuelle Modelle können den Kontext eines Bildes verstehen, sind jedoch nicht in der Lage, Objekte zu bewegen, da sie nicht verstehen, wie eine Bewegung in einer 2D-Umgebung räumlich wahrgenommen würde.
Mit DiffUHaul kann dieses Problem laut Nvidia gelöst werden. Basierend auf der Bilddiffusionsarchitektur verwendet das Tool im Entrauschungsschritt Aufmerksamkeitsmaskierung. Dies geschieht, um das Erscheinungsbild des Objekts auf hoher Ebene beizubehalten. Das KI-Tool nutzt BlobGEN, eine neue Technik, die räumliches Verständnis in das KI-Tool integriert. Darüber hinaus wurden neue Techniken eingesetzt, um reale Bilder mit dem lokalisierten Modell an der vorgesehenen Stelle zu rekonstruieren.
Am Frontend können Benutzer eine Textaufforderung eingeben, die das Objekt hervorhebt, das sie ändern möchten, und die KI kann das Objekt räumlich neu anpassen und gleichzeitig den Hintergrund entsprechend anpassen. In den vom Unternehmen gezeigten Demonstrationen konnte nicht festgestellt werden, ob das KI-Bearbeitungstool die Formänderungen verstehen kann, die mit räumlicher Bewegung einhergehen. Wird beispielsweise ein Luftballon zum Boden bewegt, verändert sich auch seine Form. Aufgrund mangelnder Schulung kann die KI dies jedoch möglicherweise nicht erfassen.