
Image by Xavi Cabrera, from Unsplash
LegoGPT: KI verwandelt Textaufforderungen in Lego-Kreationen
Forscher der Carnegie Mellon University haben LegoGPT vorgestellt, ein neues KI-System, das reale Lego-Kreationen aus schriftlichen Beschreibungen erstellt.
In Eile? Hier sind die schnellen Fakten:
- Es gewährleistet physische Stabilität durch die Verwendung von physikbewusster Rollback-Funktion.
- Trainiert anhand von 47.000 stabilen Lego-Strukturen und GPT-4o-Bildunterschriften.
- Verwendet nur 8 verschiedene Bausteinarten innerhalb eines 20×20×20 Raums.
Es ist die erste KI ihrer Art, die nicht nur einem Textprompt folgt – wie „ein stromlinienförmiges, längliches Gefäß“ -, sondern auch sicherstellt, dass die resultierende Struktur physisch stabil ist und, Stein für Stein, gebaut werden kann.
„Um dies zu erreichen, erstellen wir einen groß angelegten, physisch stabilen Datensatz von LEGO-Designs, zusammen mit ihren zugehörigen Bildunterschriften“, erklärte das Team in ihrem Forschungspapier.
LegoGPT wurde mit über 47.000 stabilen Lego-Modellen trainiert, die mit detaillierten Bildunterschriften, generiert durch GPT-4o, gekoppelt wurden. Diese wurden aus 3D-Formen gebaut, in Lego-Strukturen umgewandelt und dann mit Hilfe von Physiksimulationen auf ihre Stabilität in der realen Welt getestet.
Jede Struktur wurde auch aus 24 Blickwinkeln beschrieben, damit die KI lernen konnte, wie verschiedene Designs in Worten aussehen sollten.
Das Team verwendete eine spezielle Technik namens „Physik-bewusstes Zurücksetzen“, bei welcher instabile Teile eines Designs entfernt und neu aufgebaut werden, bis die gesamte Struktur standhält. Dies verbesserte die Erfolgsquote beim Aufbau von 24% auf 98,8%.
Das KI-Modell, basierend auf Metas LLaMA-3.2-Instruct, prognostiziert, welcher Lego-Stein als nächstes platziert werden soll – ähnlich wie ChatGPT das nächste Wort vorhersagt. Jeder vorgeschlagene Stein wird auf Platzierung, Größe und mögliche Kollisionen geprüft, bevor er dem Modell hinzugefügt wird.
Die Kreationen von LegoGPT können sowohl von Menschen als auch von Robotern gebaut werden. „Unsere Experimente zeigen, dass LegoGPT stabile, vielfältige und ästhetisch ansprechende Lego-Designs erzeugt, die eng mit den eingegebenen Textaufforderungen übereinstimmen“, schrieben die Forscher.
Bisher verwendet LegoGPT lediglich acht Grundbausteintypen und arbeitet in einem 20×20×20 Raum, aber das Team hofft, dies erweitern zu können.
Ihr vollständiger Datensatz, Code und Modell sind frei zugänglich, damit andere auf dieser Forschung weiter aufbauen können. Alternativ können Sie einfach mit ihrer Demo herumspielen.