卡内基梅隆大学的研究团队开发出一款名为 LegoGPT 的 AI 模型,能够根据文字指令生成可实际搭建的乐高设计。
比如输入文本「基本款沙发」,一眨眼的功夫,乐高沙发就拼好了。
团队训练了一种自回归大型语言模型,通过预测下一个 token 的方式,判断下一块该放置什么积木。团队还为模型增加了有效性校验和带有物理感知的回滚机制,确保生成的设计不会出现积木重叠或悬空等问题,也就是说最终结果始终可行且结构稳固。不仅如此,LegoGPT 输出的设计,既能由人手搭建,也支持机器人操作。
用于训练 LegoGPT 的数据集被命名为 StableText2Lego,构建流程也相当复杂:系统会先将文本提示转化为 ShapeNetCore 网格模型,再将其嵌入一个 20×20×20 的体素网格中,从而生成初步的乐高积木布局。
LegoGPT 以端到端的方式根据用户提供的文本提示生成乐高结构。值得一提的是,生成的乐高结构物理上稳定且可搭建。
LegoGPT 出自卡内基梅隆大学助理教授朱俊彦团队,朱俊彦表示:LegoGPT 是迈向「物理对象生成制造」这一终极目标的一小步。当前版本仍存在局限:仅支持 20x20x20 的构建尺寸、21 种物体类别和基础积木类型,但他们也在努力扩展其能力!
链接