“认识3D-GPT：一种利用大型语言模型（LLMs）进行指导驱动的三维建模的人工智能框架”

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-4-077308ddbf.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-4-077308ddbf-150×150.gif”/>通过精心制作的详细模型，在元宇宙时代的3D内容制作中，重新定义了游戏、虚拟现实和电影行业的多媒体体验。然而，设计师们在繁琐的3D建模过程中经常需要帮助，从基本形状（如立方体、球体或圆柱体）开始，使用Blender等工具进行精确的轮廓、细节和纹理处理。渲染和后期处理结束这个劳动密集型的制作过程，并呈现出精致的最终模型。虽然可变参数和基于规则的系统使程序生成在自动化内容开发方面有效，但它需要对生成规则、算法框架和个体参数有全面的了解。

当这些流程与客户的创造愿望通过高效的沟通进行协调时，增加了复杂性的另一个因素。这强调了流程化传统3D建模方法以支持元宇宙时代的创作者的重要性。LLMs表现出了卓越的计划和工具使用技能以及语言理解能力。此外，LLMs在表征物体结构和纹理等物质特质方面显示出了出色的技能，这使它们能够从基本描述中改进细节。它们还善于理解复杂的代码功能和解析简短的文本材料，同时轻松促进有效的用户交互。它们探索了将这些卓越技能的新用途应用于程序化3D建模。

它们的主要目标是充分发挥LLMs的优势，根据客户需求对3D创意软件进行控制。为了实现这一目标，来自澳大利亚国立大学、牛津大学和北京人工智能学院的研究人员介绍了3D-GPT，这是一个旨在促进指令驱动的3D内容合成的框架。通过将3D建模过程分为更小、更易管理的片段，并决定何时、何地和如何完成每个片段，3D-GPT赋予LLMs行动解决问题的能力。概念化代理、3D建模代理和作业调度代理是组成3DGPT的三个主要代理人。通过调整3D生成函数，前两个代理人共同完成3D概念化和3D建模的职责。

第三个代理人通过接受第一个文本输入，管理后续命令，并促进第一二个代理人之间的高效沟通来控制系统。这样做有两个重要目标。首先，通过将其指向更深入和与上下文相关的形式，改善初始场景描述，然后根据进一步的指示修改文本输入。其次，它们使用程序生成，这是一种与3D软件交互的方法，不直接创建3D材料的每个组件，而是使用可变参数和基于规则的系统。他们的3D-GPT可以从增强文本中导出相关参数值，并理解过程生成例程。通过使用用户书面描述作为指南，3D-GPT提供准确和可定制的3D创作。

在复杂的场景中，手动指定程序化创建的每个可控参数会减少工作量。另外，3D-GPT提高了用户参与度，简化了创作过程，将用户放在首位。此外，3D-GPT与Blender无缝集成，使用户可以使用各种操作工具，包括网格编辑、物理运动模拟、对象动画、材质更改和基本元素添加等。他们声称LLMs可以根据他们的测试处理更复杂的视觉信息。

以下是他们的贡献总结:

• 提出了3D-GPT，一个提供免费培训的3D场景创建框架。他们的方法利用LLMs内置的多模态推理能力来提高最终用户的程序化3D建模的生产力。

• 对文本到3D生成的另一种方法进行了探索，在这种方法中，他们的3D-GPT创建Python程序来操作3D软件，可能为实际应用提供了额外的灵活性。

• 实证研究表明，LLMs在创作3D材料时具有很大的潜力，他们具备思考、规划和使用工具的能力。