南开大学和字节跳动的研究人员推出了一种名为ChatAnything的新型人工智能框架，专注于生成LLM-增强人物形象

南开大学和字节跳动的研究人员提出了一个名为ChatAnything的新型框架，旨在以在线方式生成基于大型语言模型(LLM)的角色的人形化人物形象。目标是仅根据文本描述创建具有自定义视觉外观、个性和语调的人物形象。研究人员利用LLM的上下文学习能力使用精心设计的系统提示生成个性。他们提出了两个创新概念：声音的混合 (MoV) 和扩散物质的混合 (MoD)，用于多样化的语音和外观生成。

MoV使用预定义音调的文本到语音(TTS)算法，根据用户提供的文本描述选择最匹配的音调。MoD结合了文本到图像生成技术和说话头算法，简化了生成说话对象的过程。然而，研究人员观察到当前模型生成的拟人化对象常常被预训练的面部标志检测器无法检测到，导致面部动作生成失败。为了解决这个问题，他们在图像生成过程中引入像素级引导，以注入人脸标志。这个像素级注入显著提高了面部标志检测率，实现了基于生成的语音内容的自动面部动画。

本论文讨论了大型语言模型(LLMs)及其上下文学习能力的最新进展，将其定位于学术讨论的前沿。研究人员强调了需要一个框架来生成具有自定义个性、声音和视觉外观的LLM增强人物形象。对于个性生成，他们利用LLM的上下文学习能力，使用文本到语音(TTS) API创建了声音模块池。声音的混合模块(MoV)根据用户文本输入选择音调。

使用最新的说话头算法解决了由语音驱动的说话动作和表情的视觉外观问题。然而，研究人员在使用扩散模型生成的图像作为说话头模型的输入时遇到了挑战。只有30%的图像能够被最先进的说话头模型检测到，表明分布不对齐。为了弥合这一差距，研究人员提出了一种零样本方法，在图像生成阶段注入面部标志。

提出的ChatAnything框架由四个主要模块组成：基于LLM的控制模块、人像初始化器、文本到语音模块的混合以及动作生成模块。研究人员结合了扩散模型、声音变换器和结构控制，创建了一个模块化和灵活的系统。为了验证引导扩散的有效性，研究人员创建了一个带有不同类别提示的验证数据集。他们使用预训练的面部关键点检测器评估面部标志检测率，展示了他们提出方法的影响。

研究人员介绍了一个全面的框架ChatAnything，用于生成具有拟人特征的LLM增强人物形象。他们解决了面部标志检测方面的挑战，并提出了创新的解决方案，在验证数据集中呈现了有希望的结果。这项工作为将生成模型与说话头算法整合以及提高数据分布对齐性的未来研究开辟了新的途径。