字节跳动于7月2日发布多主体控制生成模型XVerse,该模型基于DiffusionTransformer架构,能精确控制生成图像中每个主体,同时保持图像质量,其包括四个关键组成部分(T-Mod适配器、文本流调制机制、VAE编码图像特征模块、正则化技术),确保生成图像的逼真度和一致性。为评估多主体控制图像生成能力,字节跳动提出了XVerseBench基准测试,共计300个测试提示(包含20种人类身份、74种物品、45种动物物种或个体),在多主体生成一致性方面显著优于其他多主体驱动生成技术。XVerse模型的成功为AI创作提供更多可能性,提升内容的质量、效率与多样性。