腾讯方面开源混元DiT小显存版本，以及打标模型

财经三易生活网 2024-07-10 10:08

日前，腾讯混元文生图大模型（以下简称为混元DiT）迎来三大更新，包括推出并开源小显存版本、推出Kohya训练界面，以及升级至1.2版本、在图片质感与构图方面均有所提升，旨在进一步降低使用门槛的同时提升图片质量。

其中混元DiT小显存版本最低仅需6G显存即可运行，对使用个人电脑本地部署的开发者更友好。经过与Hugging Face合作，目前该版本与LoRA、ControlNet等插件均已适配至Diffusers库，开发者无需下载原始代码，仅用简单的三行代码即可调用，大幅简化了使用成本。

同时混元DiT还宣布接入Kohya，开发者可以低门槛地训练个性化LoRA模型。据了解，Kohya是一个开源、轻量化模型微调训练服务，提供了图形化的用户界面，被广泛用于扩散模型类文生图模型的训练。用户可通过图形化界面完成模型的全参精调及LoRA训练，无需涉及到代码层面的细节，并且训练好的模型符合Kohya生态架构，可以低成本与WebUI等推理界面结合，实现一整套“训练-生图”工作流。

此外值得一提的是，日前腾讯方面还宣布正式开源混元文生图打标模型混元Captioner。据了解，文生图开发者往往需要对原始图片进行清晰、全面的标注，制作高质量的数据集，才能训练出来一个语义理解准确、绘画技艺高超的文生图大模型。而借助打标模型，开发者可以快速生成高质量数据集。

此外，混元Captioner支持中英文双语，并针对文生图场景进行专门优化，包括构建了结构化的图片描述体系；在模型层面，通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性；注入知名文学作品形象、地标、食物、动物、中国元素与知识等大量背景知识，让模型输出的描述更为准确、完整等，可帮助开发者快速制作高质量的文生图数据集。

据悉，除将原始图片集导入混元Captioner生成高质量标注外，开发者也可以导入图片与原始描述，利用混元Captioner过滤其中的无关信息，并完善和优化图片描述，以提高数据质量。

对此腾讯方面表示，“相比起业界的开源打标模型，混元Captioner模型能更好的理解与表达中文语义，输出的图片描述更为结构化、完整和准确，并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识”。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】