多场景PAI-Diffusion中文模型家族大升级，12个模型、2个工具全部开源

投稿
APP
微信扫一扫获取更多

多场景PAI-Diffusion中文模型家族大升级，12个模型、2个工具全部开源

常曾媛

2023-09-13 15:10:44

图灵汇官网

概述与创新

在过去几年中，AI生成内容（AIGC）领域经历了迅猛发展，其中Stable Diffusion模型以其独特优势崭露头角。阿里巴巴云机器学习PAI团队紧跟这一趋势，借鉴了Stable Diffusion的架构设计，结合中文语言特性，经过大量数据预处理、模型优化，推出了PAI-Diffusion中文文图生成模型。此模型显著提升了图像生成的质量和多样性，实现了从文本描述到高质量中文场景图像的精准转化。

PAI-Diffusion模型家族

PAI-Diffusion中文模型家族集成了基础模型、LoRA、ControlNet等多种功能，覆盖了文生图、文图生图、图像修复等多个应用场景。该家族旨在通过深度学习算法，将中文文本描述转化为符合预期的高清大图，满足多样化的创意需求。

开源与工具支持

为促进AIGC技术的普及与发展，PAI-Diffusion中文模型家族的所有12个模型已全面开源，包括基础模型、LoRA、ControlNet等。用户可通过Hugging Face Space或ModelScope平台获取模型文件，自由下载使用。此外，两个开源工具——Chinese Diffusion WebUI与Diffusers-API，为模型的部署与应用提供了便捷途径：

Chinese Diffusion WebUI：作为Stable Diffusion WebUI的增强插件，Chinese Diffusion WebUI提供直观的用户界面，支持快速搭建中文AIGC应用，满足不同用户的创作需求。
Diffusers-API：基于Diffusers框架的云服务SDK，Diffusers-API简化了模型部署流程，支持快速实现文生图、图生图等功能，同时通过PAI-Blade进行优化，显著降低了推理延迟与显存占用。

多场景应用与数据优化

PAI-Diffusion模型家族通过广泛搜集中文图文对数据集，如WuKong、LAION-5B等，进行深度学习训练。数据处理过程中，采用了多种清洗方式，包括NSFW数据过滤、水印数据去除，以及基于CLIP分数和美观值评分的筛选，确保生成图像的质量与语义一致性。针对中文语言特性，模型采用EasyNLP自研的中文CLIP模型进行文本编码，进一步提升了模型对中文语境的理解与适应能力。

总结与展望

阿里巴巴云机器学习PAI团队的PAI-Diffusion中文模型家族，通过技术创新与开源分享，不仅丰富了AIGC领域的应用场景，还降低了模型使用的门槛。Chinese Diffusion WebUI与Diffusers-API的推出，为开发者与创意者提供了强大的工具支持，促进了AI生成内容技术的创新与普及。未来，我们期待与更多开发者合作，共同探索AI生成内容的无限可能，推动技术进步与文化创新。