ImgEdit: A Unified Image Editing Dataset and Benchmark

Yang Ye1,3,, Xianyi He1,3,, Zongjian Li1,3,, Bin Lin1,3,, Shenghai Yuan1,3,, Zhiyuan Yan1,, Bohan Hou1, Li Yuan1,2,†,

1北京大学深圳研究生院
2 程鹏实验室
3 Rabbitpre AI

摘要

​  近年来生成模型的突破性进展,使得高保真度的文本转图像技术得以实现。但开源图像编辑模型仍难以与商业版一较高下,这主要源于其优质数据资源匮乏和测试平台建设不足。为克服这些限制,我们引入了ImgEdit,这是一个大规模、高质量的图像编辑数据集,包含120万个精心策划的编辑对,其中既包含新颖和复杂的单回合编辑,也包含具有挑战性的多回合任务。为确保数据质量,我们采用多阶段处理流程,整合了前沿的视觉语言模型、检测模型、分割模型,以及针对具体任务的修复流程和严格的后处理步骤。ImgEdit在任务创新性和数据质量方面均超越现有数据集。通过使用ImgEdit,我们训练出ImgEdit-E1,一个利用视觉语言模型处理参考图像和编辑提示的编辑模型,在多项任务中表现优于现有开源模型,充分彰显了ImgEdit及其模型设计的价值。为实现全面评估,我们推出了ImgEdit基准测试平台。该平台通过指令遵循度、编辑质量与细节保留三个维度,系统评估图像编辑性能。平台包含基础测试套件、高难度单轮测试套件以及专用多轮测试套件三大模块。我们不仅对开源模型和专有模型进行评估,还特别针对ImgEdit-E1版本展开深度分析,为当前图像编辑模型的运行机制提供可操作性的洞见。

源数据可在https://github.com/PKU-YuanGroup/ImgEdit上公开获取。