2025年6月26日,Qwen团队发布了Qwen VLo,一个定位是"unified multimodal understanding and generation model"的模型,包括多模态的理解和生成。
根据官方的介绍博客,Qwen VLo包含下面的功能:
- 图像生成:文生图、2D卡通图像转真实图像
- 图像编辑:例如修改某个主体、更换颜色、更换风格
- 图像算法能力:例如检测框、canny 算子、图像分割结果
经过一段时间的测试,我个人的总结是:
- 生图能力:效果比较差,感觉是一两年前生图模型的水平
- 图像风格转换:效果比较稳定,生图有美感
- 图像编辑能力:还算可以,有一些case做不好
- 检测框:能稳定生成,单人没问题,多人场景下也不算很准
- 图像分割:没有成功
- canny算子:细节更丰富,但有一些地方与原图并非完全对齐
再单独吐槽一个点,刚开始没找到Qwen VLo的入口,看微信公众号文章的留言才发现,并不是以一个模型列在可选模型列表中的,而是不管选择什么模型,只要做生图任务或者上传图片进行对话,都调用Qwen VLo。这种不遵从用户已有习惯的设置,随意而为的做法,用户体验很差,要是没看到留言回复,真的不知道怎么用。
下面详细展开我上面总结中各个条目的实际结果。