国产AI作画神器火了：更懂中文竟然还能做周边--快科技--科技改变未来

正文内容 评论（0）

国产AI作画神器火了：更懂中文竟然还能做周边

2022-08-22 14:30:06 出处：量子位作者：金磊萧箫编辑：随心评论(0)

#人工智能 #画画

家人们，听说了吗？

最近在“一句话生成画作”这个圈子里，又一个AI工具悄然火起来了。

不是你以为的Disco Diffusion、DALL·E，再或者Imagen……

而是全圈子都在讲中国话的那种。

瞧，已经入圈的小伙伴们，都开始纷纷晒自己搞出来的杰作了：

国产AI作画神器火了：更懂中文竟然还能做周边

从网友们上传的诸多画作来看，这个AI可以cover的风格还真不少。

脑洞大开的《熊猫骑摩托》，中国山水画里的春天小雨，绚丽的概念插画《亚特兰蒂斯》，甚至一只黑白色调的戴帽子抽烟的狗……

那这个既能支持中文，又能hold住众多画风的AI工具，到底是什么来头？

不卖关子。

它的庐山真面目，正是百度最新对外发布的一款中文作画AI——文心·一格。

类似这种“你说我画”的AI，听说在国外已经火了很长一段时间。

现在终于等到了个国产版的，那么它到底好不好用呢？

「文心·一格」的初体验

既然在这个圈子流行讲中文，那咱就先从“中国风”开始上手。

例如输进去极具古典韵味的“江南水乡”，然后在方向和风格上选择“传统”、“中国风”。

仅需等待片刻时间，“啪的一下”，一幅符合语义和风格的画作就诞生了：

嘿~还别说，这画还真有一股子“小桥流水人家”的味道。

既然是国风，那就更传统一点，直接输入一句古诗词，看文心·一格会作何反应：

云深不知处。

整体来说，这幅画作确实是把“云之深”韵味展现得到位了。

据了解，文心·一格还可以继续加大难度。针对AI图像生成技术的资深用户，一格即将开放高级自定义功能，支持文本描述结合参数设置的方式探索更多创意。

当然，也可以在”艺术家精品画廊”里先浏览下内测用户已经生成的图片，像下面这张：

讲真，若非知道这是AI创作的，第一眼还以为是哪个动漫中的场景，是有够绚烂的了。

还有下面这一张，也同样称得上是惊艳绝伦。

但正所谓“货比三家”，那么文心·一格作为AI作画这条赛道的“后起之秀”，和国外的产品相比又如何呢？

下一个挑战环节，就是国内AI vs. 国外AI——恶犬咆哮。

较为明显的是，Disco Diffusion的风格更趋向于狂野；而文心·一格则是更偏向现实主义一些。

再拿文心·一格和DALL·E 2做个比较——毕加索风格的猫：

在看完这两者的创作对比，你觉得谁家的更毕加索一些呢？

不过在这般效果背后，对应的问题也随之而来：

要生成风格更全面的图片，文心·一格的用法会更复杂吗？

懂中文，也懂“懒人”

用起来，并不复杂。

我们从操作界面、提示词要求和性能要求几方面，对Disco Diffusion和文心·一格等AI画画产品进行了简单对比。

操作界面上，Disco Diffusion开放的接口不能说很复杂，但确实有点门槛。

它直接在谷歌Colab上运行，需要申请账号后使用（图片生成后保存在云盘），图像分辨率、尺寸需要手动输入，此外还有一些模型上的设置。

好处是可更改的参数更多，对于高端玩家来说可操作性更强，只是比较适合专门研究AI算法的人群：

相比之下，文心·一格的操作只需三个步骤：输入文字，鼠标选择风格&尺寸，点击生成。

前文已经提到，文心·一格同样也具备Disco Diffusion的“高级自定义”功能，随后便会开放，对于想拥有更多“参数自由”的小伙伴们来说，同样是个不错的选择。

至于提示词，Disco Diffusion的设置还要更麻烦一些。

除了描述画面的内容以外，包括画作类别和参考的艺术家风格也都得用提示词来设置，通常大伙儿会在其他文档中编辑好，再直接粘过来。

关键一旦提示词设置得不好，生成的效果就不尽如人意，需要反复尝试、不断细化，AI最终才能生成合适的画面效果。

相比之下文心·一格倒是没有格式要求，输入150字的句子或词组都可以：

当然，输入画家名字如莫奈，也能输出对应风格：

最后是性能要求上，Disco Diffusion是有GPU使用限制的，每天只能免费跑3小时。抱抱脸（HuggingFace）上部分AI文生图算法的Demo虽然操作简单些，但一旦网速不行，就容易加载不出来：

△测试mini DALL·E时加载就失败过

相比之下，文心·一格除了使用高峰期以外，基本上都是2分钟就能生成，对使用设备也没有要求。

总体来看，同样是文字生成图片AI，实际相比文心·一格的“真·一句话生成图片”，DALL·E和Disco Diffusion的生成过程都不太轻松。

所以在这背后，文心·一格生成图像，究竟是基于一个怎样的逻辑？

我们以输入“云深不知处”为例，希望能输出一幅中国风的画作。当接收到这几个字词（query）后，AI的脑细胞就开始“运作”了起来，从语法、词法、语义等角度对文本进行分析。

如果将生成过程可视化，这个阶段还看不出什么效果，处于AI理解文本的阶段：

很快，AI“拆解”文本后，理解要怎么画这幅画了，于是在特定尺寸（用户可选）的画纸上，构思出整体的轮廓，兼具云的元素和中国画的风格：

随后，基于扩散生成模型的原理，迭代地完善并修正画面细节，不断提高清晰度、反复检查图文描述一致性，用更精确的配色替代噪声：

最后，生成名为《云深不知处》的完整画作：

国产AI作画神器火了：更懂中文竟然还能做周边

看似“一句话生成图片”不难，其实对AI语义理解和图像生成能力提出了进一步要求。

为了能更好地理解文本、提升输出效果，文心·一格还在百度文心的图文生成跨模态模型ERNIE-VilG的基础上，进行了更详细的优化。

为了提升图文理解能力，在知识增强的基础上，引入跨模态多视角对比学习；

为了降低输入要求同时提升效果，采用基于知识的文本联想能力，让模型学会自己扩展提示词的细节和风格；

为了提升图像生成能力，采用渐进式扩散模型训练算法，让模型来选择效果最好的生成网络。

此外，在训练和数据上，文心大模型的产业级能力也进一步给文心·一格提供了帮助，例如AI训练数据和平时在产业实践中积累的经验，都能应用到文心·一格的模型中去；至于百度知识图谱的算法能力，则进一步提升了模型通用性。

值得一提的是，如果开发者想将文心·一格的能力用到产品中，直接调用ERNIE-VilG的API接口就行，可以说是非常方便了。

One More Thing

我们在试玩文心·一格的时候，还发现了左下角这些有意思的应用场景，一键就能生成预览：

例如，颇有自如风格的装饰画：

老板批量发年货时印的编织袋（手动狗头）：

其实，这也是文心·一格区别于Disco Diffusion、OpenAI的DALL·E 2的另一个特点——更强的实用性。

不仅普通玩家可以用来生成自己想画但画不出来的内容，绝不会有两幅相同的画作，脑洞再放大点，就连媒体作者等文字内容创作者，也能用它高质量高效率配图。

（嗯，以后你看量子位的文章，说不定有些配图就是用AI生成的）

专业画师、或是设计师和艺术家，更可以用它来启发灵感、辅助创作。

当然，从官网看来，这个产品还在更新迭代、进一步优化中。

至于未来是否会在更多数字藏品、插画、海报和电影动漫中，看见文心·一格的画作？

我们拭目以待。

责任编辑：随心

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#人工智能 #画画 #绘画

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波