前提
在今年(2022)六月份,我写过一份课程报告《多模态图像生成》,介绍了当时流行的几个AI绘画平台和对应算法原理(当然原理是抄来的,我也不懂)。并按报告要求对AI绘画的发展趋势做了三点总结。正巧最近AI绘画又爆发了一波热潮,便再来写一篇文章,浅谈AI绘画的热潮和我对AI绘画的看法。
引自《专题汇报》
![图片[1]-浅谈AI绘画的三波热潮](https://www.shuibo.moe/wp-content/uploads/2022/10/趋势-1.png)
易用性:产品足够简单、易用,能够快速上手完成
硬件化:模型对芯片性能要求降低,能够在手机等平台上运行
商用级:成品的内容丰富程度以及精细程度达到专业商用化级别
三波热潮
![图片[2]-浅谈AI绘画的三波热潮](https://www.shuibo.moe/wp-content/uploads/2022/10/抖音话题热度指数趋势.png)
第一波热潮(时间线上未显示)2021.8-2022.3
第一波热潮的预热,是CV(Computer Vision)领域的顶刊频出,不少组织都在推出自己的AI绘画新产品(特别是Google,OpenAI和Nvidia)。
当时消费级产品中较流行的应该是Wombo和Wand两款产品。Wombo凭其极其简单易用的关键词机制和多样的风格掀起了一阵诸如“AI眼中的XX”热潮,而Wand依靠用户自己涂色块生成动漫角色也得到了一阵关注。
不过针对这两款产品,也存在一个致命问题:不能很好地将人的意志与AI结合。
Wombo只能输入几个关键词,输出也偏向抽象、油画风格,基本只能体现出AI对某项已有事物的“印象”,而不能依靠用户自己的想法去绘画。所以当Wombo把热门的东西,比如所有城市,游戏,国家都画遍之后,它的热度也就该褪去了。
![图片[3]-浅谈AI绘画的三波热潮](https://www.shuibo.moe/wp-content/uploads/2022/10/wombo.png)
而Wand的上手难度较高,在小于一周的练习时,用户很难单凭色块输入去生成完好的角色肖像。因此用户和工具磨合的花费可能甚至要超出绘画本身,这也是Wand一直不温不火的原因。
![图片[4]-浅谈AI绘画的三波热潮](https://www.shuibo.moe/wp-content/uploads/2022/10/Wand.png)
因此,这一波热潮只是针对特定人群,小范围内的热潮。偶尔也有AI绘画“出圈”的情况,不过大多都没能引起广泛关注。
第二波热潮 2022.4-2022.7
如果说这之前的AI绘画不过是电子玩具,甚至不能引发人们对AI绘画本身性质的讨论,那Disco Diffusion(以下简称D.D.)的横空出世就有如天降猛男,以一己之力引爆了AI绘画的热潮。
D.D.首先是允许用户输入完整句子或段落来生成图片,将内容、风格、构图、透视等以关键句的形式供用户选用,充分结合了用户本身的想法,大大提高了AI绘画的上限。
其次,D.D.将代码封装,并在Google上部署了云端版本。用户不需要配置各种复杂的环境文件,只要通过五个步骤(生成视频是六步)依次填写关键参数并运行代码就能完成准备阶段。
再者,D.D.云端版本可使用Google Colab服务,让没有高端显卡的用户也能分配使用到专业GPU以完成图像生成,使得AI绘画的受众大幅增加。
![图片[5]-浅谈AI绘画的三波热潮](https://www.shuibo.moe/wp-content/uploads/2022/10/dd.png)
遗憾的是,D.D.在细节方面表现的不尽人意,针对人物的生成更是惨不忍睹。而同时期的CRYPKO做到了高精度的二次元图像生成,得到了一定的关注。
不过CRYPKO的全球化做的不够优秀,不少人直接卡在了注册这一关。更重要的是,CRYPKO的付费机制劝退了大部分的人。因为使用CRYPKO生成画作的花费较为昂贵,而且生成的画作必须要购买许可才能商用,许可过期后还要续费才能保留在商业作品中。(现在看来,这其中可能还混杂着AI绘画本身的版权问题,不过当时是少有人关注的)
![图片[6]-浅谈AI绘画的三波热潮](https://www.shuibo.moe/wp-content/uploads/2022/10/crypko.png)
在此期间,与AI绘画相关的话题首次得到了大范围的关注。这期间产生了不少AI绘画的博主和第三方平台,也首次引发了人们对AI绘画本身的讨论。当时对AI绘画的讨论,主题绝大部分是“AI绘画是否会取代人类”,至于版权问题则鲜有所闻。
第三波热潮 2022.8-
如果说Disco Diffusion掀起了AI绘画的浪潮,那么8月下旬的Stable Diffusion(以下简称S.D.)则是将浪潮推向了一个前所未有的高度。
无论是在精致程度还是在对Prompt(描述,包括所有的关键词、句、段落)的理解上,S.D.的水平都远远超过了D.D.,达到了与部分专业画师相仿的程度。
在硬件要求方面,S.D.将本地部署的下限降低到GTX10系列,又大幅增加了AI绘画的受众。
与之而来的,是S.D.的变种NovelAI(这里专指NovelAI官方的AI绘画功能,其基于S.D.配置),专精于二次元风格图像生成,直接打破了原来”AI不会画人“的魔咒,同时也将AI绘画的版权问题推上了风口浪尖(因为NovelAI的数据集涉嫌使用大量未授权画师的作品)。
![图片[7]-浅谈AI绘画的三波热潮](https://www.shuibo.moe/wp-content/uploads/2022/10/a-girlsilvery-hairshort-hairbangsgrey-coatred_eyesbrown-shortsfrom-belowfull-bodyhoodgoggleschokerblack-fingerless_-s-368828471.png)
自此AI绘画彻底“出圈”,也引起了人们对AI绘画的思考,以及对版权问题的纠纷。
我的看法
老实说,我和大多数使用AI绘画的人一样,在第二波浪潮时期从未想到过版权问题。我对AI绘画总体持支持态度,
AI绘画是一把火,烧遍了整个绘画界,不灭不止。在最为理想的情况下,画师利用AI做效果,找参考;普通人用AI生成自己喜欢的图片并分享,一片祥和。但是,有三个问题一日得不到解决,AI绘画就一日不能被所有人接受:
1.谁也不想自己被贬值。AI绘画在一定程度上拉低了大部分中低端画师的价值,让画师们的努力和付出贬值。
2.涉及复杂的版权问题。AI绘画涉及到无数作者和作品的版权利益,且暂时没有任何法律规定可作参考。
3.伦理问题。对于人类智能而言,AI绘画的运用是一种进步还是退步?
最后
回顾我一开始提出来的三个发展趋势:
易用性:之前的Disco Diffusion还需要用户手动运行代码,而现在的NovelAI可以直接在官网使用云端服务,也可以直接下载别人的傻瓜式安装包,打开即用。使用者不需要填写各种复杂的配置,只需要填写关键词句即可生成。即使是第一次使用的人,也能轻松快速地生成品质优良的图片。
因此我认为AI绘画的易用性已经很高,不过现在仍有不足,比如有人研究发现,NovelAI的关键词顺序和组合方式对成品构图有直接影响,但这个特性在使用界面没有任何提示和帮助。
硬件化:现在基于Stable Diffusiond的AI绘画,已经把门槛降低到了GTX10系列,未来这一配置要求也许会继续降低,但离我预计的在手机本地上部署使用可能还有一定距离。
商用级:从Disco Diffusion到Stable Diffusion,AI绘画的质量已经大大提高,而两者之间只差了短短四五个月。未来还会迭代出更多更好的AI绘画模型,如果能解决版权问题,那么AI绘画的正式商用就指日可待了(虽说现在已经有人用AI绘画做游戏了,但是涉及版权问题,这处于灰色地带)。
在AI绘画蓬勃发展的同时,AI音乐、AI建模也在悄悄酝酿着。
文章版权归作者所有







暂无评论内容