记者 | 张司钰
编辑 | 倪 妮
十多年前,AI画的猫脸还是两个山桐子对比度、模糊不清的霓虹,但现如今,从2021年DALL·E画出的那把柠檬桌子,到去年DALL·E 2勾勒出的太空人在太空中骑着马的形象,这些出自AI之“手”的经典作品早已变得相当栩栩如生了。
DALL·E是OpenAi旗下的人工智慧在线图形应用,其第二代产品DALL·E 2在去年7月内测。相较于上一代,DALL·E 2能够以4倍的解析度,依照语义片头聚合更精巧、准确的影像,同时还能依照原影像二次音乐创作——或混合两张相片形成新相片,或创建如前所述图稿的系列变体。
DALL·E 2让即时设计联合创办人周凝看到AI原画在未来广泛应用的可能,他将DALL·E到DALL·E 2的技术插值比喻为“从健康报的婴儿一晃就变成了两个职业的画家”。
假如说在256x256解析度之下,柠檬桌子还是一种如前所述现实的音乐创作,那么由璀璨星空与骑在马上的太空人形成的图景,和能媲美摄影经典作品的质感,则释放了两个信号:得益于丰富的知识图谱、自聚合和将多个元素组合在一起后形成新画风的特征,AIGC(AI-generated content),即AI生产内容的能力早已愈来愈强大了。
不过,随着AI算数软件及经典作品愈来愈数处出现在大众视野中,它也迎来诸多质疑——比如说人类该如何采用这些经典作品?AI油画子公司能赚多少钱?采用者采用AI原画并民用算不算剽窃?和,对于绘师来说,它会形成威胁吗?
小规模民用的限制因素不仅是版权,更是技术本身
去年8月,一家创立于2020年的人工智慧子公司Stability AI宣布将文档至影像的AI数学模型Stable Diffusion开放源码,以期围绕该数学模型和其他数学模型搭建两个开放的生态系统。
依照文档提示信息,Stable Diffusion能够聚合精巧的影像以描述提示信息中的场景,画素为512x512,能在消费者级别的GPU(图形处理器)上运转。开放源码的消息惊动各国T5450圈,以Stable Diffusion开放源码数学模型为此基础的插件此后也层出不穷。
目前主流的AI油画工具,如Stable Diffusion、Disco Diffusion、DALL·E 2、Midjourney,都是在诸如Stable Diffusion这样的开放源码数学模型的此基础上聚合的。而国内的Tiamat、6pen、聚花右方等则更多是重新修改开放源码代码而成。
AI数学模型体能训练生产成本高与算法升级难是现如今AI油画小规模推广的主要阻碍。Stability AI的创办人Emad Mostaque在Twitter上回应称,Stable Diffusion数学模型采用了256个A100显示卡,共计15万小时,依照市场产品价格计算,体能训练数学模型所需的生产成本是60亿英镑。
To C的一小部分AIGC子公司,通过收取采用者viewers来回收生产成本,比如说Midjourney,按账户数和时数收费项目;还有一小部分子公司,依照相片聚合的大小和UTADA和精细度收费项目,这种方式本质上就是在卖“INS13ZD”。
对于ToB子公司而言,则更间接,或者小规模地提供更多“结果”,即聚合的优质相片给客户,或者间接以提供更多API接口的方式来提供更多INS13ZD服务,甚至是间接按时数和配置提供更多GPU服务器来卖“INS13ZD”。
在Midjourney的采用手册上,有“完全免费试玩”、“此基础版”、“豪华版”、“子公司版”四个等级,其中每位新采用者拥有25次完全免费聚合相片的机会,“试玩”完毕后,此基础版10英镑三个月,每一月能聚合200张相片;豪华版30英镑三个月,每一月能聚合不限量相片,且能无限调用空闲GPU运转时数。此外,买回此基础版或豪华版的采用者假如想确保聚合的相片仅个人浏览,则需要在原来的买回版本此基础上再加20英镑。假如买回子公司版,产品价格则为每年600英镑,只限所在子公司年收入大于100亿英镑的员工。
自7月份开始内测以来,Midjourney早已积累了近270万采用者。虽然Midjourney没有公布体能训练数学模型花费的产品价格与订阅采用者形成,假如只有1%的采用者依照此基础版订阅,那么三个月来,Midjourney能获得81亿英镑的销售收入。假如订阅采用者将所得相片民用且收益超过每月2亿英镑,则需要支付Midjourney 20%的分为,特殊情况能与官方签订协议,商讨其他分为比例。
不过并非所有的子公司都收费项目,比如说Disco Diffusion、Imagen、Dream by WOMBO在现阶段都能完全免费采用。并且绝大多数子公司都放弃了AI聚合相片的版权。
去年11月3日,新西兰、印度和英国制定了赋予AI艺术聚合器开发人员版权的法律。其中,英国的版权法规定,聚合文学经典作品、舞蹈、音乐或视觉艺术的AI程序开发人员是合法音乐创作者和版权所有者。
不过由于AIGC仍然是两个新生事物,针对这一小部分的立法仍普遍滞后,并且现有的相关版权法律也存在模糊、不可适用的空间。比如说依照中国《著作权法》的相关解释,两个经典作品的作者或者属于自然人,或者属于法人或非法人组织,但AI本身均不属于这几类。依照现行法律解释,采用AI音乐创作经典作品的人、AI程序的开发人员、人员所在的子公司或组织,能否被认为是作者,有较大争议。
因此,做设计的周凝认为,即使一些平台主张版权归自己所有,这种宣称也未必合法。但同样,假如AI聚合的相片与某些人类经典作品极为相似,那么拿此类相片售卖和采用不一定没有侵权风险。
“这是两个有争议的地带,各方起诉都有胜诉概率,只能期待未来出现谁起诉谁、援引什么法案、如何判决的司法案例,并以此推动法案的修正。”周凝对《第一财经》YiMagazine说。
不过,即使现在火速立法,也不代表AI油画就能小规模民用。技术不够成熟,是最主要的制约因素。
比如说虽然Midjourney早已能绘制惟妙惟肖的人物肖像,和极具质感的风景大作,但这些场景通常是单物体、单对象,或者是宏大图景,并且很多是静态的画像。
此前,一些采用者发现,号称“能画尽天下事”的AI油画在实际油画过程中其实总会出现偏差。比如说输入“三文鱼逆流而上”,出现的相片是三文鱼片在水里游泳,输入“熊吃三文鱼”,AI则没有识别出“吃”这个动作。
为了测试AI算数工具还能画出多离奇的图画,有采用者输入“少女拿筷子吃面”,出现的相片是少女一只手把面塞到嘴里,一只手拿着筷子;当输入“少女睡在地板上”出现的画面则更加奇怪。
周凝对此解释称,当输入两个以上的角色介绍时,扩散数学模型可能会混淆属性,并且AI通常很难理解“动作”描述。比如说输入“少女拿筷子吃面”这句描述,AI对于“拿”和“吃”这两个动词通常是无法精准理解并绘制的;诸如输入“太空人在太空拽住了一匹马的尾巴”这种相对更复杂的表述,AI更是没有办法理解。
此外,如前所述英文为主的数学模型体能训练出的国内AI算数工具,往往也很难识别具有当地文化特征的词语,比如说在国产AI算数软件Tiamat中输入“龙在天上飞”,默认出现的是西方意象中以蜥蜴、鳄鱼为原型,大型有翼、鳞片坚硬、四肢粗壮的恶龙,而非中国以蛇为原型,大型无翼且悬浮、两个杈角、长须蛇身四足的龙。假如想要画出中国龙,则需要加一些限定词。
当然,无论如何,技术突破带来的新鲜感总能吸引一众“尝鲜者”,广告与文娱成为AI算数软件最具商业化落地可能的行业,在游戏、电影场景绘制、绘本、插画概念图选择等具有高生产成本和低效能特征的场景中,AI也能以参与者的身份成为产业链中的一员。
能辅助原画,但不会让人人都成为画家
刘琳是一家文创子公司的创办人。一次,刘琳的团队想画两个类似宫崎骏风格的绘本,在圈内朋友的推荐下,她尝试了Midjourney。这是一款在去年下半年名声大噪的AI算数工具。去年8月在美国科罗拉多州举办的艺术博览会中,39岁的游戏设计师Allen就是用Midjourney聚合了一幅相片,在经过Photoshop加工之后,这幅名为《太空歌剧院》的经典作品战胜人类画手摘得数字艺术类别的桂冠。此举引发艺术界与技术界诸多争议。
采用后,刘琳发现,Midjourney画出的经典作品的确非常精巧,并且,经典作品完成度早已能达到她所预期的70%,构图、色彩不必挑剔,只需要让修图师修一修,很多图都能成为概念图。刘琳随后便买了Midjourney的会员。
在刘琳所在的插画行业,“概念图”是两个非常重要的概念,它是文档内容音乐创作的此基础。而在概念图的工业化批量生产中,人类的创造力早已无法赶上AI了。
面试插绘师时,刘琳发现,能“超越”AI算数软件想象力的插绘师寥寥无几,“我接触到很多插绘师,遇到不感兴趣的题材就卡壳了,不知道怎么画,但AI的想象力没有边界,即使画的不好,它也能画出来,无论是组合、色彩还是构图都很棒,虽然技术细节有一些问题,但也能提供更多思路,节省生产成本。”
以刘琳所采用的Midjourney为例,去年7月12日,Midjourney面向公众开放了测试版本,任何人都能调用它的AI机器人程序,输入自己的关键词(prompt)绘制相片。采用Midjourney,采用者能在1分钟内收到4张相片,且能回复调试词语予以修改。
不过,刘琳团队在制作绘本时,仍延续着传统的人工绘制方式,Midjourney的作用更多是在音乐创作初期寻找“人设”上。比如说在以北京兔爷儿为原型的绘本制作过程中,插绘师就是通过一些与兔子相关的词汇,采用Midjourney聚合上百张兔子相片,再在其中选择原型,并加以修改、调整。
为什么间接用AI算数工具聚合绘本不大可能?刘琳向《第一财经》YiMagazine解释道:“虽然AI能‘引经据典’,从数十亿张相片中学习油画风格、技巧,但它本身不具备用严谨的逻辑讲故事的能力。”而对于绘本来说,文字能力与油画能力同样重要。
商业需要逻辑,油画也需要逻辑。假如对这些AI聚合的相片稍作细致分析便会发现,AI所绘带有故事性的画面往往有较大瑕疵,比如说房子和房子会重叠出现,上下篇章的油画风格也因AI聚合相片的随机性而无法统一。
在周凝看来,“相片转文字”依然是一件拥有一定门槛的事。假如要让AI画出称心如意的经典作品,采用者需要熟练掌握“关键词”。而Midjourney和国内各类AI算数软件也各自都有相应的社区分享关键词。对于绝大部分的采用者而言,输入适合的“关键词”仍然是非常复杂的技能——不是人人都能掌握,更不是掌握了就一定能够稳定产出的。
因此,虽然从大V、博主、UP主到新媒体小编,再到所有需要海报、包装设计、产品展示的从业者,他们都能借助AI获得“油画自由”,但假如想要一下变成“画家”,会用AI算数工具还远远不够。其一定的“门槛”,也让AI原画/修图随即成为了一项新职业。
不过在周凝看来,虽然确实有一批人率先掌握AI算数的能力,并以此“日赚千元”,但是这只是新技术出现早期的信息差所带来的认知红利。“‘日赚千元’是不可持续的。AI的发展速度很快,或许半年后,AI原画就会变得非常普及。而且目前AI聚合的相片,其版权处于混沌状态,这样做会有潜在的侵权风险。”
刘琳则认为,AI油画的确能取代一些此基础的、繁琐的、执行层面的原画过程,这要求绘师只能通过不断寻找更新锐的创意、更自我的风格来脱颖而出,在一定程度上提高了绘师就业的难度,但据她预估,在未来5到10年内,最好的绘师不会被取代。
“AI能不断体能训练、提升油画技能,但绘师音乐创作过程中涌现的想法是很难被取代的,而这些创意想法、创造能力、对人类社会逻辑关系的把握,才是顶尖绘师之所以成为高手的重要原因。”
想象力不等于自我意识
伴随AI技术的进步,“AI是不是要超过人类”似乎总能成为每一次新技术推广时人们谈论的热门话题。
现如今,AI是否具备自主意识,仍然是两个无法被证实也无法被证伪的概念。去年6月,Google人工智慧开发团队的软件工程师Blake Lemoine因与第三方分享项目机密信息而被停职后申明声称,在子公司服务器上遇到了“有感知能力”的AI,尽管这一判断并非以科学家的立场提出。Lemoine认为,Google应用语言数学模型LaMDA早已具有自我意识,其表现类似七八岁小孩,他试图用实验来证明这一点,但当他在子公司内部提出这个问题时,被子公司高级管理人员拒绝。Google发言人回应称,对话数学模型没有感知能力,证据不支持工程师的说法。
周凝表示,追溯AI油画的全流程,前期AI算数软件的数学模型需要大量的人类经典作品的“喂养”,AI聚合的相片是否被接受,对其审美、质量的评价体系也建立在人类审美认知的此基础上。AI绘制的内容,其诞生更多是如前所述人类授予的命题与构想,AI本身并不具备自主的生产意识,因此,目前在AIGC这件事情上,它只能作为两个辅助人类音乐创作的工具而存在。
“AI算数软件是两个很好用的工具,对我们来说,其最大的价值就是作概念图,AI的‘想象力’是无边界的,能让人类低生产成本试错。但AI并不能将学习到的技法变成灵感、创意的来源。每一AI在自己所在的环节做能做的事情就够了。”刘琳说道。
时下,除了火爆的AI算数软件,反AI数据库,和illuminarty等识别AI原画的软件也相应而生。去年10月,插画网站Pixiv发布公告,今后将为AI聚合的经典作品打上单独的“AI聚合经典作品“标签,以便和人类画手的经典作品完全区分开,采用者能单独搜索AI经典作品,AI经典作品也会有专门的排行榜。
Pixiv认为,正如迄今为止诞生的素材、影像制作软件等,AI技术今后也有可能成为音乐创作者们的得力助手。
不过在刘琳看来,在商业世界,区分人类音乐创作者与AI音乐创作者其实缺乏意义,当她来判断概念图可否采用时,更多是看经典作品是否达到产业的标准。
周凝则将这些由AI油画引起的连锁反应统称为“副产物”,“这只是阶段性的现象,新的技术出现,往往会重塑两个行业,或给两个已有产业链带来全新的形式补充。”