hwyzw 发表于 2025-3-7 14:25:34

探索Disco Diffusion:AI艺术创作的奇迹与未来发展趋势

    先来欣赏几张美丽的场景图吧。

    色彩搭配和谐,构图也得当且有冲击力。一眼看过去,大部分人也许都会认为它们是出自某位技艺成熟的画家之手。然而,实际上以上图片均截取自 Quick-Eyed Sky 的 Disco 三分钟展示视频。

    Disco 是一个输入关键词就能出图的 AI 创作程序,目前它是一个开源项目,任何人都可以参与玩耍。不过,因为它还没有像软件那样被封装起来,所以目前只是在谷歌的 Colab(又称 Colab)中以代码的形式展现出来。

    近年来,人工智能技术发展得很迅速。在艺术创作领域,像 AI 写作、AI 绘画以及 AI 编曲等,早就不是新鲜的事情了。随着人机交互界面更加友好且得到推广,现在普通大众只要打开开发者提供的网页,轻松地进行几步操作,就能够体验到 AI 技术的魅力了。

    这次我们给出了四款人工智能创作工具,它们号称用嘴就能画画(输入关键词就能出稿)。我们要告诉大家这些工具如何使用,同时顺便做一个使用方法和出图效果上的比拼,看看哪款 AI 最易上手,效果最好。

    Disco :百依百顺的乙方

    Disco 是由艺术家设计的,它具备强大的关键词转图像的能力。因为代码托管在 Colab 上,所以所有的渲染过程都能够在线上完成,无需依赖使用者的电脑进行运算。

    创作者的推特

   用 Disco制作的视频

    初次打开 Disco 的使用界面,你或许会被众多的代码所惊吓到。然而,实际上只要依照以下这些步骤来进行调试,要使用它其实是很容易的。

    满是代码的界面容易让人望而却步

    首先往下拖动网页,找到第三项。在右手边的“Basic”中,我们能够对生成图像的品质进行设置。

    “Step”指的是 AI 生成迭代的次数。“Step”的数值越大,运算所需的时间就越长。然而,艺术品在某种程度上是偶然性与美的相互碰撞。即便运算次数增多,也不能说明出来的作品就一定好看。

    下方的「width」指的是成图的图片尺寸,这里只能输入 64 的倍数,像 1280、768 等。尺寸越大,渲染时间就越长。

    在“”里面存在一个名为“Init ”的部分,将图片的地址输入到“”中,就能够使程序以某张图片为基础并参照其进行运算。

    点击下图圈选部分可将本地图片上传,接着选中列表中的图片,在右键菜单里找到“复制路径”把地址复制下来,然后粘贴到“”处就可以了。

    接下来就是最为重要的、关于通过关键词来描述画作内容的部分。往下拉,找到“”中的“”项,便能看到“”。

    语句中的方括号和引号不要改动

    在「」中代码中默认的语句为:

    “A 中的一个 ,它的光 被格雷格和 渲染成一片血海 ,在 上 。” ,“颜色”

    翻译过来就是:

    画家 Greg 绘制了一幅作品,这幅作品是关于一座奇异灯塔的。这座灯塔在汹涌的血海中闪耀着。这幅作品以某为参考库,并且采用了黄色配色。

    若要改变画的内容,只需依据格式对语句中相应的关键词进行调整,同时要注意逗号、双引号等需用英语。

    你除了能够更换关键词,还可以对每个关键词设定权重。例如,当你的画家风格是“Van Gogh and Monet(梵高和莫奈)”时,你可以写成“Van Gogh:3”并且“Monet:2”,意思是作品有三分像梵高,两分像莫奈。

    有时候我们若希望某个元素不在画面中呈现,那么我们还能够将数值设定为负数。

    请给我一张三分像梵高,两分像莫奈的万里无云的天空画

    最后我们能够在第四项「!」的「」里设置一次生成图的数量(变体),也就是说,如果在此处输入 5,那么最终就可以得到 5 张图(图的数量越多,所需时间就越长)。

    完成以上重要参数设置之后,在页面的上方去点击“代码执行程序”这个按钮,接着在菜单中选择“全部运行”,之后程序就会开始运算。

    免费用户通常分配到的是的 Tesla K80 显卡电脑,线上渲染的速度较为缓慢,一张具有默认尺寸和迭代次数的图大概需要一个半小时到两小时左右才能完成。

    如果等不及,那么可以选择“连接到本地运行时”,然后用自己电脑的显卡来进行渲染。不过,这需要用到“笔记本服务器”等工具,在此就不展开说明了。

    https://img1.baidu.com/it/u=3364896879,1440650559&fm=253&fmt=JPEG&app=120&f=JPEG?w=786&h=500

    接下来是一个漫长的等待过程。当你拉到“!”底部时,你能够看到自己的图片从一片模糊逐渐变得清晰的变化过程。

    程序底部有运算持续时间和目前步骤显示

    之前程序提供了默认语句,我依据此生成了一张海上灯塔的图片,这张图片的画面效果非常好,是一流的水平,用它来做桌面背景是完全可以的,没有任何问题。

    接下来我又改动了一些参数,再生成了两张图,描述语句如下:

    一张机械天使的画,其翅膀在夜空中挥动,这幅画是士郎正宗创作的,是以某个东西为参考库的,采用了蓝色配色。

    默认画质,耗时 1.5 小时

    「 (赛博朋克车站)」

    448*448 像素,耗时 45 分钟

    这两张图片都可以说是切题的。“机械天使”图虽未体现“夜空”这一关键词,但其构图有特色,且天使能展现出明显的机械感,至于这幅画是否有士郎正宗的神韵则因人而异。

    在“车站”图的上方,我们可以看到列车以及电缆等要素。红色和绿色的霓虹灯,还有屏幕等,它们都是典型的赛博朋克元素。然而,美中不足的是这些元素的完成度并不高。

   :风格迁移神器

    相比起 Disco , 用起来就简单多了。

    网页提供了两款智能绘图工具。左边的是“Text to Image(文本转图像)”工具,它类似于 Disco ,能够输入关键词来生成图像。右边的是“Style(风格迁移)”工具,它可以把用户上传的照片换成名画风格。

    首先来测试第一个功能。在“Your text ”下方的方框里输入关键词,例如:A city by(被机械包围的城市),接着在下方 16 种风格中选取一个。

    选择纹理优先还是构图优先,然后点击最下面的“”,等待几分钟,就会生成一张方形的图。

    成图过程

    如果对默认图像的尺寸不满意,你可以在关键词输入界面打开“Show(显示高级选项)”。在这种模式下,你既能自定义图像的尺寸,又能设定多张参考的底图。

    使用风格转移工具很简单。首先上传一张照片,接着从 64 种名画风格里挑选一个,然后等待 1 - 2 分钟,一张令人惊艳的图片就诞生了。

    把之前含灯塔、车站和天使这些关键词的内容,在去掉作者以及参照库后输入到某个地方,接着我们就获得了以下三张图片。

    关键词:一座在汹涌的血海中闪耀的奇异灯塔,黄色配色。

    关键词:一张机械天使在夜空中挥动翅膀的画,蓝色配色

    关键词:赛博朋克车站

    个人认为所有图片中效果最好的是天使的画。它走的是较为抽象的路线。那一双翅膀像卫星的太阳能接收翼,体现出了机械和天使的组合元素。角色的动作很生动。在 AI 的启发下,我忍不住也参照着画了一张。

    自认没有 AI 画得有意思

    赛博朋克车站的效果表现平平。灯塔图的效果较为普通。画面中出现了诸多相似的灯塔,看起来像是为了布满画面而多次进行了复制,从而导致了这种情况。

    :中文关键词,一次八张图

    本次测试中仅它支持中文输入,由清华大学唐杰团队研发,出图时间 1 - 5 分钟,一次能生成八张图,尺寸不可调。

    从网页会将输入的英文关键词翻译为中文后再进行运算这一情况来推断,该程序应当是在以汉语作为语言的环境下进行训练的,在那些只能接受英文输入的同类 AI 当中是很特别的。

    该团队去年发表的论文

    https://img1.baidu.com/it/u=2092653973,1380849915&fm=253&fmt=JPEG&app=138&f=JPEG?w=833&h=500

    这款程序最为擅长的是生成真实的照片,而非艺术绘画。例如,当我们输入“黄豆组成的字母 b”时,AI 能够给我们提供八张符合该描述的真实照片。

    已在各个搜索引擎确认过网上并无现成的类似图片

    之前的,无论怎样切换风格,都只能产出类似下图那样的“艺术作品”。

    当关键词涉及绘画时,就稍显逊色了。例如,当我们想要用“Oil Style(油画风格)”来生成之前描述过的那座塔时,八张生成的图像更像是照片,而不是画作。

    赛博朋克车站的画面效果较为出色。它本身是建筑物,这或许是其效果好的原因之一。并且这种描述也适合写实风格。

    在重新生成灯塔的图时,为使它更像画作,我将其切换成了水墨风格。在这么多款 AI 中,它是唯一真实还原了“sea of blood(血海)”的,但给人的感觉有点诡异。

    机械天使的油画出图效果不太好。八张成图都显得很抽象,让人难以进行评价。

    据说我们现在习惯的俊美人形带洁白翅膀的天使形象是文艺复兴时期美化后的。《旧约》中描述的天使外貌原本千奇百怪,因为天使是超越人类认知能力的存在,不可能和人长得一样。

    旧约中描绘的座天使

    WOMBO Dream:界面美观,作品重艺术感

    WOMBO Dream 这个工具在另一篇介绍 AI 绘画的文章中被介绍过。我觉得它的界面是本次介绍的几款中最漂亮的,成图时间也是几款中最短的,大概需要 30 秒。

    操作过程和   很像这里就不赘言了,直接上图。

    关键词:一张机械天使在夜空中挥动翅膀的画,蓝色配色

    关键词:一座在汹涌的血海中闪耀的奇异灯塔,黄色配色。

    关键词:赛博朋克车站

    该程序仅支持最多 100 个英文字母的输入,所以有些关键词我们必须进行删减。从三张图片中能够看出,WOMBO Dream 的成图在追求“画感”方面表现得很突出。

    所谓“画感”,简单来讲就是能让人一眼就看出是一幅画出来的作品,而非摄影作品或者 3D 模型摆拍的作品。并且,程序自带的塔罗牌式画框或许对“画感”的形成有着帮助。

    在画廊中右键另存为可以保存不带画框的图片

    总结

    现在对四款 AI 作图工具进行总结。其一,所有程序均为网页版;其二,这些程序都可以免费使用。

    Disco 能够达成最为复杂的关键词描述,它具备很多可自行设置的参数,是一个充满待探索之处的巨大宝库。然而,它的成图时间较为长久,并且操作界面也相对较为复杂。

    WOMBO Dream 能快速产出作品,它界面更好看,出图自带画框。而另一个(指前面未提及的那个)可以对画面尺寸进行设置,还能容纳更多的关键词。

    它的好处在于能够支持中文关键词,在现实照片生成领域具有优势,同时无法对图片尺寸进行自定义。

    多款 AI 设计工具变得火热之后,有人开始忧虑画家的工作是否会被替代。Disco 爆红之后,公众号设计青年实验室邀请了几位设计大咖,让他们谈谈自己对 AI 作画的感受,其中插画师疯景如此说道:

    如果有一天 AI 把更多的价值给取代了,那我就会努力去寻觅新的价值,事情到了那时候自然就会有办法的。

    生产力的发展会引发生产方式的变革。我们知晓印象派的诞生是因为 19 世纪摄影技术的发明。当人们明白无论怎样绘画都无法比照相机更逼真时,朦胧、个性、抽象等特质反而变得极为珍贵。

    莫奈的代表作《日出印象》

    如今,AI 画手的出现给我们的艺术界带来了新的挑战。艺术家们为了捍卫自己的领域,将会采取什么样的策略来应对呢?我们可以拭目以待。

    Disco :

    :

    WOMBO Dream:

   :
页: [1]
查看完整版本: 探索Disco Diffusion:AI艺术创作的奇迹与未来发展趋势