首页 130资讯文章正文

新的AI图像生成工具的新潮有多好。

130资讯 2025年06月13日 18:55 10 乐悦

  AI生成的图像在这里。在几秒钟后弹出的内容,精美的插图 ,素描或照片键入您想看到的内容的简单描述。通过利用机器学习的力量,高端图形硬件现在能够以最少的人类输入来创建令人印象深刻的专业级艺术品 。但是,这如何影响视频游戏?现代标题非常富有艺术性 ,需要无数的质感和概念艺术。如果开发人员可以利用这项技术,那么资产产生的速度和质量也可能会从根本上提高。

  但是,与任何开创性的技术一样 ,也有很多争议:如果机器学习可以如此迅速,如此轻松地产生高质量的图像,艺术家扮演什么角色?以及用于训练这些AIS的数据中有什么 - 是否有一个论点是 ,通过有效地传递人类艺术家的作品来创建机器学习生成的图像?一旦这些技术达到一定程度的有效性,就有一些主要的道德问题要解决 - 并且基于我看到的快速改进,可能需要早日解决这些问题 。

  同时 ,本文的重点是查看这些技术现在的效率。我尝试了三个领先的AI发电机:DALL-E 2 ,稳定的扩散和Midjourney。您可以在下面的嵌入式视频中看到这些技术的结果(实际上是在此页面顶部的拼贴画中),但是要清楚,我通过使用其网络门户或在本地硬件上直接运行它们 ,生成了所有这些技术 。

  目前,使用AI映像生成器的默认方法是通过称为“提示”的东西。从本质上讲,您只需编写您想要的AI生成的内容即可为您创建它。例如 ,使用dall-e 2提示的最佳方法似乎是结合简单描述,以及某种样式,或指示您希望图像的外观 。在提示结束时附加大量描述符通常有助于AI提供高质量的结果。

  奥利弗·麦肯齐(Oliver Mackenzie)对三种主要AI图像创建工具的分析具有Oliver本人创建的“自制”图像 ,从头到尾。

  还有另一种提示形式,涉及为软件提供一个基本图像,以及一个口头提示 ,从本质上指导软件创建新图像 。现在,这仅在稳定的扩散中可用 。像许多其他AI技术一样,AI图像生成可以通过对各种输入进行采样(在这种情况下是图像的数据库)来工作 ,并根据该工作提出参数。在广泛的笔触中 ,它类似于DLSS或XESS的工作方式,或其他机器学习应用程序(例如Text Generator GPT-3)。在某种程度上,AI正在学习如何使用超人的多功能性和速度来创造艺术 。

  至少从概念上讲 ,AI艺术生成应受其数据集的限制 - 它经过培训的数十亿张图像和关键字的集合。在实践中,有很多投入,以至于已经对这些工具进行了培训 ,以至于它们最终变得非常灵活。最好,他们在受到复杂或抽象的提示时表现出类似人类的创造力,就像AI从某种意义上说 ,我们通常如何理解和分类视觉信息 。另外,图像发生器基于随机种子产生输出 - 这意味着相同的关键字每次运行时都会产生不同的有趣新结果。

  对视频游戏行业的积极影响很多。例如,重新制作者变得越来越普遍 。但是 ,较旧的头衔带有技术行李。有些问题很容易克服,但是更新来源艺术品(尤其是这些游戏的纹理)通常需要大量的精力和时间。在这种情况下,毫不奇怪的是 ,当AI升级技术从2020年左右开始流行时 ,他们立即看到了各种各样的修复工作的用途 。诸如Chrono Cross:激进梦想者版,质量效应传奇版和“权威版 ”侠盗猎车手游戏之类的游戏都使用了AI升级来混合效果。AI高尺度的功能非常好,可以使用更简单的细节来使用相对较高的源艺术品 ,但是当前的AI高尺度模型确实在较低的分辨率艺术方面遇到了困难,从而产生了ratifact的结果。

  Chrono Cross:激进的Dreamers版本已经使用了AI高扫描的资产,但是新的图像生成工具可以想象可以带来更高的结果 。

  但是 ,如果我们生成全新资产而不是仅仅试图添加细节怎么办?这就是AI图像生成的来源 。例如,以Chrono Cross Remaster为例。原始游戏的艺术品的分辨率非常低,AI高尺度工作的工作合理 ,但最终看起来有些混乱。但是,如果我们将源图像馈入稳定的扩散并添加适当的提示材料,我们可以生成全新的高质量艺术品 ,以保持相似的视觉组成 。我们可以用相同的真菌形状和岩石重新绘制这个洞穴区域,只是在更高的忠诚度上。通过修改某些参数,我们可以通过重新诠释某些区域(例如中心附近的路径)来生成非常接近原始的东西的东西 ,或者通过重新诠释场景进行刷新。上面的视频中还有其他示例 。

  3D游戏中的传统纹理也是一个很好的目标。当今的大多数现代平台上 ,《生化危机4》运行,但其第六代时代的纹理工作看起来很混乱。现代游戏试图描述纹理工作中更复杂的细节,因此仅仅对原始纹理进行尺寸化或抬高采样并不能很好地工作 。同样 ,通过使用原始纹理资产作为输入,我们可以生成具有更自然的细节的高质量艺术品。该软件以我们的口头提示作为指南重新诠释了原始作品,从而产生高忠诚度。

  当然 ,您可以应用相同的技术来创建游戏原始资产 。提供诸如照片或插图之类的源图像,并为您的游戏生成新的纹理资产或艺术品。另外,您可以提供提示 ,并允许AI系统生成全新的艺术,而无需图像直接引导它。这里的可能性似乎无休止 。游戏行业的资产创造是对开发资源的巨大限制,这些工具有可能大大加快工作流程 。

  在左上角 ,比较了Chrono Cross Original和AI上的AIP尺寸模式。其他三个图像显示了相同内容的替代AI可视化。单击图像以获取更高的分辨率 。

  潜在地,对于这些应用程序,稳定的扩散似乎非常强大 ,因为您可以免费在计算机上一次轻松地排队数百张图像 ,然后挑选出最佳效果。DALL-E 2和Midjourney目前也不允许您从特定的源图像中工作,因此尝试匹配现有艺术品更具挑战性。稳定的扩散还可以选择生成可覆盖的图像,这应该有助于创建纹理 。

  我可以看到这些工具也在生产过程中的早期使用。在开发过程中 ,工作室需要无数的概念艺术。该艺术品倾向于指导游戏的外观,并为游戏的模型和纹理提供参考 。目前,这是使用数字工具(例如图形平板电脑)手工完成的 ,并且非常富有劳动力 - 但是AI Art Tools能够非常快速地生成艺术品。插入一些参数,您可以轻松地生成数百个示例要使用。角色,环境 ,表面 - 在某些不错的提示和处理时间的片刻中生成都是微不足道的 。

  关键概念艺术技术也转化为这些AI工作流程。通过查看3D模型或粗略的素描并进行“油漆”,这是艺术家在一个场景的简化表示中绘制细节时,就可以制作许多概念艺术。通过喂食AI A基础图像来指导组成 ,我们可以做完全相同的事情 。我们可以为其提供基本的草图,一个3D模型,甚至最简单的构图图 ,它可以从中创建高质量的概念艺术 。只需阻止最基本的视觉形状 ,将其与口头提示结合在一起,您可以获得与构图中所需的相匹配的出色结果。

  游戏开发的用途很多,但是根据我们的测试 ,概念艺术看起来很合适。只是不要指望从一部分到作品的统一“视觉” - 可能会出现问题 。

  令人印象深刻的结果是可以实现的,但重要的是要强调当前的AI模型几乎不可行。实际上,在多个艺术品上锻炼一致的美学可能会很棘手 ,因为即使是一组相同的描述性关键字,结果都取决于您要描绘的内容。商业艺术品中的不同主题领域倾向于使用不同的技术,这反映在AI输出中 。要产生一致的图像 ,您需要仔细设计提示。即使您仍然需要一些类似的东西,也需要一些挑剔的东西。AI艺术似乎确实是一个非常有用的工具,但目前确实有限制 。

  过去 ,我从事数字艺术以及大量使用自己的插图和图形艺术的运动图形。AI图像生成工具似乎非常适合这种工作,因为它们需要大量的艺术品。您还可以想象一个未来的AI能够实时为整个图片产生这些结果 。目前,即使在快速GPU上 ,这些技术也需要几秒钟的处理 ,但是新硬件和优化的组合也许可以产生足够好的结果,以便在运行时使用。

  当然,简单地拍摄生成的图像并将其插入常规图像编辑程序以纠正任何错误或添加或删除元素也很容易。一些小的修饰可以消除任何分散注意力的人工智能或错误 。还要记住 ,未来的AI图像生成软件可能比这更令人印象深刻 - 尽管这些软件并不是第一代项目,但直到最近,该领域的研究和产品开发一直受到限制 。我希望潜在的“ dall-e 3 ”或“稳定器扩散”能够带来更具吸引力和一致的结果。

  使用最基本的艺术大纲与文本提示相结合 ,AI图像生成可以很少努力产生一些高质量的结果。

  显然,这些产品现在可以很好地工作,那么哪个是最好的选择?在质量方面 ,DALL-E 2非常能够解释抽象输入并产生创造性的结果 。如果您想具体,可以,但是当给出模糊的提示并留在自己的设备上时 ,AI通常可以很好地工作。这是非常有创造力的 - Dall -E能够根据宽松的想法和主题明智地将概念联系在一起。通常,它也非常擅长创建连贯的图像,例如 ,始终生成具有正确数量的四肢和正确比例的人类 。

  稳定的扩散往往需要更多的手工握。目前 ,它很难理解更多的一般概念,但是如果您为它提供了很多关键字,它也可以带来很好的结果。稳定扩散的最大优势是其图像提示模式 ,这非常强大 。而且,如果您打开设置,则可以获得一些极高的结果 - 可能是当前AI发电机中最好的结果。

  Midjourney擅长于风格化 - 以现有的概念为例 ,并像某种类型的绘画或插图一样渲染它。它在简单的提示中也非常有效,并且可以提供非常高质量的结果 - 但也许“创意”也许有点少 。Midjourney还倾向于表现出比其他两个发电机更多的AI工件,并且通常存在保持正确比例的问题。我认为 ,这是三个中最糟糕的。

  dall-e

  稳定的扩散

  Midjourney

  价格(美元)

  每张图像$ 0.10

  免费(在本地运行时)

  免费层,无限图像的每月30美元

  可用性

  仅邀请

  打开

  打开

  使用权

  网站

  网站/本地计算机

  网站

  来源

  关闭

  打开

  关闭

  Dall-E 2和Midjourney都是基于商业和基于Web的,但具有易于使用的相对光滑的Web界面 。自从4月推出以来 ,Dall-E 2不幸的是仅邀请它,尽管您可以根据需要申请候补名单 。另一方面,稳定的扩散是完全免费的和开源的。真正的好处是 ,稳定的扩散可以在本地硬件上运行 ,并且可以很容易地集成到现有的工作流中。

  没有一些性能分析,这将不是数字铸造 。dall-e 2比Midjourney快得多,尽管这两者都通过Web门户运行 ,您的个人硬件并不重要。目前,DALL-E 2通常需要大约10秒钟的基本图像生成,而Midjourney需要一分钟左右。运行稳定的扩散本地产生可变结果 ,具体取决于您的硬件和输出的质量水平 。

  在512x512的分辨率下,细节较低的步骤计数仅需三到四秒即可在我的笔记本电脑上使用移动RTX 3080创建图像。但是,提高细节的水平并增加了分辨率 ,每个图像需要30或40秒才能解决。使用更高级的采样器也可以增加生成时间 。还有许多其他可供下载的稳定扩散的实现,其中一些可能与我正在运行的简单GUI版本有很大不同,尽管我希望性能特征应该相似。

  在左侧 ,Midjourney提供了对像素计数器的AI解释,而在右边,Dall-E 2在可视化视频游戏分析师时拍摄了一枪。

  要正确运行稳定的扩散 ,您将需要使用尽可能多的VRAM进行10系或更高版本的NVIDIA GPU 。使用8GB在我的移动设备3080上 ,我可以生成最高640x640的图像,尽管当然,您可以在此之后添加这些图像 ,以获得更清洁的结果。还有其他方法可以使稳定的扩散启动和运行,包括在AMD GPU以及基于Apple Silicon的Mac计算机上运行的解决方法,但是使用快速的NVIDIA GPU是目前最直接的选择。

  根据我的经验 ,AI图像生成是一种令人惊叹的破坏性技术 。输入一些单词,然后拿出图片 。这是科幻小说的东西,但今天在这里 ,效果非常好 - 请记住,这只是一个开始。该技术的用例已经很丰富,但我确实觉得我们只是看到了冰山一角。高质量的AI图像生成仅在很短的时间内广泛使用 ,每天都在弹出新有趣的集成 。尤其是,游戏似乎是一个潜力很大的领域,尤其是当技术变得更广泛地理解时。

  目前 ,最重要的障碍是定价。如果您想在本地运行它 ,则使用dall-e 2的使用相当昂贵,而稳定的扩散本质上需要相当快的nvidia gpu 。获得高质量的图像通常需要丢弃大量不良的图像,因此AI工具可能很昂贵 - 无论是金钱还是及时。这些工具到底有多远?在过去的五个十年左右的时间里 ,AI艺术不过是一种有趣的新颖性,产生了没有商业目的的粗糙和模糊的图像。但是,在过去的一年中 - 特别是过去四个月左右 - 我们已经看到了一些非常高质量的AI解决方案的发布 。AI对艺术的推论是否会继续以迅速的速度进行 ,或者是否可能存在无法预料的限制,还有待观察。最终,一种强大的资产创造工具正在出现 - 我很感兴趣地看到它在我们玩的游戏中的使用变得多么普遍。

发表评论

头条130号 备案号:陕ICP备202505058号-1 sitemap 主题作者QQ:999999