人工智能 (AI) 图像生成器可以根据大量训练数据集,生成各种风格、细节详实的图像。
阅读本文后,您将能够:
复制文章链接
人工智能 (AI) 图像生成是一种用于生成视觉内容的生成式 AI。它使用数学分析来识别并复制照片和插图中的图案。简而言之,AI 图像生成器根据一组示例来创建图像。
AI 图像生成器建立在一种称为神经网络的专门机器学习模型基础之上。通过使用高级统计分析,以及开发人员的适度微调,图像生成器可以生成各种风格、细节详实的相关图像。
与其说 AI 图像生成器是一位手执画笔的艺术家,不如说它是一个对可能获胜的体育赛事结果下注的赌徒。从统计学角度来看,它生成的内容有可能满足了收到的请求;而且它创建的内容基于早已存在的内容,就像赌徒可能会在下注之前调查运动员过去的表现一样。
AI 图像生成器可以创建逼真的照片,也可以编辑早已存在的图像。与其他类型的生成式 AI 一样,AI 图像生成模型可以解读自然语言提示然后创建相应的图像。“画一副大象的图片”是一个有效的提示,虽然此类提示可能需要优化才能生成提示者心目中的图像。
生成式 AI 是一种深度学习模型,可以生成文本、图像、计算机代码、音频或视觉内容。作为一种机器学习,它依赖于对样本数据集的数学和统计分析,才能生成统计学上可能与提示相关的内容。换句话说,生成式 AI 可以根据其过去见过的示例快速制作内容。
如上所述,AI 图像生成使用机器学习构建,机器学习是一类无需明确指令即可学习的高级计算机程序。具体来说,AI 图像生成建立在神经网络的基础之上。
神经网络是一种深度学习计算架构。从本质上讲,神经网络是一种模仿人类大脑结构的计算模型。它们是一组称之为“节点”的处理单元。节点相互传递数据,类似于人脑的工作方式,神经元之间相互发送电脉冲。
AI 领域中有许多不同类型的神经网络。大多数图像生成 AI 模型使用的特定类型的神经网络称为生成对抗网络 (GAN)。GAN 有两个工作流:其一是生成图像,其二是将这些图像与现实生活中的示例进行比较并识别错误。因此,基于 GAN 的模型能够自我训练并持续优化。试想一下,一位画家通过模仿过去的名作,然后将自己的作品与真实的作品进行比较来学习。
虽然不同类型的生成式 AI 可能会使用相同或相似的算法,但图像生成模型使用视觉图像集来训练,而不是像 ChatGPT 和其他大型语言模型 (LLM) 那样使用大量文本进行训练。
任何类型的生成式 AI 模型都可能会导致产生 AI 幻觉,图像生成 AI 也不例外。这些幻觉的表现形式是图像中存在不准确:例如,当要求生成一幅人物肖像时,人物主体的手上出现了一根多余的手指。借助充分的提示和改进,通常可以消除此类幻觉。
人类创作的所有创意作品都受版权保护,除非创作者放弃版权或版权到期。可以通过许可,将著作权转让或出售给其他方。
图像许可分为以下几个等级:
AI 生成的图像不受版权法保护,因为这些图像不是由人类创作。因此,此类图像通常会进入公共领域。
但问题在于,模型绘制图像所依据的训练数据集可能包含一系列许可的图像,而且可能还包含受保护的知识产权。如果 AI 图像生成器生成的图像与人类创作者的现有图像或其他公司拥有的品牌非常相似,这些当事方可能会起诉使用该图像的人。(例如,AI 生成的“超人”图像可能仍然受到与该角色官方图像相同的法律保护。)
更糟糕的是,一些 AI 图像生成模型以 AI 抓取机器人挑选的数据集为基础而构建,这些机器人在未经许可的情况下抓取网站上的文本和图像。事实上,对于无法阻止这些 AI 抓取机器人获取数据的公司来说,这正成为一个日益严峻的问题。因此,Cloudflare 创建了 AI 审核工具,帮助企业管控在其媒体和网站上肆意抓取内容的 AI 抓取机器人。
对于 AI 生成的图像,这取决于许可类型和所使用的图像生成服务。一些 AI 生成服务已根据其拥有版权的精选图像集合来训练模型。此类服务可能允许根据“创作共用”许可,将其服务生成的图像用于商业用途,即,任何其他人都可以使用这些图像。这使得商业用途复杂化,因为这些图像无法像原始图像、品牌或商标那样受到保护,以防被竞争对手利用。
Cloudflare Workers AI 提供全栈 AI 构建块,让开发人员能够将多种热门的生成式 AI 模型(包括图像生成器)集成到各自的应用中,并在全球 GPU 网络上运行。请查看此教程,了解如何开始构建 AI 图像生成器。