AIGC革命:Web 3.0时代的新一轮科技浪潮
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

03 生成算法:实现内容生产智能化

近年来,由AI自动生成的绘画作品、诗歌作品受到广泛关注,掀起了AI创作的浪潮。2022年12月,由人工智能研究机构OpenAI推出的人工智能对话聊天机器人ChatGPT在社交媒体上迅速走红,这预示着人工智能时代已经到来,其中所运用到的关键技术就是AIGC。

AIGC的发展速度之快令人惊叹,根据其绘画作品来看,仅用了不到一年时间,就从略显生疏的阶段成长到了专业阶段,这让许多领域的资深从业人员感到焦虑。而随着深度学习模型的完善,AIGC“熟练度”的提高也为大规模的商业化应用提供了条件。

以AIGC图像生成功能为例,视觉信息基于其容易被感知、被理解与记忆、传播力强等特点,在多种场景中得到了广泛应用,并且在网络中跨平台、跨社群、跨领域迅速传播。随着AI技术的进步,生成高质量的图像信息成为人工智能系统的一个现象级功能。而要借助AI技术生成文字、图像、语音、视频等多种多样的内容,离不开算法建模。目前GAN模型、CLIP模型[注]、Diffusion模型(扩散模型)等算法模型(如表2-2所示)不断推陈出新,不仅在性能和稳定性等方面均有越来越优越的表现,其能够生成的内容的质量也在不断提高。

表2-2 AIGC相关深度学习模型

(1)GAN模型

2014年,AI深度学习模型“生成对抗网络”(GAN)问世后,并在多个领域得到应用,同时也作为AI绘画模型的底层技术,大大推动了AI绘画的发展。

GAN模型的原理实际上是让“生成器”(generator)和“判别器”(discriminator)两个内部程序互相“对抗”,最后输出二者相平衡的结果。在AI绘画过程中,由生成器生成图片,判别器判断图片是否属于正确类别。但这一模型的缺点在于:生成图像分辨率低;可能生成随机图像,对输出结果控制力不足;输出的图像始终是对现有作品的模仿,难以通过文字描述创造出新的图像。

(2)CLIP模型

2021年1月,OpenAI团队开源了深度学习模型CLIP,它集成自然语言理解能力和计算机视觉图像分析技术,通过约40亿个“文本—图像”数据的训练,以获得能够精准匹配文本和图像的能力。

CLIP模型开源后,加速了其在多个领域的应用推广,CLIP模型可以嫁接到其他AI应用中,从而为相关领域技术人员的参与提供条件。CLIP可以直接进行图像和文本之间的对比学习,并决定文字与图像的匹配程度,例如把狗的图像和“狗”这一名称匹配起来。另一方面,供应给CLIP进行学习的“文本—图像”素材并不来自通常使用的人工标注,而是利用广泛散布在互联网上的图片,这些图片通常带有标题或文字描述,相当于互联网用户已经完成了标注工作。海量的数据能够帮助CLIP获得强大的图像分析功能,同时节省昂贵的人工标注成本。

(3)Diffusion模型

在AI绘画的风潮中,Diffusion模型逐渐受到重视。Diffusion模型是图像生成的另一种解决思路。简单地说,其原理是先在原始图像数据中不断加入高斯噪声,扰动原始数据分布(即扩散阶段);然后在噪声中逐步修正转化,构造所需样本,再通过去噪点来还原数据(即逆扩散阶段)。由于是在原始像素信息层面上做计算,去噪生成图片的迭代过程很慢,且会占用大量内存资源,这导致了模型训练效率较低,生成高分辨率图像会带来高昂的成本。

2022年7月,优化后的Stable Diffusion应用上线测试,它将数据迭代降噪的过程放在一个被称为“潜在空间”(Latent Space)的低维空间里进行,大幅降低了对算力和内存要求,提高了计算效率和模型训练效率。这一创新使AIGC技术有了突破性进展。Stable Diffusion应用在不到半年的时间内就出现了大量的二次开发,模型不断得到优化,应用功能也不断拓展,有效降低了用户的使用门槛,目前已经成长为AIGC绘画领域的最热门应用。

总体来看,CLIP模型下的海量互联网图片为AIGC提供了训练数据,GAN模型、Diffusion模型则为AIGC提供了算法思路,再到Stable Diffusion模型的算法创新,促使迭代效率、计算资源方面的问题得到解决。由此,我们可以看出,深度学习模型的不断完善,推动了AIGC绘画在短时间内有了跨越式发展。

在训练数据集层面,AIGC绘画应用的训练需要大量图像数据资源。全球非营利机器学习研究机构LAION于2022年3月开放了迄今为止规模最大的多模态“文本—图像”数据集LAION-5B,以用于AI图像模型的训练,LAION-5B包含58.5亿个文本—图像对(Image-Text Pair),涵盖多种类型的图像、多种语言的文本,有助于AI模型的训练和对其进行不同方向的研究。而正是CLIP和LAION的开源,构建了当前AI绘图应用的核心。开源模式有助于充分调动社会资源,激发社会创造力,使技术创新快速推进,得益于此,AIGC将加快发展成熟。