GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变,多模态推动AIGC内容多边形,使得AIGC具有更通用和更强的基础能力。
从计算智能、感知智能再到认知智能的进阶发展来看,AIGC已经为人类社会打开了认知智能的大门。通过单个大规模数据的学习训练,令AI具备了多个不同领域的知识,只需要对模型进行适当的调整修正,就能完成真实场景的任务。
AIGC对于人类社会、人工智能的意义是里程碑式的。短期来看AIGC改变了基础的生产力工具,中期来看会改变社会的生产关系,长期来看促使整个社会生产力发生质的突破,在这样的生产力工具、生产关系、生产力变革中,生产要素——数据价值被极度放大。
AIGC把数据要素提到时代核心资源的位置,在一定程度上加快了整个社会的数字化转型进程。
概念与定义
生成式人工智能——AIGC(Artificial Intelligence Generated Content),是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。
AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。
麦肯锡的定义:生成式人工智能旨在通过以一种接近人类行为,(与人类)进行交互式协作。 [1]
Gartner的定义:生成式人工智能是一种颠覆性的技术,它可以生成以前依赖于人类的工件,在没有人类经验和思维过程偏见的情况下提供创新的结果。 [2]
BCG的定义:生成式AI是一种突破性的人工智能形式,它使用对抗网络(GANs)的深度学习技术来创建新颖的内容。 [3]
TE智库的定义:生成式人工智能,将彻底改变人机交互的关系,并创造新的产能输出结构。它将在第四维度实现与人的思维同调,类似移动设备以人类外器官形态存在,AIGC将以外脑的形式存在于人类认知中。 [4]
南京大学数据智能与交叉创新实验室:为伴随着网络形态演化和人工智能技术变革产生的一种新的生成式网络信息内容。 [5]
信通院的定义:AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。
产生背景
1950年,艾伦•图灵(Alan Turing)在其论文《计算机器与智能(Computing Machinery and Intelligence )》13中提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的试验方法,即机器是否能够模仿人类的思维方式来“生成”内容继而与人交互。 [7]
某种程度上来说,人工智能从那时起就被寄予了用于内容创造的期许。经过半个多世纪的发展,随着数据快速积累、算力性能提升和算法效力增强,今天的人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。 [6]
2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为世界上首个出售的人工智能艺术品,引发各界关注。随着人工智能越来越多地被应用于内容创作,人工智能生成内容 (Artificial Intelligence Generated Content,简称AIGC)的概念悄然兴起。
人工智能的发展历史大致可以被划分为5个阶段。(1950~1974)人工智能概念的出现;(1974~1980)神经网络遇冷,研究经费减少;(1980~1987)专家系统流行并商用;(1987~1993)专家系统溃败,研究经费大减;(1993~至今)深度学习理论和工程突破。
使用计算机生成内容的想法自上个世纪五十年代就已经出现,早期的尝试侧重于通过让计算机生成照片和音乐来模仿人类的创造力,生成的内容也无法达到高水平的真实感。结合人工智能的演进改革,AIGC的发展可以大致分为以下三个阶段:
受限于科技水平,AIGC仅限于小范围实验。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·韦岑鲍姆(JosephWeizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来完成交互式任务。80年代中期,IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉(Tangora)”,能够处理两万个单词。
AIGC从实验性向实用性逐渐转变,深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和训练数据规模等都取得了重大突破,受到算法瓶颈的限制,效果有待提升。2007年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部完全由人工智能创作的小说《1 The Road》。2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
深度学习模型不断迭代,AIGC取得突破性进展。尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。其中主要集中在AI绘画领域:2014年6月,生成式对抗网络(Generative Adversarial Network,GAN)被提出。2021年2月,OpenAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。2022年,扩散模型Diffusion Model逐渐替代GAN。
AIGC是建立在多模态之上的人工智能技术,即单个模型可以同时理解语言、图像、视频、音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述、结合语义语境生成图片等。
现阶段国内AIGC多以单模型应用的形式出现,主要分为文本生成、图像生成、视频生成、音频生成,其中文本生成成为其他内容生成的基础。
文本生成(AI Text Generation),人工智能文本生成是使用人工智能(AI)算法和模型来生成模仿人类书写内容的文本。它涉及在现有文本的大型数据集上训练机器学习模型,以生成在风格、语气和内容上与输入数据相似的新文本。
图像生成(AI Image Generation),人工智能(AI)可用于生成非人类艺术家作品的图像。这种类型的图像被称为“人工智能生成的图像”。人工智能图像可以是现实的或抽象的,也可以传达特定的主题或信息。
语音生成(AI Audio Generation),AIGC的音频生成技术可以分为两类,分别是文本到语音合成和语音克隆。文本到语音合成需要输入文本并输出特定说话者的语音,主要用于机器人和语音播报任务。到目前为止,文本转语音任务已经相对成熟,语音质量已达到自然标准,未来将向更具情感的语音合成和小样本语音学习方向发展;语音克隆以给定的目标语音作为输入,然后将输入语音或文本转换为目标说话人的语音。此类任务用于智能配音等类似场景,合成特定说话人的语音。
视频生成(AI Video Generation),AIGC已被用于视频剪辑处理以生成预告片和宣传视频。工作流程类似于图像生成,视频的每一帧都在帧级别进行处理,然后利用 AI 算法检测视频片段。AIGC生成引人入胜且高效的宣传视频的能力是通过结合不同的AI算法实现的。凭借其先进的功能和日益普及,AIGC可能会继续革新视频内容的创建和营销方式。
AI产业链主要由基础层、技术层、应用层三大层构成。其中基础层侧重于基础支撑平台的搭建,包含传感器、AI芯片、数据服务和计算平台;技术层侧重核心技术的研发,主要包括算法模型、基础框架、通用技术;应用层注重产业应用发展主要包含行业解决方案服务、硬件产品和软件产品。
调研归纳发现,国内AIGC产业链结构主要由基础大模型、行业/场景中模型、业务/领域小模型,AI基础设施、AIGC配套服务五部分构成,并且已经形成了丰富的产业链。
数据统计
数据评估
关于AIGC特别声明
本站HiAI官网 | AI行业导航门户网站 | AI开发者联盟提供的AIGC都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由HiAI官网 | AI行业导航门户网站 | AI开发者联盟实际控制,在2024年1月6日 下午2:14收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,HiAI官网 | AI行业导航门户网站 | AI开发者联盟不承担任何责任。
相关导航
暂无评论...