Page 9 - 《国际安全研究》2022年第3期

P. 9

2022 年第 3 期

觉科技的发展开发了一种算法，可以自动绘制图像中面部的标志特征，比如眉毛和
鼻子的位置，从而产生了面部识别技术。其次，互联网的兴起，特别是视频和照片
分享平台的大量涌现，形成了以互联网为基础的庞大的视听数据库，为各种深度伪

造视频提供了取之不尽的大数据。最后，图像取证能力技术的发展，使系统可以自
动检测伪造品。上述技术的发展为人工智能技术的繁荣创造了先决条件，机器学习
特别是深度学习的优势就在于它的循环学习方法：它可以检测大型数据集之中的模

式，并产生类似的产品；它能够从取证算法的输出中学习，因为这些算法教会了人
工智能算法在下一个生产周期中需要改进什么。如此循环往复，制作出来的视频产
品相似度就越来越高，甚至几乎完全一样。
第二类是语音克隆技术。语音克隆技术也被称为音频深度伪造、语音合成、语音

转换或交换。语音克隆技术已经发展到这样的水平：只需采集到一个人的几句话，人
工智能语音克隆软件就可以生成与目标人类语音非常相似的合成语音。这一技术已经
成为日常家用电子产品的标准功能，如谷歌家庭（Google Families）、苹果智能语音助

手（Siri）、亚马逊语音虚拟助手（Amazon Alexa）等。各种方便访问的人工智能应用
程序使创建语音克隆产品变得更加便利，语音克隆体的质量也迅速提高。因此，人工
智能技术使得语音克隆的可信度和创建可信克隆的速度达到了一个新的高度。
第三类是文本合成技术。在深度伪造的背景下，文本合成技术可以生成模仿目

标独特说话风格的文本。这些技术主要依赖于自然语言处理（Natural Language
Processing，NLP）技术。这是计算机科学和语言学交叉形成的一门科学学科，它的
主要应用是改善人类和计算机之间的文本和语言互动。自然语言处理系统可以分析

大量的文本，包括一个特定目标的音频剪辑文本，从而形成一个能够在一定程度上
解释演讲的系统，包括词语以及对所表达的微妙情感和意图的理解。这可能会制造
一个人说话风格的模型，并反过来又可以用来合成新颖的演讲。自然语言处理常用
的架构是一种称为“机器学习模型”（Transformer）的深度学习算法。该算法基本

上可以通过学习单词序列如何在句子和文本中相互关联，将一个输入的文本“转换”
为一个新的文本。位于旧金山的一家人工智能研究实验室开放人工智能（Open AI）
创建的第三代语言预测模型（Generative Pre-trained Transformer 3，GPT-3）被认为

是这一技术领域的领先者。开放人工智能实验室的研究人员声称，“GPT-3 甚至可
以生成新闻文章，而人类评估者很难将其与人类所写的文章区分开来”。
①

① 关于“第三代语言预测模型”的技术及相关评价，详见 Robert Dale, “GPT-3: What’s It
Good For?” Natural Language Engineering, Vol. 27, No. 1, 2021, pp. 113-118。

· 7 ·

4 5 6 7 8 9 10 11 12 13 14