联系方式 Contact

天气在线(北京)气象科技有限公司

地址:北京市海淀区海淀西大街36号9层

电话:010-58995339

手机:18611808504

传真:010-58995339

网址:www.weatheron.cn

搜索 Search
你的位置:首页 > 新闻动态 > 行业新闻

ChatGPT 的运行模式、关键技术及未来图景

 2023-02-27 08:39:34  点击:

朱光辉 王喜文 CDO研习社

要:美国人工智能实验室OpenAI 开发的人工智能聊天机器人应用ChatGPT 引发广泛热议,被认为是继 互联网、智能手机之后,带给人类的第三次革命性产品。互联网开辟了“空间革命”,智能手机的出现带来“时间革命”,ChatGPT 的横空出世有望形成“思维革命”,通过替代人类进行创作、创意、解答、咨询、翻译和客服等改变人类思考和处理问题的方式方法,由此重塑各行业生态乃至整个世界。

关键词:ChatGPT;运行模式;关键技术;未来图景

作者简介:朱光辉,北京理工大学人文与社会科学学院研究员;王喜文,北京华夏工联网智能技术研究院院长,高级工程师。

观点提要

ChatGPT 的强大功能主要源自隐藏其背后的巨无霸模型——LLM第一,这一 LLM 模型的规模必然是巨大的,有能力开发出该模型或改动该模型参数的机构较少。第二, LLM 应具备强大的自主学习能力。

ChatGPT要取得令人惊艳的效果,其背后强大的推理能力必不可少。推理能力的本质是综合运用较多相关知识点,推导出新知识 或新结论。当模型规模足够大时,LLM 本身就具备相应的推理能力。

ChatGPT 背后的关键技术离不开大模型算法、大数据和大算力。

学术界普遍认为,ChatGPT 的未来应用场景充满无限可能。从社交媒体到广告创意,从游戏到影视娱乐,从编程到深度写稿,从平面设计到 产品工业设计,从文字翻译到外事同声传译等, 每个原本需要人类创作的行业都等待被 ChatGPT 颠覆性重塑。

ChatGPT 被滥用的问题愈发明显,最常见的是作弊问题。

政策建议:一是引导企业融入 ChatGPT 浪潮。二是推动 ChatGPT 技术融入元宇宙产业布局。 三是促进 ChatGPT 技术融入数字人( Digital Human/Meta Human) 功能。四是重视ChatGPT 隐患,将其纳入社会科学研究课题。

埃龙 ·马斯克称 ChatGPT将颠覆世界;微软公司以数百亿美元投资 ChatGPT,并计划将其整合到微软的 Office 办公软件和 Bing 搜索引擎之中;部 分高校和学术机构开展了关于用ChatGPT 写论文 是否合规的大讨论;还有部分咨询公司开始担忧是否会被其替代。2023 年,ChatGPT 的应用热情被 点燃,应用场景不断快速拓展。

一、ChatGPT 的运行模式

2022 年 11 月上线的ChatGPT 是由美国人工 智能实验室 OpenAI 开发的人工智能聊天机器人应用,上线不到一周用户就突破 100 万,两个月时间 吸引活跃用户过亿,打破了抖音 9 个月吸引用户过 亿的记录,成为历史上用户增长速度最快的应用程序。

回顾 ChatGPT 的发展历程可知,OpenAI自GPT 1.0 开始,就将大型语言模型( LLM,Large Language Model)视为通往通用人工智能(AGI,Artificial general intelligence)的必由之路。具体而言,在 OpenAI 看来,未来的 AGI 应拥有一个与任务无关的超大型 LLM,可以从海量的数据中学习各种知识,LLM 以生成一切的方式解决各种各样的实际问题。除此之外,AGI 能够听懂人类的命令,便于人类使用。

()幕后:大型语言模型

ChatGPT 的“无比强大”的能力主要得益于其依托的大型语言模型。尽管 ChatGPT 加入人工标 注数据,但量级只有数万,这一规模的数据量和训练与 GPT-3.5 模型使用的几千亿级别的数据量相比 几乎可以忽略不计,基本不会对提升 GPT-3.5 的  基础能力发挥作用。因此,ChatGPT 的强大功能主要源自隐藏其背后的“巨无霸”模型——LLM。

对于LLM 的发展理念,可以将其理解为“构建一个任务无关的超大型 LLM,让它从海量数据中学习各种知识”。图1展示了大型语言模型LLM。第一,这一LLM 模型的规模必然是巨大的,有能力开发出该模型或改动该模型参数的机构较少。对于任务需求方而言,无论是无数的中小机构还是个人,即使有能力把大型语言模型开源 出来,也无力部署这一模型,更遑论用微调( Fine- tuning)技术模式修改模型参数。因此,追求不修正模型参数,即能让任务需求方顺利完成任务的方 式,应该采取提示词(Prompt)模式完成任务,而 非微调模式。模型制作方将 LLM 作为公用基础设施服务,以基础设施即服务( IaaS,Infrastructure as a Service)的模式运行。与此同时,作为服务提供方,要考虑千变万化的用户需求,LLM 模型开发 方追求让 LLM 完成尽可能多类型的任务,这成为大型语言模型追求走向通用人工智能的现实因素。

第二, LLM 应具备强大的自主学习能力。假设人类向其灌输世界上所有能够获得的文本或图片 等不同类型的数据,LLM 应自动学习其中蕴含的知识点,学习过程无需人的介入就能灵活应用所学 知识解决实际问题。数据是海量的,要吸收所有知 识,就需要足够多的模型参数存储知识,因此,这一模型必然会是“巨无霸”式的模型。

ChatGPT是否向GPT- 3.5 模型注入新知识? 答案是注入了,这些知识包含在揭秘 ChatGPT 时提到的“几万人工标注”的数据中,但注入的不是世界知识,而是人类偏好知识。所谓“人类偏好”,包含两方面含义。一是人类表达任务的习惯说法。例如,人们习惯性表达:“把下面句子翻译成日语”,以此表达机器翻译的需求,但 LLM 并 非人类,它如何理解这句话的含义?人类要想办 法让LLM 理解这句命令的含义,并正确执行。因此,  ChatGPT 通过人工标注数据的方式向 GPT- 3.5 注入这类知识,方便 LLM 理解人的命令,这是其“了解人类意图”的关键。二是对于什么是好的回答,什么是不好的回答,  人类有自己的标准。例如,  比较详细的回答是好的,带有歧视性内容的回 答是不好的,诸如此类。但这是人类自身对回答质 量好坏的偏好。人工标注通过打分模型( Reward Model) 将这类信息反馈至 LLM 数据库。总体而 言,  ChatGPT 将人类偏好知识注入 GPT- 3.5,以此 获得能够听得懂人类语言、自身拥有判断标准的 LLM。

就具体过程而言,首先,创建人类偏好数据。 随机挑选部分问题,并由标注人员给出高质量回 答,形成“人类表达-任务结果”的标注数据,反馈至模型,让其学习——这批数据数量仅有数万, 并通过提示词(Prompt)模式进行,即模型参数不发生变化。其次,训练一个反馈模型。随机挑选部分问题,由原始模型输出答案,再由标注人员基于 “人类偏好标准”(例如,相关性、信息丰富程度、 答案有害、负面情感等),对原始模型的答案进行排序。最后,利用标注好的“人类偏好”数据,训练一个打分模型,这一打分模型会对原始模型的 结果进行打分,告诉他什么答案分高,什么答案分低。

以此为基础,整个过程通过循环式地强化学习,将反馈模型和原始模型相链接,当原始模型输出的结果在打分模型中获得较低分值时,它将受到惩罚,同时,被要求重新学习。通过不断循环,原始模型逐渐迭代升级,直至“脱胎换骨”,彻底掌 握人类偏好,变成人类满意的模型,即 ChatGPT。

()台前:新型人机交互接口

目前,相关研究已经证明大型语言模型 LLM 对于知识具有强大的记忆能力。但现实世界中,一 般不会将记忆能力的强弱作为判断人是否聪明的标准。是否具有强大的推理能力,通常是判断一个人 是否聪明的重要标准。ChatGPT要取得令人惊艳的效果,其背后强大的推理能力必不可少。推理能力的本质是综合运用较多相关知识点,推导出新知识 或新结论。当模型规模足够大时,LLM 本身就具备相应的推理能力。

ChatGPT 的最大贡献在于较好地实现了大型语言模型 LLM 的接口层,让 LLM适配人类习惯的命令表达方式,而非让人类去适配 LLM,绞尽脑 汁地想出一个想要达到目的的命令。由此,能够增加 LLM 的易用性和用户体验。

这种交互方式的演变,是一种较为理想的新型人机交互模式。不需要专业的能力和高端的设备,只要开口表达人类诉求,人工智能就能够理 解并帮助人类进行解答。在 2022 年 12 月的媒体通稿中,对 ChatGPT 的评价集中于“仿真性”,俨 然通过图灵测试一般。这种仿真性,可以认为是 ChatGPT 的“智力”得到进一步提升,变得更加聪明。

二、ChatGPT 的关键技术

有研究发现,ChatGPT 在自然语言处理的系列任务方面,例如,文本理解与生成、对话问答、机器翻译和程序代码生成等都有较大进步。从技术层面讲,得益于近几年深度神经网络、大型语言模型研究的不断发展,即海量数据加之巨大的算力催生这样一个大型语言模型的落地应用。换言之, ChatGPT 背后的关键技术离不开大模型算法、大数据和大算力。

()

ChatGPT 由 GPT-3.5模 型提供支持,GPT   ( Generative Pre-trained Transformer ,生成式预训练 转换模型) 是一种基于互联网可用数据训练的文本 生成深度学习模型。在算法方面,该模型使用“利 用人类反馈强化学习(RLHF)”的训练方式,包 括人类提问机器回答、机器提问人类回答,并不断迭代,让模型逐渐具有对生成答案的评判能力。RLHF的训练过程可以分解为三个步骤(见图2)。

1. 预训练语言模型

选取经典的预训练语言模型作为初始模型。在预训练模型出现之前,深度学习不够成功的原因主要在于两方面:一方面,匹配给某一具体任务的训 练数据总量不够多。随着模型容量的增加,对训练数据的需求随之攀升,否则即使达到理想深度,也无法取得预期任务效果,进而成为自然语言处理领域无法逾越的难题;另一个方面,深度学习的特征抽取能力不够强。换言之,即使有再多的数据也无济于事,  因为模型不能有效吸收数据中蕴含的知识。这两方面原因阻碍了深度学习在自然语言处理领域的突围。GPT 预训练模型的出现,无论是从学术研究角度审视,还是从场景应用角度观察,都 代表自然语言处理领域的技术飞跃,并带来整个领 域研究范式的转换。

2. 打分模型的训练

基于初始语言模型产出的数据训练打分模型  ( RM,Reward Model)。打分模型的目标是评估 模型的输出在人类看来是否表现得不错。即输入 [ 提示(Prompt),模型生成的文本]  ,输出一个评估文本质量的标记数字。用于训练打分模型的提示词(Prompt)数据一般源自预先富集的数据集,  ChatGPT的Prompt 数据主要是调用 GPT API 的用户。上述提示词会被放进初始语言模型(第一 阶段的模型) 中生成文本。可以将打分模型视为 判别式的语言模型,从预训练语言模型出发,对 [x=[prompt,模型回答 ],y= 人类满意度 ] 构成的 标注语料进行微调;也可以随机初始化,在语料基 础上直接进行训练。

3. 基于 RL 进行语言模型优化

在初始的语言模型上生成文本,通过打分模型 ( RM) 判断模型生成的文本是否优质(迎合人类偏好)的基础上,可以使用强化学习(RL)基于打分模型优化初始的语言模型。

将初始语言模型的微调任务建模为强化学习(RL)问题,需要定义策略(Policy)、动作空间  (Action Space)和打分函数(Reward Function)等基本要素。策略指基于该语言模型,接收 Prompt 作为输入,再输出一系列文本(或文本的概率分布);动作空间是词表标记在所有输出位置的排列组合;观察空间是可能的输入标记序列,即 Prompt 为词表全部标记在所有输入位置的排列组合;打分函数是基于设定好的 RM 模型, 配合部分策略层面的合约进行的打分计算。基于这一打分,可以根据策略优化算法更新模型参数。

通过上述过程,可以迭代式的更新打分模型  (RM)和策略模型(Policy),让打分模型对模型输出质量的评估愈加精确,策略模型的输出不断与初始模型拉开差距,使输出文本越来越符合人类的需求和认知。

()

ChatGPT 能够成为新一代人工智能里程碑,离不开算力发展和数字经济时代形成的大数据共同支持的大型语言模型训练。在算力方面,ChatGPT 使 用的 GPT-3.5模型在微软云计算服务 Azure AI 的超 算基础设施(由 V100GPU 组成的高带宽集群) 上进行训练,总算力消耗约 3640 PF-days (即按每秒 一千万亿次计算,运行 3640 天)。

由此带来两个问题,即巨大的算力需求与资金消耗。训练和运行模型均需要庞大的算力,有研究估测,训练 1750 亿参数大型语言模型的 GPT- 3,需要有上万个 CPU/GPU 24 小时不间断地输入数 据,所需能耗相当于开车往返地球和月球,且一次运算要花费 450 万美元(见图3 )。

此前,企业多通过自行发电的方式满足运营的电力需要,此举不仅耗资巨大,而且还需具备某些与企业业务关联不大的相关专业能力。电网基础设 施的运行使供电成为一项公共事业,也使企业可以通过购买电量代替自行发电,就其实质而言,企业是将自行发电变为购买发电服务。集中发电可以使 电力的使用更为高效,也意味着更多企业甚至个人可以根据自身需要购买电,不用为其他电量支付任何费用。电力供应的公共化提高了各部门的生产力,改善了社会生活质量,也为新兴产业的发展创造了机会。

信息和通信技术行业正经历与此类似的演进过程。几十年来,公共部门、私人部门、组织和个人等通过投资电脑软件和硬件,像购买商品一样购买信息和通信技术。在过去的 10 年间,随着高速宽带基础设施的普及,信息和通信服务的供给方式快速更新,通过互联网可以将信息和通信技术作为一项服务进行购买。

现阶段,算力如同被广泛使用的电力一般,但与此同时,算力也是一项具有潜在破坏性与变革性的创造。未来,各行各业的用户若想在不购买、安装和运行昂贵的电脑硬件的基础上使用服务,就可借助无处不在的有线或无线网络——即从“云端” 获取算力,这与使用其他公共基础设施服务没有区别(见图4)。

()

有资料显示,ChatGPT 拥 有多 达 1750 亿 个 模型参数,并在 2023年年初完成训练。模型训练的背后离不开大数据的支持,OpenAI 主要使用 的公共爬虫数据集拥有超过万亿单词的人类语言数据。正是基于上述海量数据,ChatGPT 展示了强大的三种能力:一是语言生成能力。遵循提示词(Rrompt)生成补全提示词的句子。这是目前人类与语言模型最普遍的交互方式; 二是上下文学习(In-context learning) 能力。 遵循给定任务的几个示例,为新的测试用例生成解决方案。值得一提的是,GPT-3 虽然是语言模型,但上下文学习才是ChatGPT 的真正重点,而不是“语 言建模”(Language Modeling);三是世界知识能力。包括事实性知识(Factual knowledge)和常识( Commonsense )。

上述三种能力均来自大规模预训练。在有3000亿个单词的语料上预训练拥有 1750 亿参数 的模型( 60% 的训练语料来自 2016-2019的Common Crawl 语料库 + 22% 来自WebText 语料库+ 16% 来自于、书籍和报刊杂志 + 3%来自维基百科)。其中,  Common Crawl 是 2008 年至今在一个 网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,其文本来自不同语言、不同领域。重点研究实验室一般会优先选取纯英文过滤版(C4)作为数据集。其中,WebText 是一个大型数据集,其数据是从社交媒体平台 Reddit 所有出站 链接网络中爬取的,每个链接至少有 3 个赞,代表流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。

关于 ChatGPT 上下文学习的能力来源及为什么上下文学习可以泛化,现阶段尚未有明确的剖析。有人工智能领域专家推测,这种能力可能来自同一个任务的数据点在训练时按顺序排列在同一个批处理中。未来,语言模型预训练促进上下文学习的原理以及上下文学习行为与微调(Fine-tuning)  的协同原理值得进一步研究。

现阶段的 ChatGPT 是在拥有 3000 亿个单词 的语料基础上预训练拥有1750亿参数的模型, GPT-4 将是一个拥有超过 100 万亿级别参数的大模 型(见图5)。根据学术界的既有研究可知,深度神经网络的学习能力和模型的参数规模呈正相关。 人类大脑皮层有 140 多亿个神经细胞,每个神经细 胞有 3 万余个突触,因此,大脑皮层的突触总数超 过 100 万亿个,神经细胞通过突触相互建立联系。 一旦 GPT-4 实现 100 万亿参数规模,就可以堪比人的大脑,意味着它将达到与人类大脑神经触点规 模的同等水平。如果上述假设成为现实,不仅意味着 GPT-4 系统可以改造人类的思想和创作能力, 形成人工智能超越专业化能力和大众化趋势,而且意味着这一系统开始具备人类思维能力,并有可能在某一方面或其他方面替代人类。

三、ChatGPT 的未来图景

相较以往,人工智能进化的深度学习能力,对大部分人而言只是一个高深的概念。ChatGPT 通过生成式预训练转换模型 RLHF 基于人类反馈的强化 学习这一方式,让所有人真正接触到“人工智能 + 深度学习”会带来何种变化,对于人类的生活会产生哪些影响。因此,ChatGPT 可能会加速人工智能 和深度学习理论在经济社会各领域的普及应用。

学术界普遍认为,ChatGPT 的未来应用场景充满无限可能。从社交媒体到广告创意,从游戏到影视娱乐,从编程到深度写稿,从平面设计到 产品工业设计,从文字翻译到外事同声传译等, 每个原本需要人类创作的行业都等待被 ChatGPT 颠覆性重塑。ChatGPT 被公认为是继互联网、智能手机之后,带给人类的第三次革命性产品。互 联网开辟了“空间革命”,使人类可以实时与全世 界链接,不必奔赴现场,可以通过互联网进行沟通、教学、视频会议,使政治、社会和商业等领域发生连锁变化;智能手机的出现带来“时间革命”,通过可拓展安装的各种 APP 应用软件,可以实现最快交易、最速送达,为人类的生活、工作 和消费带来巨大变化;ChatGPT 的横空出世,有望形成“思维革命”,替代人类进行创作、创意、解答、咨询、翻译、客服等,改变人类思考和处理 问题的方式方法,并由此重塑各行业生态,甚至重塑整个世界(见图6)。

现阶段的 ChatGPT 以高度拟人化的对话问答模式带来更好的交互体验,短期内将促进金融、媒体、医疗等诸多领域自然语言处理的应用。例如,在金融领域,ChatGPT 利用其大模型能够大幅提升 语义搜索能力,面对复杂多变的投资理财咨询,能够准确找到满足用户需求的咨询结果;又如,招商银行信用卡已经基于 ChatGPT 撰写宣传稿件,写出“生命的舞台上,我们都是基因的载体”、“如果说基因给我们的生命带来了基础,那亲情便是对生命的深刻赋予。它不由基因驱使,而是一种慷慨的 选择”等富有诗意的文案。在投研方面,业内首份采用 ChatGPT 撰写的行业研究报告完成度较高, 但距专业研究报告仍存在较大差距。财通证券团队介绍,“ChatGPT 在文字表意、标题撰写等方面均具有较高水平”。在媒体领域,大量的稿件均可以通过 ChatGPT 进行自动化生产,其独创性和创造 力并不输于专业人员。未来,文字工作者应积极探 索新技术帮助其提高生产效率,让 ChatGPT 起草初稿,人类只需要在其基础上进行修改完善;在医疗领域,ChatGPT 可以替代专业人员为患者提供心理咨询、问诊和解答服药建议,等等。

以教育领域为例,从媒体报道中可以整理出 16 种 ChatGPT 教学应用用法(见表1)。