ChatGPT 是自然语言处理发展的产物。自然语言处理(Natural Language Processing, NLP)作为人工智能的重要研究方向,旨在帮助计算机理解、解释和运用人类语 言。回顾发展历程来看,上世纪 50 年代,科学家已经开始进行基于规则的少量数 据处理,总体是基于模板和规则的学习的阶段;上世纪 80 年代开始,进入 Machine Learning 的时代,与之前的区别是开始基于一定范围的数据进行参数分类;上世 纪 90 年代开始,以 CNN、RNN 等为代表的神经网络开始获得突破,开始模仿人 脑进行大量数据的标记和训练。2017 年,Ashish Vaswani et.al 在论文《Attention Is All You Need》中提出了一种新的简单架构——Transformer Architecture,这种模 型基于注意力机制,不用重复和卷积,因而这些模型在质量上更优,同时更易于 并行化,需要的训练时间明显更少。ChatGPT 能实现的人类意图,来自于机器学习、神经网络以及 Transformer 模型的 多种技术模型积累。
最早在 2018 年 OpenAI 推出 GPT-1,其中大约有 1.17 亿个参 数,这一代模型的核心手段是预训练,通过不断的手动标记数据,结合无监督预 训练和有监督微调减轻 NLP 中的监督学习,本质上模型是相对 Transformer Architecture 的显著简化;后续的 GPT-2 去掉了 GPT-1 中的有监督微调的阶段,转 向更通用的系统,最终不需要为每个任务都手动创建标记去训练,GPT-3 的参数 数量等相对之前有了极大飞跃,达到 1750 亿个参数,在许多 NLP 数据集上都实 现了很强的性能。基于 ChatGPT 神经网络的类型以及训练方法来看,文本类工作的效率有望得到 提升。由于 ChatGPT 已经接受了大量的文本训练集,它可以在教育行业中提供大 量的语言和知识学习的资源,协助师生之间的交流和学生的评估;金融领域,可 以基于大量文本去分析行业的市场情况、风险评估并给出建议等;商业领域,可 以帮助去进行一些营销策略的创作、提供客户服务、或者从事数据分析等工作; 媒体领域可以协助创意工作者去生产或者编辑脚本、外发的文稿等内容。