当前位置：首页 > 新闻资讯 > 人工智能标准 > 大模型专题一：中国人工智能系列白皮书——大模型技术-2023版

大模型专题一：中国人工智能系列白皮书——大模型技术-2023版

来源：中国人工智能学会编辑：摩登7 时间：2023/12/9 主题：其他 [加盟]

语言大模型由于在大规模通用领域数据预训练通常缺乏对特定任务或领域的知识，因此需要适配微调。微调可以帮助模型更好地适应特定需求，如对敏感数据(如医疗记录)的处理，同时不暴露原始数据。此外，微调可以提高部署效率、减少计算资源需求。指令微调和参数高效学习是适配微调的关键技术。

指令微调(Instruction Tuning)[21],是一种可以帮助语言大模型实现人类语言指令遵循的能力，在零样本设置中泛化到未见任务上的学习方法。指令微调学习形式与多任务提示微调相似，但与提示微调让提示适应语言大模型并且让下游任务对齐预训练任务不同，其是让语言大模型对齐理解人类指令并按照指令要求完成任务，即在给定指令提示的情况下给出特定的回应，其中提示可以选择性包含一条解释任务的指令。指令微调研究涉及指令理解、指令数据获取和指令对齐等内容。

(1)指令理解，指语言大模型准确理解人类语言指令的能力，是语言大模型执行指令完成任务的前提。为了增强对指令的理解，许多工作采用多任务提示方式对基于指令描述的大量任务集上对语言大模型进行微调，如FLAN[50]、InstructGPT[21]等，这些模型在未见的任务上显示出优越的零样本性能。

(2)指令数据获取，指如何构建包含多样性的任务指令数据。指令数据构建常见有三种方式：i)基于公开人工标注数据构建，代表指令数据集包括1616种不同任务的Super-Natural Instruction[51]、2000种不同NLP任务的OPT-IML[52]。ii)借助语言大模型的自动生成构建，如Unnatural Instructions[53],通过种子指令作为提示让语言大模型生成新的指令描述和问题，然后再输入到模型让其输出回答。iii)基于人工标注方法，如ChatGPT在人工标注指令的基础上通过GPT-3、InstructGPT等在线平台收集用户真实指令数据。

附件：大模型专题一：中国人工智能系列白皮书——大模型技术-2023版

大模型专题一：中国人工智能系列白皮书——大模型技术-2023版

中国信通院联合发布《数据清洗、去标识化、匿名化业务规程（试行）》

深圳市地方标准《多功能智能杆系统施工技术规范》

上海市海淀区人民政府印发《关于加快中关村科学城人工智能大模型创新发展的若干措施》的通知

中国首个AIGC管理办法《生成式人工智能服务管理暂行办法》

中国新一代人工智能发展战略研究院刘刚教授发布了《中国新一代人工智能科技产业发展 2023》

五大科技伦理十类人工智能伦理准则

中国人工智能伦理相关国内政策法规文件

人工智能伦理相关国际政策

人工智能产业集群网络结构的三个极点：上海市、广东省和上海市

中国人工智能产业集群分布：京津冀、长江三角洲、珠江三角洲和川渝地区

人工智能产业集群的基本构成

《中国新一代人工智能科技产业发展 2023》建设具有全球竞争力的人工智能产业集群

服务机器人(迎宾、讲解、导诊...)