语义表示模型的处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：23162024 阅读：30 留言：0更新日期：2020-01-21 22:02

本申请公开了语义表示模型的处理方法、装置、电子设备及存储介质，涉及人工智能技术领域。具体实现方案为：采集包括数条训练语料的训练语料集；采用所述训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练。本申请中，通过构建词语片段、句子以及文章三个不同层级的无监督或弱监督预训练任务，使得语义表示模型可以从海量数据中学习到词语片段、句子以及文章不同层次的知识，增强了通用语义表示的能力，提升NLP任务的处理效果。

全部详细技术资料下载

【技术实现步骤摘要】
语义表示模型的处理方法、装置、电子设备及存储介质
本申请涉及计算机
，尤其涉及人工智能技术，具体涉及一种语义表示模型的处理方法、装置、电子设备及存储介质。
技术介绍
人工智能（ArtificialIntelligence；AI），是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理（NaturalLanguageProcessing；NLP）和专家系统等。尤其是NLP领域，为近年来AI研究的一个比较火的方向。在NLP领域中，可以采用神经网络模型对语句进行语义表示，进而基于获取到的语义表示进行NLP的任务处理。现有技术中，典型的语义表示技术包括采用Word2Vec、Glove模型等实现的上下文无关的语义表示，以及采用Elmo、转化器的双向编码表示（BidirectionalEncoderRepresentationsfromTransformers；BERT）模型、XLNET等实现的上下文相关的语义表示。其中上下文相关的语义表示，相对于上下文无关的语义表示，在效果上具有明显的提升。但是，BERT、XLNet等当前技术，训练时任务目标单一，使得现有技术所训练的语义表示模型难以充分地学习到训练语料中各种层次的信息，使得现有的语义表示模型能力受限，语义表示的准确性较差。
技术实现思路
>本申请提供了一种语义表示模型的处理方法、装置、电子设备及存储介质，用于丰富语义表示模型的语义表示能力，提高语义表示的准确性。一方面，本申请提供一种语义表示模型的处理方法，包括如下步骤：采集包括数条训练语料的训练语料集；采用所述训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练；；所述词语片段包括至少两个词语、短语或者实体，或者词语、短语以及实体中的至少两种类型的组合；其中，采用所述训练语料集，基于词语片段对语义表示模型进行训练，包括如下至少一种：采用所述训练语料集，基于所述词语片段的整体掩码，对所述语义表示模型进行训练；和采用所述训练语料集，训练所述语义表示模型，使其学习识别所述词语片段中的文字的正确顺序的能力。进一步可选地，如上所述的方法中，采用所述训练语料集，基于句子对语义表示模型进行训练，包括如下至少一种：采用所述训练语料集，训练所述语义表示模型，使其学习预测包括多个被打乱顺序的片段的句子中的多个片段的正确顺序关系的能力；和采用所述训练语料集，训练所述语义表示模型，使其学习根据上一句子的内容，预测下一句子的内容的能力。进一步可选地，如上所述的方法中，采用所述训练语料集，基于文章对语义表示模型进行训练，包括如下至少一种：采用所述训练语料集，训练所述语义表示模型，使其学习识别文章中各段落的正确顺序的能力；和采用所述训练语料集，训练所述语义表示模型，使其学习在文章中以段落为粒度的检索能力。进一步可选地，如上所述的方法中，采用所述训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练之后，所述方法还包括：采用所述训练语料集，基于词法、语法以及语义中的至少一种对语义表示模型进行训练。进一步可选地，如上所述的方法中，采用所述训练语料集，基于词法对语义表示模型进行训练，包括如下至少一种：采用所述训练语料集，基于词语、短语和/或实体的掩码策略，对所述语义表示模型进行训练；采用所述训练语料集，训练所述语义表示模型，使其学习分析不同语境下词汇的首字母是否需要大写的能力；和采用所述训练语料集，训练所述语义表示模型，使其学习预测所述训练语料中的词汇是否在原文档的其他片段中出现的能力。进一步可选地，如上所述的方法中，采用所述训练语料集，基于语法对语义表示模型进行训练，包括如下至少一种：采用所述训练语料集，训练所述语义表示模型，使其学习识别所述训练语料中不同片段的顺序关系的能力；和采用所述训练语料集，训练所述语义表示模型，使其学习识别任意两个语句对的位置关系的能力。进一步可选地，如上所述的方法中，采用所述训练语料集，基于语义对语义表示模型进行训练，包括如下至少一种：采用所述训练语料集，训练所述语义表示模型，使其学习识别连续两个语句间的逻辑关系的能力；和采用所述训练语料集，训练所述语义表示模型，使其学习识别所述训练语料中的检索语句和网页主题之间相关性的能力。进一步可选地，如上所述的方法中，采用所述训练语料集，基于词法、语法以及语义中的至少一种对语义表示模型进行训练之后，所述方法包括：基于预先采集的自然语言处理的任务语料集，对所述语义表示模型进行训练，得到相应的自然语言处理的任务模型；基于所述自然语言处理的任务模型，执行所述自然语言处理的任务。另一方面，本申请还提供一种语义表示模型的处理装置，包括：采集模块，用于采集包括数条训练语料的训练语料集；语义表示模型训练模块，用于采用所述训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练；所述词语片段包括至少两个词语、短语或者实体，或者词语、短语以及实体中的至少两种类型的组合；所述语义表示模型训练模块，包括：词语片段训练单元、句子训练单元以及文章训练单元中的至少一个；其中，所述词语片段训练单元，用于执行如下至少一种：采用所述训练语料集，基于所述词语片段的整体掩码，对所述语义表示模型进行训练；和采用所述训练语料集，训练所述语义表示模型，使其学习识别所述词语片段中的文字的正确顺序的能力。再一方面、本申请还提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的方法。又一方面，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上任一项所述的方法。上述申请中的一个实施例具有如下优点或有益效果：通过采集包括数条训练语的训练语料集；并采用训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练，可以使得训练后的语义表示模型，能够充分学些到词语片段、句子以及文章等各种层次的信息，丰富语义表示模型的语义表示能力，提高语义表示的准确性。进一步地，本申请中，基于词语片段的整体掩码，对语义表示模型的训练，可以使得该语义表示模型可以学习到无监督语料中的大片段语义知识，从而可以更好的捕捉数据中全局的语义信息。进一步地，本申请中，训练语义表示模型学习识别词语片段中的文字的正确顺序的能力、预测包括多个被打乱顺序的片段的句子中的多个片段的正本文档来自技高网...

【技术保护点】
1.一种语义表示模型的处理方法，其特征在于，包括如下步骤：/n采集包括数条训练语料的训练语料集；/n采用所述训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练；所述词语片段包括至少两个词语、短语或者实体，或者词语、短语以及实体中的至少两种类型的组合；/n其中，采用所述训练语料集，基于词语片段对语义表示模型进行训练，包括如下至少一种：/n采用所述训练语料集，基于所述词语片段的整体掩码，对所述语义表示模型进行训练；和/n采用所述训练语料集，训练所述语义表示模型，使其学习识别所述词语片段中的文字的正确顺序的能力。/n

【技术特征摘要】
1.一种语义表示模型的处理方法，其特征在于，包括如下步骤：
采集包括数条训练语料的训练语料集；
采用所述训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练；所述词语片段包括至少两个词语、短语或者实体，或者词语、短语以及实体中的至少两种类型的组合；
其中，采用所述训练语料集，基于词语片段对语义表示模型进行训练，包括如下至少一种：
采用所述训练语料集，基于所述词语片段的整体掩码，对所述语义表示模型进行训练；和
采用所述训练语料集，训练所述语义表示模型，使其学习识别所述词语片段中的文字的正确顺序的能力。

2.根据权利要求1所述的方法，其特征在于，采用所述训练语料集，基于句子对语义表示模型进行训练，包括如下至少一种：
采用所述训练语料集，训练所述语义表示模型，使其学习预测包括多个被打乱顺序的片段的句子中的多个片段的正确顺序关系的能力；和
采用所述训练语料集，训练所述语义表示模型，使其学习根据上一句子的内容，预测下一句子的内容的能力。

3.根据权利要求1所述的方法，其特征在于，采用所述训练语料集，基于文章对语义表示模型进行训练，包括如下至少一种：
采用所述训练语料集，训练所述语义表示模型，使其学习识别文章中各段落的正确顺序的能力；和
采用所述训练语料集，训练所述语义表示模型，使其学习在文章中以段落为粒度的检索能力。

4.根据权利要求1-3任一所述的方法，其特在于，采用所述训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练之后，所述方法还包括：
采用所述训练语料集，基于词法、语法以及语义中的至少一种对语义表示模型进行训练。

5.根据权利要求4所述的方法，其特征在于，采用所述训练语料集，基于词法对语义表示模型进行训练，包括如下至少一种：
采用所述训练语料集，基于词语、短语和/或实体的掩码策略，对所述语义表示模型进行训练；
采用所述训练语料集，训练所述语义表示模型，使其学习分析不同语境下词汇的首字母是否需要大写的能力；和
采用所述训练语料集，训练所述语义表示模型，使其学习预测所述训练语料中的词汇是否在原文档的其他片段中出现的能力。

6.根据权利要求4所述的方法，其特征在于，采用所述训练语料集，基于语法对语义表示模型进行训练，包括如下至少一种：
采用所述训练语料集，训练所述语义表示模型，使其学习识别所述训练语料中不同片段的顺序关系的能力；和
采用所述训练语料集，训练所述语义表示模型，使其学习识别任意两个语句对的位置关系的能力。

7.根据权利要求4所述的方法，其特征在于，采用所述训练语料集，基于语义对语义表示模型进行训练，包括如下至少一种：
采用所述训练语料集，训练所述语义表示模型，使其学习识别连续两个语句间的逻辑关系的能力；和
采用所述训练语料集，训练所述语义表示模型，使其学习识别所述训练语料中的检索语句和网页主题之间相关性的能力。

8.根据权利要求5-7任一所述的方法，其特征在于，采用所述训练语料集，基于词法、语法以及语义中的至少一种对语义表示模型进行训练之后，所述方法包括：
基于预先采集的自然语言处理的任务语料集，对所述语义表示模型进行训练，得到相应的自然语言处理的任务模型；
基于所述自然语言处理的任务模型，执行所述自然语言处理的任务。

9.一种语义表示模型的处理装置，其特征在于，包括：
采集模块，用于采集包括数条训练语料的训练语料集；
语义表示模型训练模块，用于采用所述训练语料集，基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练；所...

【专利技术属性】
技术研发人员：孙宇，王海峰，王硕寰，李宇琨，冯仕堃，田浩，吴华，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人