文本语义理解方法和模型训练方法、装置、设备和介质制造方法及图纸

技术编号：26762723 阅读：20 留言：0更新日期：2020-12-18 23:15

公开了一种文本语义理解方法和装置、计算机可读存储介质和电子设备，其中，文本语义理解方法包括：获取待处理文本的文本特征和主题特征；根据所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息；基于所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。本公开实施例利用文本的主题特征与文本特征结合，通过两种特征相互补充，可以获得更好的领域信息和意图信息，通过文本的主题特征可以在特征层级建立领域和意图的相关性，使所获得的领域和意图保持一致，从而可以获得更好的语义理解的效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本语义理解方法和模型训练方法、装置、设备和介质
本公开涉及语音技术，尤其是一种文本语义理解方法和装置、模型训练方法和装置、计算机可读存储介质和电子设备。
技术介绍
随着人工智能的普及，语音已成为人机交互的重要方式，而对自然语言的理解(NaturalLanguageUnderstanding)则是实现人机交互的一个重要组成部分。语音识别将人类的语音识别为文字，语义理解则将语音识别得到的文字转换为一个机器能够看懂的结构化表达，以便后续进行人机交互。
技术实现思路
在实现本专利技术的过程中，本专利技术人通过研究发现，现有的文本语义理解方法通常仅利用文本的文本特征进行语义理解，往往忽略了文本的主题特征对于语义理解的作用，从而影响了语义理解的效果。为了解决上述技术问题，本公开实施例提供了一种文本语义理解的技术方案和模型的训练的技术方案。根据本公开实施例的一个方面，提供了一种文本语义理解方法，包括：获取待处理文本的文本特征和主题特征；根据所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息；基于所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。根据本公开实施例的另一个方面，提供了一种模型的训练方法，包括：获取第一文本数据集，所述第一文本数据集中的文本标注有领域信息和意图信息；确定所述第一文本数据集中至少一个第一文本的文本特征和主题特征；基于所述至少一个第一文本的...

【技术保护点】
1.一种文本语义理解方法，包括：/n获取待处理文本的文本特征和主题特征；/n根据所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息；/n基于所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。/n

【技术特征摘要】
1.一种文本语义理解方法，包括：
获取待处理文本的文本特征和主题特征；
根据所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息；
基于所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。

2.根据权利要求1所述的方法，其中，所述获取待处理文本的文本特征和主题特征，包括：
通过领域和意图分类模型对所述待处理文本进行文本特征提取处理，得到所述待处理文本的文本特征；
通过主题模型对所述待处理文本进行主题特征提取处理，得到所述待处理文本的主题特征。

3.根据权利要求2所述的方法，其中，所述根据所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息，包括：
将所述待处理文本的主题特征输入所述领域和意图分类模型；
基于所述领域和意图分类模型对所述待处理文本进行领域分类和意图分类，得到所述待处理文本的领域信息和意图信息。

4.根据权利要求2或3所述的方法，其中，所述获取所述待处理文本的文本特征和主题特征，包括：
对所述待处理文本进行分词处理；
根据所述分词处理后的待处理文本，获取所述待处理文本的文本特征和主题特征。

5.根据权利要求4所述的方法，其中，所述文本特征包括：字符级文本特征和/或词语级文本特征；
所述获取所述待处理文本的文本特征，包括：
对所述分词处理后的待处理文本进行卷积处理，得到所述待处理文本的词语级文本特征；
对所述待处理文本进行卷积处理，得到所述待处理文本的字符级文本特征。

6.根据权利要求1至5中任意一项所述的方法，其中，所述基于所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，包括：
将所述待处理文本的领域信息和意图信息输入标注模型；
基于所述标注模型对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。

7.一种模型的训练方法，包括：
获取第一文本数据集，所述第一文本数据集中的文本标注有领域信息和意图信息；
确定所述第一文本数据集中至少一个第一文本的文本特征和主题特征；
基于所述至少一个第一文本的文本特征和主题特征，利用所述至少一个第一文本训练领域和意图分类模型。

8.根据权利要求7所述的方法，其中，所述基于所述至少一个第一文本的文本特征和主题特征，利用所述至少一个第一文本训练领域和意图分类模型，包括：
通过所述领域和意图分类模型，基于所述至少一个第一文本的文本特征和主题特征，对所述至少一个第一文本进行领域预测和意图预测，得到领域预测信息和意图预测信息；
根据所述至少一个第一文本的领域预测信息和意图预测信息与所述至少一个第一文本标注的领域信息和意图信息之间的差异，对所述领域和意图分类模型进行训练。

9.根据权利要求7所述的方法，其中，所述确定所述第一文本数据集中至少一个第一文本的文本特征和主题特征，包括：
对所述第一文本数据集中的至少一个第一文本进行分词处理；
根据所述分词处理后的至少一个第一文本，确定所述第一文本数据集中至少一个第一文本的文本特征和主题特征。

10.根据权利要求9所述的...

【专利技术属性】
技术研发人员：张致恺，
申请(专利权)人：北京地平线机器人技术研发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人