基于联合学习的实体标准化方法、装置、设备及可读介质制造方法及图纸

技术编号：32969203 阅读：15 留言：0更新日期：2022-04-09 11:31

本申请公开了一种基于联合学习的实体标准化方法、装置、设备及可读介质，其中基于联合学习的实体标准化方法包括以下步骤：获取待识别的文本语句；通过对待识别的文本语句进行按字分词，得到按字分词结果；对按字分词结果进行编码，得到编码结果；将编码结果输入层叠式指针网络，得到实体结果；将编码结果和实体结果相加并输入到softmax分类器，得到实体标准化结果。相比于现有技术，本申请的实施例先通过对待识别的文本语句进行按字分词和编码，然后将编码结果输入层叠式指针网络，得到实体结果，并通过将编码结果和实体结果进行联合训练，解决传统方法的误差传递，从而提高了实体标准化的准确率。标准化的准确率。标准化的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于联合学习的实体标准化方法、装置、设备及可读介质

[0001]本申请涉及计算机
，具体涉及一种基于联合学习的实体标准化方法、装置、设备及可读介质。

技术介绍

[0002]随着自然语言处理技术的迅速发展，推动智能机器人的发展，在医疗领域，在线智能问诊机器人已得到广泛应用。但是问诊机器人在问诊的时候，由于用户输入的医疗文本通常具有不连续性，且缺少专业知识，用户经常会使用口语化的描述性语言进行表达，如表达“头痛”时语言可能是“头有点痛”或者“头很痛”，从而导致现有的医疗文本识别方法的识别准确性较差。
[0003]为了提高问诊机器人的问诊效率，通常会先将各种不同类型的口语化表达映射到统一的标准中。目前业界使用较多的方案是先通过NER(Named Entity Recognition，命名实体识别)算法识别出客户说的话中的实体，然后再通过分类的方法把NER算法识别的实体加上原句子得到最后实体标准化的结果。如句子“我头有点痛”，NER算法识别出“头有点痛”且实体类型为症状，再将“头有点痛”和“我头有点痛”编码，编码后再拼接，输入到分类器中，最后分类算法得到标准化的实体“头痛”,这种方法中的NER算法和分类算法是分开训练的，存在误差传递的问题，NER算法的误差会传递分类算法中，从而使得准确率下降。

技术实现思路

[0004]本申请的目的在于至少能解决上述现有技术中的技术问题之一。
[0005]第一方面，本申请的实施例提供了一种基于联合学习的实体标准化方法，包括以下步骤：获取待识别的文本语句；...

【技术保护点】

【技术特征摘要】
1.一种基于联合学习的实体标准化方法，其特征在于，所述方法包括以下步骤：获取待识别的文本语句；通过对待识别的文本语句进行按字分词，得到按字分词结果；对按字分词结果进行编码，得到编码结果；将编码结果输入层叠式指针网络，得到实体结果；将编码结果和实体结果相加并输入到softmax分类器，得到实体标准化结果。2.根据权利要求1所述的基于联合学习的实体标准化方法，其特征在于，所述通过对待识别的文本语句进行按字分词，得到按字分词结果包括：通过BERT的分词器对待识别的文本语句进行按字分词，得到按字分词结果。3.根据权利要求2所述的基于联合学习的实体标准化方法，其特征在于，所述对按字分词结果进行编码，得到编码结果包括：利用BERT对按字分词结果进行编码，得到编码结果。4.根据权利要求1所述的基于联合学习的实体标准化方法，其特征在于，所述将编码结果和实体结果相加并输入到softmax分类器，得到实体标准化结果包括：将编码结果和实体结果按位相加或者按元素相加并输入到softmax分类器，得到实体标准化结果。5.根据权利要求1所述的基于联合学习的实体标准化方法，其特征在于，构建第一目标函数对层叠式指针网络进行训练，并计算得到第一函数损失；构建第二目标函数对softmax分类器进行训练，并计算得到第二函数损失；将所述第一函数损失和所述第二函数损失进行相加计算，得到函数总损失；之后训练模型，直至验证数据集的准确率达到最优且函数总损失收敛，完成模型训练。6.根据权利要求5所述的基于联合学习的实体标准化方法，其特征在于，所述...

【专利技术属性】
技术研发人员：黄杰，肖龙源，李稀敏，李威，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人