一种实体识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：19511327 阅读：29 留言：0更新日期：2018-11-21 07:48

本发明专利技术公开了一种实体识别方法、装置、设备及计算机可读存储介质，该方法包括：获取训练数据集为当前数据集；利用当前数据集训练当前识别模型得到当前识别模型，判断其识别准确度是否达到准确度阈值，若是，则确定完成训练，若否，则调整当前识别模型的参数得到当前识别模型，将当前数据集中每个训练样本的样本特征输入至当前选取模型，计算当前选取模型输出的决策的分数，基于该分数调整当前选取模型的参数得到当前选取模型；将包括有决策为保留的全部训练样本的数据集作为当前数据集，返回执行训练当前识别模型的步骤；利用实体识别模型实现实体识别，基于识别到的实体实现对应产品的推荐。保证实体识别模型识别性能较好，实现产品的准确推荐。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体识别方法、装置、设备及计算机可读存储介质
本专利技术涉及实体识别
，更具体地说，涉及一种实体识别方法、装置、设备及计算机可读存储介质。
技术介绍
在电商领域中，一般出现在文本中的实体主要包括品牌、产品、型号、规格及材质等；为了能够在需要时将电商领域内实体对应的产品推荐给用户，通常需要对电商领域的文本进行实体识别，进而基于识别出的实体进行对应产品的推荐。目前，用于在电商领域实现实体识别的技术方案通常是将实体识别任务抽象成一个序列标注问题，如图1所示，给定一个文本序列并将其输入至实体识别模型中，实体识别模型会为输入的文本序列中每一个字符预测一个标签(即图中的“O”、“B-PDT”等)，最后根据特定的标签组合判断一个词语是否为所需实体；比如图1中的B-PDT表示一个实体的第一个字，I-PDT表示一个实体的末尾，这样就能判断出文本中的“皮带”和“皮鞋”为所需实体，文本序列中其它部分不是实体。常用的实体识别模型为深度神经网络模型，具体来说，深度神经网络模型的训练过程一般包括：用远程监督技术快速获取大规模训练语料，来解决语料匮乏的问题，然后利用训练语料训练深度神经网络模型。但是，在使用的训练语料中，很可能出现由于训练语料中文本序列的标注质量很差，如图2中存在两种标注错误：第一种为图2的(b)中标注不完整(漏标)，漏标了“皮带”；第二种为图2的(c)中标注错误(错标)，把“工装鞋”标成了“工装”，使得训练得到的实体识别模型的识别性能较差，进而导致实体对应产品推荐有误的情况存在。综上所述，现有技术中用于实现电商领域实体识别的技术方案存在用于实现实体识别的模型...

【技术保护点】
1.一种实体识别方法，其特征在于，包括：获取训练数据集为当前数据集，所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列；获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型；利用当前数据集对当前识别模型进行训练得到当前识别模型，判断当前识别模型的识别准确度是否达到准确度阈值，如果是，则确定当前识别模型为训练完成的实体识别模型，如果否，则对当前识别模型的参数进行调整得到当前识别模型，并将当前数据集中每个训练样本的样本特征输入至当前选取模型，按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数，基于该分数调整当前选取模型的参数得到当前选取模型；将包括有所述决策为保留的全部训练样本的数据集作为当前数据集，返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤；利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别，并基于识别到的实体实现对应产品的推荐。

【技术特征摘要】
1.一种实体识别方法，其特征在于，包括：获取训练数据集为当前数据集，所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列；获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型；利用当前数据集对当前识别模型进行训练得到当前识别模型，判断当前识别模型的识别准确度是否达到准确度阈值，如果是，则确定当前识别模型为训练完成的实体识别模型，如果否，则对当前识别模型的参数进行调整得到当前识别模型，并将当前数据集中每个训练样本的样本特征输入至当前选取模型，按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数，基于该分数调整当前选取模型的参数得到当前选取模型；将包括有所述决策为保留的全部训练样本的数据集作为当前数据集，返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤；利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别，并基于识别到的实体实现对应产品的推荐。2.根据权利要求1所述的方法，其特征在于，获取训练数据集，包括：获取人工得到对应标签序列的第一文本序列；利用所述第一文本序列中的实体构建实体词表，利用所述实体词表在第二文本序列中进行匹配，并基于匹配结果得到所述第二文本序列的标签序列；获取包括有所述第一文本序列及所述第二文本序列的训练数据集，其中，所述第二文本序列的数量大于所述第一文本序列的数量。3.根据权利要求2所述的方法，其特征在于，将包括有所述决策为保留的全部训练样本的数据集作为当前数据集，包括：将包括有全部第一文本序列对应训练样本及所述决策为保留的全部第二文本序列对应训练样本的数据集作为当前数据集。4.根据权利要求3所述的方法，其特征在于，将当前数据集中每个训练样本的样本特征输入至当前选取模型，包括：将当前数据集中每个训练样本的样本特征输入至当前选取模型，所述样本特征为将训练样本输入至当前识别模型中包含的BiLSTM及全连接层后得到的数据信息。5.根据权利要求2所述的方法，其特征在于，利用当前数据集对当前识别模型进行训练，包括：利用当前数据集基于下列条件概率计算公式对当前识别模型进行训练：其中，x表示训练当前识别模型的过程中输入至当前识别模型的任一文本序列，z表示x中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合，p(z|x)表示z的条件概率值，表示z中的每个标签序列，表示的条件概率值，Yx表示x中所有标签均可为任意标签时得到的全部标签序列的集合，表示Yx中的每个标签序列，e为自然常数，及均为预设得分函数。6.根据权利要求5所述的方法，其特征在于，按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数，包括：按照下列公式计算当前选取模型输...

【专利技术属性】
技术研发人员：陈文亮，杨耀晟，张民，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人