当前位置: 首页 > 专利查询>苏州大学专利>正文

一种实体识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:19511327 阅读:29 留言:0更新日期:2018-11-21 07:48
本发明专利技术公开了一种实体识别方法、装置、设备及计算机可读存储介质,该方法包括:获取训练数据集为当前数据集;利用当前数据集训练当前识别模型得到当前识别模型,判断其识别准确度是否达到准确度阈值,若是,则确定完成训练,若否,则调整当前识别模型的参数得到当前识别模型,将当前数据集中每个训练样本的样本特征输入至当前选取模型,计算当前选取模型输出的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有决策为保留的全部训练样本的数据集作为当前数据集,返回执行训练当前识别模型的步骤;利用实体识别模型实现实体识别,基于识别到的实体实现对应产品的推荐。保证实体识别模型识别性能较好,实现产品的准确推荐。

【技术实现步骤摘要】
一种实体识别方法、装置、设备及计算机可读存储介质
本专利技术涉及实体识别
,更具体地说,涉及一种实体识别方法、装置、设备及计算机可读存储介质。
技术介绍
在电商领域中,一般出现在文本中的实体主要包括品牌、产品、型号、规格及材质等;为了能够在需要时将电商领域内实体对应的产品推荐给用户,通常需要对电商领域的文本进行实体识别,进而基于识别出的实体进行对应产品的推荐。目前,用于在电商领域实现实体识别的技术方案通常是将实体识别任务抽象成一个序列标注问题,如图1所示,给定一个文本序列并将其输入至实体识别模型中,实体识别模型会为输入的文本序列中每一个字符预测一个标签(即图中的“O”、“B-PDT”等),最后根据特定的标签组合判断一个词语是否为所需实体;比如图1中的B-PDT表示一个实体的第一个字,I-PDT表示一个实体的末尾,这样就能判断出文本中的“皮带”和“皮鞋”为所需实体,文本序列中其它部分不是实体。常用的实体识别模型为深度神经网络模型,具体来说,深度神经网络模型的训练过程一般包括:用远程监督技术快速获取大规模训练语料,来解决语料匮乏的问题,然后利用训练语料训练深度神经网络模型。但是,在使用的训练语料中,很可能出现由于训练语料中文本序列的标注质量很差,如图2中存在两种标注错误:第一种为图2的(b)中标注不完整(漏标),漏标了“皮带”;第二种为图2的(c)中标注错误(错标),把“工装鞋”标成了“工装”,使得训练得到的实体识别模型的识别性能较差,进而导致实体对应产品推荐有误的情况存在。综上所述,现有技术中用于实现电商领域实体识别的技术方案存在用于实现实体识别的模型识别性能较差进而导致实体对应产品推荐有误的问题。
技术实现思路
本专利技术的目的是提供一种实体识别方法、装置、设备及计算机可读存储介质,以提高实现电商领域的实体识别的模型的识别性能,进而提高实体对应产品推荐的准确性。为了实现上述目的,本专利技术提供如下技术方案:一种实体识别方法,包括:获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。优选的,获取训练数据集,包括:获取人工得到对应标签序列的第一文本序列;利用所述第一文本序列中的实体构建实体词表,利用所述实体词表在第二文本序列中进行匹配,并基于匹配结果得到所述第二文本序列的标签序列;获取包括有所述第一文本序列及所述第二文本序列的训练数据集,其中,所述第二文本序列的数量大于所述第一文本序列的数量。优选的,将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,包括:将包括有全部第一文本序列对应训练样本及所述决策为保留的全部第二文本序列对应训练样本的数据集作为当前数据集。优选的,将当前数据集中每个训练样本的样本特征输入至当前选取模型,包括:将当前数据集中每个训练样本的样本特征输入至当前选取模型,所述样本特征为将训练样本输入至当前识别模型中包含的BiLSTM及全连接层后得到的数据信息。优选的,利用当前数据集对当前识别模型进行训练,包括:利用当前数据集基于下列条件概率计算公式对当前识别模型进行训练:其中,x表示训练当前识别模型的过程中输入至当前识别模型的任一文本序列,z表示x中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(z|x)表示z的条件概率值,表示z中的每个标签序列,表示的条件概率值,Yx表示x中所有标签均可为任意标签时得到的全部标签序列的集合,表示Yx中的每个标签序列,e为自然常数,及均为预设得分函数。优选的,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,包括:按照下列公式计算当前选取模型输出的对每个训练样本是否保留的决策的分数:其中,r表示xj对应的分数,表示决策为保留的全部训练样本的集合,xj表示中的某个训练样本的文本序列,f表示中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(f|xj)表示f的条件概率值;表示第一文本序列对应训练样本的集合,xk表示中的某个训练样本的文本序列,y表示xk中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(y|xk)表示y的条件概率值。优选的,基于计算所得分数调整当前选取模型的参数,包括:将全部训练样本分成多个集合,并将每个集合包含的训练样本对应分数的平均值作为该集合的集合分数;依次基于每个所述集合分数调整当前选取模型的参数,得到当前选取模型;其中,基于每个集合分数调整当前选取模型的参数包括:按照下列公式基于每个集合分数调整当前选取模型的参数:其中,θ是一个变量,表示当前选取模型的参数;α是一个指定的0到1之间的小数,表示任一集合分数对应的集合,at及Aθ(st,at)均表示当前选取模型对全部训练样本组成的集合A中的第t个训练样本对应文本序列做出的决策,r(at)表示at对应的分数,st表示集合A中第t个训练样本的样本特征,▽θ表示对θ求偏导。一种实体识别装置,包括:获取模块,用于:获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;训练模块,用于:获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;识别模块,用于:利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。一种实体识别设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上任一项所述实体识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述实体识别方法的步骤。本专利技术提供了一种实体识别方法、装本文档来自技高网
...

【技术保护点】
1.一种实体识别方法,其特征在于,包括:获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:获取训练数据集为当前数据集,所述训练数据集中的训练样本包括电商领域的文本序列及识别对应文本序列中实体后标注所得的标签序列;获取初始实体识别模型及初始样本选取模型分别为当前识别模型及当前选取模型;利用当前数据集对当前识别模型进行训练得到当前识别模型,判断当前识别模型的识别准确度是否达到准确度阈值,如果是,则确定当前识别模型为训练完成的实体识别模型,如果否,则对当前识别模型的参数进行调整得到当前识别模型,并将当前数据集中每个训练样本的样本特征输入至当前选取模型,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,返回执行利用当前数据集对当前识别模型进行训练得到当前识别模型的步骤;利用训练完成的实体识别模型实现未进行标注的电商领域内的文本序列的实体识别,并基于识别到的实体实现对应产品的推荐。2.根据权利要求1所述的方法,其特征在于,获取训练数据集,包括:获取人工得到对应标签序列的第一文本序列;利用所述第一文本序列中的实体构建实体词表,利用所述实体词表在第二文本序列中进行匹配,并基于匹配结果得到所述第二文本序列的标签序列;获取包括有所述第一文本序列及所述第二文本序列的训练数据集,其中,所述第二文本序列的数量大于所述第一文本序列的数量。3.根据权利要求2所述的方法,其特征在于,将包括有所述决策为保留的全部训练样本的数据集作为当前数据集,包括:将包括有全部第一文本序列对应训练样本及所述决策为保留的全部第二文本序列对应训练样本的数据集作为当前数据集。4.根据权利要求3所述的方法,其特征在于,将当前数据集中每个训练样本的样本特征输入至当前选取模型,包括:将当前数据集中每个训练样本的样本特征输入至当前选取模型,所述样本特征为将训练样本输入至当前识别模型中包含的BiLSTM及全连接层后得到的数据信息。5.根据权利要求2所述的方法,其特征在于,利用当前数据集对当前识别模型进行训练,包括:利用当前数据集基于下列条件概率计算公式对当前识别模型进行训练:其中,x表示训练当前识别模型的过程中输入至当前识别模型的任一文本序列,z表示x中已确定为实体的标签不变、其他标签可为任意标签时得到的全部标签序列的集合,p(z|x)表示z的条件概率值,表示z中的每个标签序列,表示的条件概率值,Yx表示x中所有标签均可为任意标签时得到的全部标签序列的集合,表示Yx中的每个标签序列,e为自然常数,及均为预设得分函数。6.根据权利要求5所述的方法,其特征在于,按照预设原则计算当前选取模型输出的对每个训练样本是否保留的决策的分数,包括:按照下列公式计算当前选取模型输...

【专利技术属性】
技术研发人员:陈文亮杨耀晟张民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1