【技术实现步骤摘要】
用于挖掘文本中的实体关注点的方法和装置
本公开的实施例涉及计算机
,具体涉及文本数据处理
,尤其涉及用于挖掘文本中的实体关注点的方法和装置。
技术介绍
随着互联网技术的发展,社交平台等网络应用中出现了大量的短文本。文本中的实体关注点表示文本信息中所包含的实体以及围绕实体进行描述的实体属性、相关话题或事件等关注点信息。实体关注点标注是从文本数据中明确主要描述的实体以及相应的实体关注点的技术。实体关注点的标注结果可以用来快速提炼文本内容,以及进行可解释的信息推荐。传统的实体关注点标注方案主要通过关键词识别来提取实体关键词和关注点关键词。这种方依赖于关键词库的构建,不能很好地覆盖文本中的实体,且无法判断实体与关注点之间的关系。
技术实现思路
本公开的实施例提出了用于挖掘文本中的实体关注点的方法和装置、电子设备和计算机可读介质。第一方面,本公开的实施例提供了一种用于挖掘文本中的实体关注点的方法,包括:对输入文本进行字词特征提取;将提取出的字词特征输入至文本编码网络进行编码,得到输入文本 ...
【技术保护点】
1.一种用于挖掘文本中的实体关注点的方法,包括:/n对输入文本进行字词特征提取;/n将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;/n利用核心实体标注网络对所述输入文本的编码序列进行处理,预测出所述输入文本中的核心实体的位置;/n基于所述输入文本中的核心实体的位置,从所述输入文本的编码序列中提取出所述输入文本中的核心实体对应的子序列;/n基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置。/n
【技术特征摘要】
1.一种用于挖掘文本中的实体关注点的方法,包括:
对输入文本进行字词特征提取;
将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编码序列;
利用核心实体标注网络对所述输入文本的编码序列进行处理,预测出所述输入文本中的核心实体的位置;
基于所述输入文本中的核心实体的位置,从所述输入文本的编码序列中提取出所述输入文本中的核心实体对应的子序列;
基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置。
2.根据权利要求1所述的方法,其中,所述对输入文本进行字词特征提取,包括:
对所述输入文本对应的字序列进行字词混合嵌入得到对应的字特征向量;
对所述输入文本对应的字序列中的各字符进行位置嵌入,得到对应的位置特征向量;
对所述输入文本进行命名实体识别,根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量;
将所述输入文本对应的字特征向量、位置特征向量以及命名实体类型特征向量拼接形成所述输入文本的字词特征向量。
3.根据权利要求2所述的方法,其中,所述根据命名实体识别的结果生成表征命名实体的类型的命名实体类型特征向量,包括:
响应于未识别出所述输入文本中的目标词语的命名实体的类型,对所述目标词语进行词性标注,基于从所述输入文本中识别出的命名实体的类型以及所述目标词语的词性标注结果生成所述命名实体类型特征向量。
4.根据权利要求1所述的方法,其中,所述利用核心实体标注网络对所述输入文本的编码序列进行处理,预测出所述输入文本中的核心实体的位置,包括:
将所述输入文本的编码序列输入所述核心实体标注网络以预测所述输入文本中每个字串作为核心实体的概率,并根据所述输入文本中各字串作为核心实体的概率,采用双指针分别标注出核心实体的起始位置和结束位置。
5.根据权利要求1所述的方法,其中,所述基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置,包括:
获取基于所述核心实体的关注点知识库构建的所述核心实体的关注点先验特征;
基于所述输入文本的编码序列、所述核心实体的关注点先验特征、以及所述输入文本中的核心实体对应的子序列生成所述输入文本的第一关注点特征,将所述输入文本的第一关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置。
6.根据权利要求5所述的方法,其中,所述将所述输入文本的第一关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置,包括:
将所述输入文本的第一关注点特征输入所述关注点标注网络以预测所述输入文本中每个字串作为核心实体的关注点的概率,并根据所述输入文本中各字串作为核心实体的关注点的概率,采用双指针分别标注出核心实体的关注点的起始位置和结束位置。
7.根据权利要求1-6任一项所述的方法,其中,所述输入文本包括:核心实体和对应的关注点的标注信息;
所述方法还包括:
根据所述输入文本的核心实体和对应的关注点的标注信息,确定所述输入文本的核心实体和对应的关注点的位置的预测误差,采用反向传播法迭代调整用于标注核心实体关注点的模型中的参数,以获得训练完成的用于标注核心实体关注点的模型,其中,所述用于标注核心实体关注点的模型包括所述文本编码网络、所述核心实体标注网络以及所述关注点标注网络。
8.根据权利要求7所述的方法,其中,所述方法还包括:
基于所述输入文本中的核心实体和对应的关注点的标注信息提取出核心实体与对应的关注点的相对位置特征并编码得到相对位置特征序列;以及
所述基于所述输入文本的编码序列以及所述输入文本中的核心实体对应的子序列,利用关注点标注网络预测出所述输入文本中的核心实体对应的关注点的位置,包括:
获取基于所述核心实体的关注点知识库构建的所述核心实体的关注点先验特征;
将对所述输入文本中的核心实体对应的子序列进行编码的结果与所述相对位置特征序列拼接得到所述输入文本中的核心实体的编码序列;
基于所述输入文本的编码序列、所述核心实体的关注点先验特征、以及所述输入文本中的核心实体对应的编码序列生成所述输入文本的第二关注点特征,将所述输入文本的第二关注点特征输入至所述关注点标注网络,预测出由所述核心实体标注网络预测出的核心实体对应的关注点的位置。
9.一种用于挖掘文本中的实体关注点的装置,包括:
第一提取单元,被配置为对输入文本进行字词特征提取;
编码单元,被配置为将提取出的字词特征输入至文本编码网络进行编码,得到输入文本的编...
【专利技术属性】
技术研发人员:王述,任可欣,张晓寒,冯知凡,张扬,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。