一种基于依存分析和指代消解的实体言论抽取方法技术

技术编号:37998085 阅读:28 留言:0更新日期:2023-06-30 10:12
本发明专利技术实施例提供一种基于依存分析和指代消解的实体言论抽取方法,包括:步骤S1、基于依存分析规则对待测文本进行解析得到依存分析结果,从依存分析结果中得到待测文本中的主语和谓语;步骤S2、识别待测文本中的主语是否为实体,以及识别待测文本中的谓语是否为触发词;步骤S3、在待测文本中的主语为实体且对应谓语为触发词时,提取待测文本中的触发词之后的言论,以得到包含主语、触发词和言论的实体言论,其中,当主语为指代词时,采用指代消解方式从指代词的前文中提取指代词所指代的真实实体名称作为所述实体言论中的主语。本发明专利技术实施例通过提取文本中真正的言论以及该言论对应的真实实体,使用户清楚快速地掌握各方的言论、观点和立场。观点和立场。观点和立场。

【技术实现步骤摘要】
一种基于依存分析和指代消解的实体言论抽取方法


[0001]本专利技术涉及文本信息抽取领域,具体来说,涉及一种基于依存分析和指代消解的实体言论抽取方法。

技术介绍

[0002]随着互联网技术的飞速发展,通过网络获取社会、经济、时政、生活等信息已经成为人们日常生活中不可或缺的一环。同时,网络技术的发展也造成网络信息量的爆炸式增长,从而导致信息过载,这影响了人们对信息的阅读效率。从海量的信息和大篇幅的新闻报道中,快速、有效获取重要实体(如人物或机构)的言论、观点、立场,成为提高信息阅读效率的重要方法。因此,针对实体言论抽取的研究具有十分重要的意义。
[0003]目前关于实体言论抽取的方法主要有基于规则或基于机器学习的方法,但是整体效果不太理想。主要存在以下不足:
[0004]一方面,现有方法在识别一条待测文本中是否存在言论时,如果存在则将整条待测文本当作实体言论,而并没有将待测文本中真正的言论部分提取出来,这样导致文本数据冗余,获得的言论数据中存在大量非言论信息。另一方面,现有方法在提取言论时,没有考虑言论主语存在指代的情况,言论主语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于依存分析和指代消解的实体言论抽取方法,其特征在于,包括:步骤S1、基于依存分析规则对待测文本进行解析得到依存分析结果,从依存分析结果中得到待测文本中的主语和谓语;步骤S2、识别待测文本中的主语是否为实体,以及识别待测文本中的谓语是否为触发词;步骤S3、在待测文本中的主语为实体且对应谓语为触发词时,提取待测文本中的触发词之后的言论,以得到包含主语、触发词和言论的实体言论,其中,当主语为指代词时,采用指代消解方式从指代词的前文中提取指代词所指代的真实实体名称作为所述实体言论中的主语。2.根据权利要求1所述的方法,其特征在于,所述步骤S3中指代消解方式包括:将待测文本以及该待测文本近邻的一个或多个前文拼接,得到拼接文本,通过预定的实体识别方式对拼接文本中指代词之前的文本进行处理,得到拼接文本中所有的候选实体,其中,所有候选实体中不包括指代词;利用经训练的指代消解模型基于所有的候选实体、拼接文本以及指代词分析得到指代词所指代的真实实体名称,将真实实体名称作为所述实体言论中的主语。3.根据权利要求2所述的方法,其特征在于,所述指代消解模型包括:特征提取模块,用于根据每次输入的从所有的候选实体中选择的一个候选实体、指代词以及拼接文本,提取候选实体特征和指代词特征,得到候选实体的特征向量和指代词的特征向量,将候选实体的特征向量和指代词的特征向量拼接,以得到拼接特征向量,对拼接特征特征向量进行处理,得到综合特征向量;激活函数模块,用于根据综合特征向量得到该候选实体和指代词间存在指代关系的概率值;其中,指代消解模型根据其得到的所有的候选实体和指代词间的概率值,输出最大概率值所对应的候选实体,并在最大概率值大于预定阈值时将对应的候选实体作为真实实体名称。4.根据权利要求3所述的方法,其特征在于,所述特征提取模块包括:预处理层,用于提取输入的候选实体的位置信息和指代词的位置信息;嵌入层,用于对拼接文本编码,得到字粒度特征向量;第一Bi

LSTM神经网络,用于根据字粒度特征向量提取拼接文本每个字的上下文语义特征;拼接层,用于根据每个字的上下文语义特征、候选实体的位置信息和指代词的位置信息,提取候选实体的特征向量和指代词的特征向量,将候选实体的特征向量分别和指代词的特征向量拼接,得到拼接特征向量;CNN层,用于对拼接特征向量进行卷积处理,得到卷积后的特征向量;池化层,用于对卷积后的特征向量进行最大池化处理,得到池化后的特征向量;全连接神经网络,用于对池化后的特征向量进行处理,得到综合特征向量。5.根据权利要求3或4所述的方法,其特征在于,通过以下方式对指代消解模型进行训练:获取第一训练集,第一训练集中每个第一样本包括输入数据和标签,输入数据包括拼
接文本、拼接文本中的一个候选实体和指代词,标签为指示候选实体和指代词间是否为正确的指代关系;利用第一训练集训练指代消解模型预测候选实体与指代词间为正确的指代关系的概率值,得到预测结果,根据预测结果和标签计算第一损失,并根据第一损失更新指代消解模型的参数。6.根据权利要求2所述的方法,其特征在于,所述步骤S2中识别待测文本中的主语是否为实体的实体识别方式包括:基于预先构建的实体名词库,将待测文本中词语与实体名词库中词语进行规则匹配,提取待测文本中的实体,得到第一实体集合,其中,所述实体名词库包含多个国家、多个领域的人物名称和机构名称;基于经训练的命名实体识别模型提取待测文本中的实体,得到第二实体集合;将第一实体集合和第二实体集合的实体合并,得到提取的全部实体,根据提取的全部实体识别所述主语是否为实体。7.根据权利要求6所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:郭嘉丰徐辉程学旗廖华明
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1