当前位置: 首页 > 专利查询>苏州大学专利>正文

一种文本实体检测方法、系统及相关组件技术方案

技术编号:22330351 阅读:36 留言:0更新日期:2019-10-19 12:19
本申请公开了一种文本实体检测方法,所述文本实体检测方法包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本方法能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请还公开了一种文本实体检测系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。

【技术实现步骤摘要】
一种文本实体检测方法、系统及相关组件
本专利技术涉及机器学习
,特别涉及一种文本实体检测方法、系统、一种计算机可读存储介质及一种电子设备。
技术介绍
新同类实体挖掘是一种开放域实体抽取技术。不同于传统命名实体识别技术仅仅针对某些特定类别实体的识别,新同类实体挖掘更侧重于对给定的某任意开放类别实体所构成的种子实体集合进行分析,利用实体抽取的技术从相关开放领域的无标注语料中挖掘出更多与该集合中的实体同属一类的新实体。例如给出种子实体集合包含{中国,德国}等国家名,抽取系统可以挖掘出{日本,法国}之类的其他实体。新同类实体挖掘广泛应用于网页搜索、物品推荐、知识图谱补全等重要技术中。相关技术中通常利用深度学习的序列标注神经模型实现实体挖掘,但是这种方法需要大量高质量人工标注数据作为训练模型的原料,目前开放领域类别的命名实体识别训练资源还相当稀缺,无法进行有效的实体抽取。因此,如何在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘是本领域技术人员目前需要解决的技术问题。
技术实现思路
本申请的目的是提供一种文本实体检测方法、系统、一种计算机可读存储介质及一种电子设备,能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。为解决上述技术问题,本申请提供一种文本实体检测方法,该文本实体检测方法包括:利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。可选的,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果包括:基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配,并将匹配成功的语句实体设置为正例,将匹配失败的语句实体设置为未标注实例。可选的,根据所述匹配结果生成所述目标语句对应的标注数据包括:为所述正例生成实体序列标签,为所述未标注实例生成非实体序列标签;根据所述正例和所述未标注实例在所述目标语句中的位置信息排列所述实体序列标签和所述非实体序列标签,得到所述标注数据。可选的,查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据包括:查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;其中,所述待检实体序列标签包括当任一所述待检未标注实例为正例或负例时所有所述待检未标注实例的序列标签组合。可选的,利用所述局部标注数据训练序列标注神经模型包括:对所述局部标注数据执行数据增强操作得到扩充标注数据;利用所述局部标注数据和所述扩充标注数据训练所述序列标注神经模型。可选的,对所述局部标注数据执行数据增强操作得到扩充标注数据包括:对所述局部标注数据中正例对应的语句实例进行掩盖处理,并替换为所述种子实体集合中对应的其他语句实例,得到所述扩充标注数据。可选的,所述序列标注神经模型具体为双向长短期记忆-条件随机场模型;其中,所述双向长短期记忆-条件随机场模型包括输入层、双向长短期记忆层和条件随机场层。本申请还提供了一种文本实体检测系统,该文本实体检测系统包括:标注模块,用于利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;标注数据修改模块,用于查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;训练模块,用于利用所述局部标注数据训练序列标注神经模型;实体挖掘模块,用于利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文本实体检测方法执行的步骤。本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述文本实体检测方法执行的步骤。本申请提供了一种文本实体检测方法,包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本申请将实体挖掘问题转化为序列标注问题,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据,利用无标注语料词频表将每一个语句实例的标注数据转化为局部标注数据,最终利用局部标注数据训练序列标注神经模型,利用训练后的序列标注神经模型得到所有目标语句的实体集合。本申请在将标注数据转化为局部标注数据的过程中增加了待训练语句的数量,可以在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请同时还提供了一种文本实体检测系统、一种计算机可读存储介质和一种电子设备,具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种文本实体检测方法的流程图;图2为本申请实施例提供的另一种文本实体检测方法的流程图;图3为本申请实施例提供的一种远程监督标注数据的生成方式示意图;图4为本申请实施例提供的一种局部标注数据的转化方式示意图;图5为本申请实施例提供的一种基于序列标注神经模型的新同类实体挖掘框架示意图;图6为本申请实施例提供的一种局部表述数据生成过程示意图;图7为本申请实施例提供的一种文本实体检测系统的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面请参见图1,图1为本申请实施例提供的一种文本实体检测方法的流程图。具体步骤可以包括:S101:利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;其中,本实施例不限定目标语句中的句子数量,目标语句中的一句话相当于一个语句实例,种子实体集合中包括预先设置的多个实体,实体指句子中以名词形式存在的个体。本步骤首先利用种子实体集合对每一个语句实例进行匹配得到匹配结果,当语句实例中存在与本文档来自技高网...

【技术保护点】
1.一种文本实体检测方法,其特征在于,包括:利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。

【技术特征摘要】
1.一种文本实体检测方法,其特征在于,包括:利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。2.根据权利要求1所述文本实体检测方法,其特征在于,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果包括:基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配,并将匹配成功的语句实体设置为正例,将匹配失败的语句实体设置为未标注实例。3.根据权利要求2所述文本实体检测方法,其特征在于,根据所述匹配结果生成所述目标语句对应的标注数据包括:为所述正例生成实体序列标签,为所述未标注实例生成非实体序列标签;根据所述正例和所述未标注实例在所述目标语句中的位置信息排列所述实体序列标签和所述非实体序列标签,得到所述标注数据。4.根据权利要求3所述文本实体检测方法,其特征在于,查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据包括:查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;其中,所述待检实体序列标签包括当任一所述待检未标注实例为正例或负例时所有所述待检未标注实例的序列标签组合...

【专利技术属性】
技术研发人员:陈文亮郁圣卫杨耀晟张民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1