当前位置: 首页 > 专利查询>吉林大学专利>正文

一种文本中知识领域识别方法及系统技术方案

技术编号:15724516 阅读:148 留言:0更新日期:2017-06-29 10:26
本发明专利技术公开了一种文本中知识领域识别方法,通过判断相关概念领域和目标概念领域的位置,若相关概念领域的数量唯一,则找到概念/关系对,若相关概念领域的数量不唯一,则对同句或相邻句中的相关概念领域和目标概念领域的相对距离进行计算,若相对距离大于或等于阈值,则距离目标概念领域更近的相关概念领域为概念/关系对,若小于阈值,则需要根据语境进行分析判断,可以较快速地处理文本中知识领域之间的匹配关系,从而提高了文本中知识领域的识别效率。本发明专利技术还公开了一种文本中知识领域识别系统,具有与上述权利要求相同的技术效果,在此不再赘述。

【技术实现步骤摘要】
一种文本中知识领域识别方法及系统
本专利技术涉及文本数据处理
,特别涉及一种文本中知识领域识别方法及系统。
技术介绍
文本中实体间的语义关系的揭示是实现文本中领域知识发现的重要前提和保障。当前,对于社交媒体文本数据知识发现的研究多为对现有知识发现方法的应用和改进,鲜少有对文本内容中实体间语义关系的讨论,现有技术中,对文本中知识领域的识别仅通过对关键词的识别判定,识别效率不高,且对文本数据中领域知识的可靠性难以保证。综上所述,如何提高文本中知识领域的识别效率是本领域技术人员目前需要解决的技术问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种文本中知识领域识别方法及系统,可以显著提高文本中知识领域的识别效率。其具体方案如下:一种文本中知识领域识别方法,包括:步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6;步骤S2:判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S3;步骤S3:计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;步骤S4:判断所述第一相对距离是否大于或等于第一阈值,若是,则进行步骤S5,若否,则根据语境进行分析,以得到概念/关系对;步骤S5:判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;步骤S6:判断步骤S1中所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S7;步骤S7:计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;步骤S8:判断所述第三相对距离是否大于或等于第二阈值,若是,则进行步骤S9,若否,则根据语境进行分析,以得到概念/关系对;步骤S9:判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。优选的,步骤S4中所述根据语境进行分析包括:按照出现顺序获取所述第一相关领域概念、所述第二相关领域概念和所述目标领域的序列集合,根据所述序列集合进行分析。优选的,所述文本中知识领域识别方法还包括:若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾被确认为所述目标领域概念的概念/关系对,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。优选的,所述文本中知识领域识别方法还包括:若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾作为所述目标领域概念的结果出现,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。本专利技术还公开了一种文本中知识领域识别系统,包括同句判断模块、第一数量判断模块、第一相对距离计算模块、第一阈值判断模块、第一距离确定模块、第二数量判断模块、第二相对距离计算模块、第二阈值判断模块和第二距离确定模块,其中:所述同句判断模块,用于判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则控制所述第一数量判断模块工作,若否,则控制第二数量判断模块工作;所述第一数量判断模块,用于判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第一相对距离计算模块工作;所述第一相对距离计算模块,用于计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;所述第一阈值判断模块,用于判断所述第一相对距离是否大于或等于第一阈值,若是,则控制所述第一距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;所述第一距离确定模块,用于判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;所述第二数量判断模块,用于判断所述同句判断模块中的所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则控制所述第二相对距离计算模块工作;所述第二相对距离计算模块,用于计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;所述第二阈值判断模块,用于判断所述第三相对距离是否大于或等于第二阈值,若是,则控制所述第二距离确定模块工作,若否,则根据语境进行分析,以得到概念/关系对;所述第二距离确定模块,用于判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。本专利技术公开了一种文本中知识领域识别方法,通过判断相关概念领域和目标概念领域的位置,若相关概念领域的数量唯一,则找到概念/关系对,若相关概念领域的数量不唯一,则对同句或相邻句中的相关概念领域和目标概念领域的相对距离进行计算,若相对距离大于或等于阈值,则距离目标概念领域更近的相关概念领域为概念/关系对,若小于阈值,则需要根据语境进行分析判断,可以较快速地处理文本中知识领域之间的匹配关系,从而提高了文本中知识领域的识别效率。本专利技术还公开了一种文本中知识领域识别系统,具有与上述权利要求相同的技术效果,在此不再赘述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术公开的一种文本中知识领域识别方法的流程示意图;图2为本专利技术公开的一种文本中知识领域识别系统的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例公开了一种文本中知识领域识别方法,参见图1所示,包括步骤S1至S9,其中:步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6。本专利技术对相关领域概念和目标领域概念的位置进行差异化判断,具体分为出现在同一个句子和出现在不同句子,步骤S2至S5为出现在同一句子,步骤S6至S9为出现在相邻句中。可以理解的是,相关领域概念和目标领域概念出现在不相邻的句子中涵盖范围过大,例如相关领域概念和目标领域概念分别出现在全文第一段和最后一段,对于出现在不相邻的句子的情况,本专利技术不予考虑。步骤S2:判断所述相关领域概念的数量是否唯一,若是,则本文档来自技高网...
一种文本中知识领域识别方法及系统

【技术保护点】
一种文本中知识领域识别方法,其特征在于,包括:步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6;步骤S2:判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S3;步骤S3:计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;步骤S4:判断所述第一相对距离是否大于或等于第一阈值,若是,则进行步骤S5,若否,则根据语境进行分析,以得到概念/关系对;步骤S5:判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;步骤S6:判断步骤S1中所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S7;步骤S7:计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;步骤S8:判断所述第三相对距离是否大于或等于第二阈值,若是,则进行步骤S9,若否,则根据语境进行分析,以得到概念/关系对;步骤S9:判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。...

【技术特征摘要】
1.一种文本中知识领域识别方法,其特征在于,包括:步骤S1:判断相关领域概念和目标领域概念是否出现在同一句子中,若是,则进行步骤S2,若否,则进行步骤S6;步骤S2:判断所述相关领域概念的数量是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S3;步骤S3:计算第一相关领域概念距离和第二相关概念领域距离之差的绝对值,得到第一相对距离,其中,所述第一相关领域概念距离为所述第一相关领域概念与所述目标领域概念之差的绝对值,所述第二相关领域概念距离为所述第二相关领域概念与所述目标领域概念之差的绝对值;步骤S4:判断所述第一相对距离是否大于或等于第一阈值,若是,则进行步骤S5,若否,则根据语境进行分析,以得到概念/关系对;步骤S5:判定所述第一相关领域概念距离和所述第二相关概念领域距离中的较小者相应的相关概念领域为概念/关系对;步骤S6:判断步骤S1中所述相关领域概念在相邻句中是否唯一,若是,则判定找到概念/关系对,若否,则进行步骤S7;步骤S7:计算第三相关领域概念距离和第四相关概念领域距离之差的绝对值,得到第二相对距离,其中,所述第三相关领域概念距离为所述第三相关领域概念与所述目标领域概念之差的绝对值,所述第四相关领域概念距离为所述第四相关领域概念与所述目标领域概念之差的绝对值;步骤S8:判断所述第三相对距离是否大于或等于第二阈值,若是,则进行步骤S9,若否,则根据语境进行分析,以得到概念/关系对;步骤S9:判定所述第三相关领域概念距离和所述第四相关概念领域距离中的较小者相应的相关概念领域为概念/关系对。2.根据权利要求1所述的文本中知识领域识别方法,其特征在于,步骤S4中所述根据语境进行分析包括:按照出现顺序获取所述第一相关领域概念、所述第二相关领域概念和所述目标领域的序列集合,根据所述序列集合进行分析。3.根据权利要求1至2任一项所述的文本中知识领域识别方法,其特征在于,还包括:若存在相关领域概念的数量大于2时,判断每一个相关领域概念是否曾被确认为所述目标领域概念的概念/关系对,若否,则判定为找到新概念/关系对,若是,则需要根据语境判断。4.根据权利要求1至2任一项所述的文本中知识领域识别方法,其特征在于,还包括:若存在相关领域概念的数量大于...

【专利技术属性】
技术研发人员:牟冬梅黄丽丽李茵琚沅红戴文浩王萍赵丹宁郑晓月
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1