一种基于定义与关系的术语抽取方法技术

编号:201710833633 阅读:9 评论( 0 )

本发明专利技术属于文本挖掘领域,尤其涉及一种基于定义与关系的术语抽取方法,该方法以挖掘术语定义与术语关系为主,综合构词规则和边界检测,其首先对文本进行定义抽取,从定义中生成初始的优质术语候补,之后会根据术语关系不断对术语候补进行扩充。本发明专利技术提出的上述术语抽取方法有利于提高对低频术语的辨识能力和对于通用性较高术语、长字数术语的抽取能力。

微信分享本专利技术
微信扫一扫分享本专利技术到微信朋友圈,让更多的人了解这个技术。

全部详细技术资料下载

1 技术实现步骤摘要

一种基于定义与关系的术语抽取方法
本专利技术属于文本挖掘领域,尤其涉及一种基于定义与关系的术语抽取方法
技术介绍
术语作为在特定领域内表达专业概念的约定性符号,在中文分词、句法分析等自然语言领域都发挥着重要的作用。在构建领域知识库的过程中,术语作为领域内知识的主要体现,在知识实例的扩充工作中有着重要的地位。从非结构化文本中手工进行术语标注耗费大量人力与时间,且会存在因标注遗漏而导致召回率降低的情况。因此自动的术语抽取工作受到了越来越多研究者的重视。现有技术中的术语抽取方法主要包含两个步骤。第一步是通过对字符串的单元性计算来获取候补术语;第二步则通过术语性这一衡量指标来抽取出真正的术语。其中单元性是用来刻画特定字符串组合的稳定性,术语性是用来描述一个语言单位在该领域内的相关程度。这些方法大都是基于统计的方法。但为基础教育知识库构建进行术语抽取时,术语的统计特征和专业领域中的术语有较大的不同。以数学学科为例,术语“三角形”在初高中课本中共出现1779次,而术语“切点圆”则仅仅出现3次。数学教材中仅有少部分重要术语被反复使用,这种长尾特性会造成低频词的遗漏。此外,一些基础性术语如“面”、“线”也被广泛地使用在其他领域,这种现象会导致通用性高的术语会因为逆向文件频率而被认为是领域无关的词语。因此,现有技术中的术语抽取方法对于低频术语的辨识能力较低,容易造成遗漏,对通用性较高的术语以及长字数术语抽取能力较差。专业词汇解释定义:对一个概念的内涵和外延的确切而简要的说明。比如,什么是“外切圆”。构词规则:即词语是如何构成的,比如“直角三角形”是由名词“直角”和“三角形”构成的。模板:是指概括某类情况的抽象表达。比如,“<下位部分>是<上位部分>”模板就包含了所有“A是B”的情况,其中“A”是“下位部分”,“B”是“上位部分”。边界词表:出现在边界位置的常见的副词(如“时”、“都”、“于”、“各”等等)以及常用的代词和量词搭配(如“这个”、“一组”、“一对”、“一条”等等)组成的词表。边界检测:通过边界词表筛选术语候选中的术语。比如“一条直线”在术语候选中,但是我们的边界词表中有“一条”,则说明“一条直线”不是术语,需要从术语候选中删除。术语候选:是术语的可能性较大但还需进一步确认的词语或句子片段的集合。比如,上面提到的“一条直线”。右型候选(Rc):术语更容易出现在右侧部分的术语候选,比如术语候选“一条直线”就是Rc,术语是“直线”,出现在“一条直线”的右侧。左型候选(Lc):术语更容易出现在左侧部分的术语候选,比如“直线上”是Lc,术语是“直线”,出现在“直线上”的左侧。
技术实现思路
针对上述问题,本专利技术提出了一种基于定义与关系的术语抽取方法,所述方法包括以下步骤:步骤(1):对html格式的文本进行预处理与初始化;步骤(2):依据步骤(1)处理后得到的文本,进行基于定义的术语候补抽取,生成一个术语候补集;步骤(3):利用步骤(1)处理后得到的文本与步骤(2)生成的所述术语候补集,进行基于上下位关系的术语候补抽取,生成新的术语候补集;步骤(4):利用步骤(1)处理后得到的文本与步骤(3)生成的所述术语候补集,进行基于整体部分关系的术语候补抽取,生成新的术语候补集;步骤(5):利用步骤(1)处理后得到的文本与步骤(4)生成的所述术语候补集,进行基于并列关系的术语候补抽取,生成新的术语候补集;步骤(6):对步骤(5)生成的所述术语候补集中的每一个术语候补进行基于构词规则的检查,生成一个通过构词规则检查的术语候补集;步骤(7):利用步骤(5)生成的所述术语候补集和步骤(6)生成的所述通过构词规则检查的术语候补集对术语候补进行边界检测,生成新的术语集;步骤(8):统计步骤(7)生成的所述术语集的元素个数为n,将n与步骤(7)执行前的术语集的元素个数进行比较,若二者相等则程序结束,返回当前的术语集;否则,执行步骤(9);步骤(9):计算机修正分词结果,返回至步骤(3)。进一步地,步骤(1)包括如下子步骤:步骤(1.1):识别文本中的img和table标签,过滤掉图片和表格;步骤(1.2):过滤掉文本中的html标签,提取标签中的文本内容;步骤(1.3):从清理后的文本中找出符号与公式,并进行过滤;步骤(1.4):根据句号、逗号、分号与问号对文本进行重新分段;步骤(1.5):利用ansj分词工具对文本进行中文分词,并计算每个词的词频。进一步地,步骤(2)包括如下子步骤:步骤(2.1):人工根据文本特点总结出定义模板,定义模板为正则表达式形式,包含被定义部分和定义部分两个匹配内容;步骤(2.2):通过步骤(2.1)制定的模板从文本中抽取出被定义部分和定义部分,被定义部分被标记为右型候补,设置为低置信度,定义部分被标记为左型候补,设置为高置信度;步骤(2.3):将新发现的术语候补添加到当前的术语候补集中。进一步地,步骤(3)包括如下子步骤:步骤(3.1):人工根据文本特点总结出上下位模板:“<下位部分>是<上位部分>”;步骤(3.2):通过步骤(3.1)制定的模板从文本中抽取出下位部分和上位部分,若上位部分是已发现的术语,则将下位部分设置为右型候补,设置为低置信度,若下位部分是已发现的术语,则将上位部分设置为左型候补,设置为高置信度;步骤(3.3):将步骤(3.2)中发现的术语候补添加到当前的术语候补集中。进一步地,步骤(4)包括如下子步骤:步骤(4.1):人工根据文本特点总结出整体部分模板:“<左部分>的<右部分>”;步骤(4.2):通过步骤(4.1)制定的模板从文本中抽取出左部分和右部分,设左部分为s1,右部分为s2,s1的分词结果为w1_1……w1_m,s2的分词结果为w2_1……w2_n,首先检验w1_m与w2_n中是否恰有一个是已经发现的术语,若w1_m是术语,则取s2作为术语候补,若w2_n是术语,则取s1作为术语候补;步骤(4.3):对步骤(4.2)中发现的术语候补tc,检查分词后所有与tc有整体部分关系的词中术语所占的比例,若比例大于等于给定阈值则将tc设置为低置信度Rc加入到当前术语候补集中;步骤(4.4):寻找出当前术语候补集中满足通过步骤(4.1)制定的模板的术语候补tc,并从中抽取“左部分”s1和“右部分”s2,若tc是高置信度术语候补,则设置s1为高置信度Rc,设置s2为高置信度Lc,当tc是低置信度术语候补时,若tc为Lc则仅取s1,将其设置为低置信度Rc,否则仅取s2,将其设置为低置信度Lc,此后将tc从当前术语候补集中删除;步骤(4.5):将步骤(4.4)中产生的新术语候补添加到当前术语候补集中。进一步地,步骤(5)包括如下子步骤:步骤(5.1):人工根据文本特点总结出并列关系模板:“<并列部分>(<并列部分>、)*[和|或|与]<并列部分>等?”;步骤(5.2):通过步骤(5.1)制定的模板从利用步骤(1)处理后得到的文本中抽取出“并列关本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710833633.html" title="一种基于定义与关系的术语抽取方法原文来自X技术">一种基于定义与关系的术语抽取方法</a>
【详细说明在详细技术资料中】

全部详细技术资料下载 我是这个专利的主人

2 技术保护点

一种基于定义与关系的术语抽取方法,其特征在于,所述方法包括以下步骤:步骤1:对html格式的文本进行预处理与初始化;步骤2:依据步骤1处理后得到的文本,进行基于定义的术语候补抽取,生成一个术语候补集;步骤3:利用步骤1处理后得到的文本与步骤2生成的所述术语候补集,进行基于上下位关系的术语候补抽取,生成新的术语候补集;步骤4:利用步骤1处理后得到的文本与步骤3生成的所述术语候补集,进行基于整体部分关系的术语候补抽取,生成新的术语候补集;步骤5:利用步骤1处理后得到的文本与步骤4生成的所述术语候补集,进行基于并列关系的术语候补抽取,生成新的术语候补集;步骤6:对步骤5生成的所述术语候补集中的每一个术语候补进行基于构词规则的检查,生成一个通过构词规则检查的术语候补集;步骤7:利用步骤5生成的所述术语候补集和步骤6生成的所述通过构词规则检查的术语候补集对术语候补进行边界检测,生成新的术语集;步骤8:统计步骤7生成的所述术语集的元素个数为n,将n与步骤7执行前的术语集的元素个数进行比较,若二者相等则程序结束,返回当前的术语集;否则,执行步骤9;步骤9:计算机修正分词结果,返回至步骤3。

3 技术保护范围摘要

1.一种基于定义与关系的术语抽取方法,其特征在于,所述方法包括以下步骤:步骤1:对html格式的文本进行预处理与初始化;步骤2:依据步骤1处理后得到的文本,进行基于定义的术语候补抽取,生成一个术语候补集;步骤3:利用步骤1处理后得到的文本与步骤2生成的所述术语候补集,进行基于上下位关系的术语候补抽取,生成新的术语候补集;步骤4:利用步骤1处理后得到的文本与步骤3生成的所述术语候补集,进行基于整体部分关系的术语候补抽取,生成新的术语候补集;步骤5:利用步骤1处理后得到的文本与步骤4生成的所述术语候补集,进行基于并列关系的术语候补抽取,生成新的术语候补集;步骤6:对步骤5生成的所述术语候补集中的每一个术语候补进行基于构词规则的检查,生成一个通过构词规则检查的术语候补集;步骤7:利用步骤5生成的所述术语候补集和步骤6生成的所述通过构词规则检查的术语候补集对术语候补进行边界检测,生成新的术语集;步骤8:统计步骤7生成的所述术语集的元素个数为n,将n与步骤7执行前的术语集的元素个数进行比较,若二者相等则程序结束,返回当前的术语集;否则,执行步骤9;步骤9:计算机修正分词结果,返回至步骤3。2.根据权利要求1所述的方法,其特征在于,所述步骤1包括如下子步骤:步骤1.1:识别文本中的img和table标签,过滤掉图片和表格;步骤1.2:过滤掉文本中的html标签,提取标签中的文本内容;步骤1.3:从清理后的文本中找出符号与公式,并进行过滤;步骤1.4:根据句号、逗号、分号与问号对文本进行重新分段;步骤1.5:利用ansj分词工具对文本进行中文分词,并计算每个词的词频。3.根据权利要求1所述的方法,其特征在于,所述步骤2包括如下子步骤:步骤2.1:根据文本特点总结出定义模板,定义模板为正则表达式形式,包含被定义部分和定义部分两个匹配内容;步骤2.2:通过步骤2.1制定的模板从文本中抽取出被定义部分和定义部分,被定义部分被标记为右型候补,设置为低置信度,定义部分被标记为左型候补,设置为高置信度;步骤2.3:将新发现的术语候补添加到当前的术语候补集中。4.根据权利要求1所述的方法,其特征在于,所述步骤3包括如下子步骤:步骤3.1:根据文本特点总结出上下位模板;步骤3.2:通过步骤3.1制定的模板从文本中抽取出下位部分和上位部分,若上位部分是已发现的术语,则将下位部分设置为右型候补,设置为低置信度,若下位部分是已发现的术语,则将上位部分设置为左型候补,设置为高置信度;步骤3.3:将步骤3.2中发现的术语候补添加到当前的术语候补集中。5.根据权利要求1所述的方法,其特征在于,所述步骤4包括如下子步骤:步骤4.1:根据文本特点总结出整体部分模板;步骤4.2:通过步骤4.1制定的模板从文本中抽取出左部分和右部分,设左部分为s1,右部分为s2,s1的分词结果为w1_1……w1_m,s2的分词结果为w2_1……w2_n,首先检验w1_m与w2_n中是否恰有一个是已经发现的术语,若w1_m是术语,则取s2作为术语候补,若w2_n是术...

4 专利技术属性

发明(设计)人:许斌李思良杨玉基
申请(专利权)人:清华大学
专利类型:发明
专利号:201710833633
国别省市:北京,11

5 专利技术项目评估

还没有人评估本专利项目,你来评估一下?

对专利感兴趣?请拨打022-23869559(工作日)13820821600(24小时)咨询

6 相关技术资料

术语抽取专利,关系抽取方法专利,实体关系抽取方法专利,机动车类型术语和定义专利,通用计量术语及定义专利,术语和定义专利,术语定义

网友询问留言: 已有 0 条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1