基于统计与模板匹配的领域概念自动抽取精化方法及系统技术方案

技术编号:13675413 阅读:79 留言:0更新日期:2016-09-08 01:07
本发明专利技术公开了一种基于统计与模板匹配的领域概念自动抽取与精化方法,该方法包括:对领域文档中的内容进行分类;针对分类的标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;对匹配内容进行预处理,并提取文档内容中的术语抽取规则和术语词性构成规则;根据术语抽取规则,抽取匹配内容中的知识点,并根据术语词性构成规则对知识点进行初步过滤,加入领域知识点;计算领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。本发明专利技术在保证一定准确率的前提下最大程度的实现了此过程的自动化,很大程度上提高了知识点抽取的效率,能最大限度的节约人力成本。本发明专利技术公开了领域概念自动抽取与精化系统。

【技术实现步骤摘要】

本专利技术涉及信息自动抽取领域,尤其涉及一种基于统计与模板匹配的领域概念自动抽取精化方法及系统
技术介绍
随着互联网技术的发展,网络上数据呈现出数据量大,数据来源丰富和数据形式多样的特点,信息技术的发展面临着巨大挑战,如信息的表示,知识的抽取与共享、软件的复用等。对数字信息的强烈需求使得人们对互联网产品服务质量要求越来越高,如何将网络上的海量数据有效地表示、管理、维护和复用并且互联网企业提供底层方法和技术支持已经成为科研领域广泛关注的问题。知识作为一种共享的概念化模型,它提供了计算机对信息结构的理解,是计算机之间相互交流的语义基础。领域知识点的抽取是指把蕴含于领域信息源中的知识经过识别、理解、筛选、归纳等过程抽出来,存储形成知识元库。目前研究较多的是自然语言文本,已经出现了一些工具或系统,知识抽取已经成为自然语言处理领域的一个重要的研究分支。目前的知识抽取还是以手工或由机器辅助的手工获取为主。例如,在获取领域专家的经验时,就要求知识工程师与专家进行直接交流,深入讨论,甚至参与到领域专家现场解决问题的过程当中,这种交流讨论可能需要很长时间,直到知识工程师认为他领会了专家的经验,然后再由他对这些经验进行数学分析,建立数学模型,以适当的知识表示形式表示出来,送入计算机。除从领域专家处获取知识外,一个成功的专家系统,还应该具备从实践中学习、总结知识的能力。即,还可通过专家系统本身的运行实践,从已有知识或实例中演绎、归纳出新知识,进而实现对知识库的自我更新和完善。当然,这要求专家系统自身具有一定的“学习”能力,也就是说,必须要对机器学习的相关理论和技术进行更加深入的研究。
技术实现思路
本专利技术的目的在于克服知识抽取中以手工或由机器辅助的手工获取的不足,提出了一种基于统计与模板匹配的领域概念自动抽取与精化方法,包括以下具体步骤:数据分类步骤:对领域文档中的内容进行分类,分类结果包括:关键词、标题和摘要;将关键词加入领域知识点中;模式匹配步骤:针对标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;规则提取步骤:对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;知识点抽取步骤:根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述
术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;相关度获取步骤:计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。本专利技术提出的所述基于统计与模板匹配的领域概念自动抽取与精化方法中,所述“是一个”模式具体形式如下:Defineconstant{(量词)={种|个|款|家|件|项|台|套|组|块|系|条|位|次|部|本|门|片|名|段|场|张|间|群|体|类|只|根|层|颗|两|对|支|笔|本文档来自技高网
...

【技术保护点】
一种基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,包括以下具体步骤:数据分类步骤:对领域文档中的内容进行分类,分类结果包括:关键词、标题和摘要;将关键词加入领域知识点中;模式匹配步骤:针对标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;规则提取步骤:对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;知识点抽取步骤:根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;相关度获取步骤:计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。

【技术特征摘要】
1.一种基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,包括以下具体步骤:数据分类步骤:对领域文档中的内容进行分类,分类结果包括:关键词、标题和摘要;将关键词加入领域知识点中;模式匹配步骤:针对标题和摘要,通过匹配得到符合“是一个”模式的匹配内容;规则提取步骤:对所述匹配内容进行预处理,并提取所述文档内容中的术语抽取规则和术语词性构成规则;知识点抽取步骤:根据所述术语抽取规则,抽取所述匹配内容中的知识点,并根据所述术语词性构成规则对所述知识点进行初步过滤,加入所述领域知识点;相关度获取步骤:计算所述领域知识点中各知识点的词频以及术语领域相关程度,并根据词频和相关程度进行二次过滤,输出结果。2.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,所述“是一个”模式具体形式如下:其中,“!”表示定义一个常量,“*”表示定义中可以出现任意次数,“|”表示或关系,“<*C1>”、“<*C2>”为任意字符串。3.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,对所述匹配内容进行预处理包括对所述匹配内容进行分词、词性标注和依存句法树分析。4.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,术语抽取规则是通过句法分析得到的,具体规则为通过句法分析抽取出名词短语节点,并且判断名词短语节点的长度,如果长度小于等于4则递归向上抽取上一层的名词短语节点。5.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,计算所述领域知识点中各知识点的词频时,进一步计算每个知识点的长度,并且利用最
\t大期望算法经过训练学习出对应长度知识点的词频阈值;通过设定阈值,删除词频小于阈值的知识点。6.如权利要求1所述的基于统计与模板匹配的领域概念自动抽取与精化方法,其特征在于,采用DomainPertinence与DomainConsensus衡量术语领域相关程度;DomainPertinence以公式(1)表示: DP D i ( t ) = f r e q ( t / D i ) max j ( f ...

【专利技术属性】
技术研发人员:吕钊谢雨飞
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1