当前位置: 首页 > 专利查询>清华大学专利>正文

术语抽取方法和装置制造方法及图纸

技术编号:16969582 阅读:34 留言:0更新日期:2018-01-07 06:33
本发明专利技术提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明专利技术极大地提高了术语抽取的性能。

【技术实现步骤摘要】
术语抽取方法和装置
本专利技术涉及自然语言处理技术,具体涉及术语抽取方法和装置。
技术介绍
术语抽取(TerminologyExtraction)的目标是对于属于某个特定学科或领域的文本,自动地抽取出其中的术语。术语,是指在特定学科或领域里用来表示领域内特有概念的词。术语抽取在科研和教育领域都有着重要的应用价值。在科研领域,术语抽取是进一步构建科技知识图谱的重要支撑;在教育领域,从课程教学材料中自动地抽取出学科术语,可以帮助老师更好地组织知识结构,帮助学生更好地理解知识点和知识点间的关系。目前已经有很多关于术语抽取的工作,大多属于基于频率特征的统计方法。其中最著名的两种特征是单元性(unithood)和术语性(termhood)。其中单元性是指词组组分之间的结合紧密程度,而术语性则是指词组和专业领域概念之间的关系,表示词组的领域相关性。常用的TF-IDF方法即一种计算单元性的方法,而文献[Frantzi,2000]中提出的基于C-value方法和NC-value方法的术语抽取方法,则是基于termhood的统计方法。这两种特征通常在知识点提取中混合使用。上述基于统计信息抽取获得术语的方法,由于其对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性,因此其缺陷包括在短上下文语料上术语抽取效果不足以及难以抽取出低词频术语。
技术实现思路
鉴于上述问题,本专利技术提出了克服上述问题或者至少部分地解决上述问题的术语抽取方法和装置。为此目的,第一方面,本专利技术提出一种术语抽取方法,包括步骤:S101、抽取第一语料中的名词和名词短语,作为候选术语集合T;S102、根据百科语料和步骤S101中的候选术语集合T,获得候选术语的嵌入表示;S103、根据候选术语的嵌入表示,计算候选术语间的语义相关度SR(a,b);以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;S104、根据术语传播网络G使用置信度传播算法对候选术语进行排序;根据排序筛选术语。可选的,所述步骤抽取第一预料中的名词和名词短语,包括:根据输入的第一语料,对其进行分词处理,得到第一语料的文本词序列表示,对该文本词序列进行词性标注;基于已标注词性的词序列,在其中抽取出长度小于k个词,且满足第一词性模板的名词或名词短语,作为候选术语;由所有的候选术语构成候选术语集合T;第一词性模板为((A|N)+|(A|N)*(NP)?(A|N)*)N,其中A,N,P分别表示形容词名词和介词;k为预设值。可选的,所述获得候选术语的嵌入表示包括:将百科语料表示为一个由词组成的有序序列W,其中wi表示单个词,m为该词序列的长度;在有序序列W中标注出候选术语集合T中存在的词组,获得候选词标注的文本语料xi表示中的一个词或者候选术语集合T中的一个候选术语;根据百科语料计算xi的向量表示;对于候选术语集合T中的候选术语a,若a=xi,则候选术语a的向量表示等于xi;若候选术语a未出现在W’中,则候选术语a的向量表示等于构成候选术语a的各个词的向量之和。可选的,任意两个候选术语之间的所述语义相关度等于其对应向量表示的标准化余弦距离。可选的,所述以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,包括:若候选术语a与候选术语b之间的语义相关度SR(a,b)大于给定阈值θ,则顶点a与b间存在一条无向边,且边上的权重等于语义相关度SR(a,b)。可选的,所述根据术语传播网络G使用置信度传播算法对候选术语进行排序,包括:对顶点集V中的每个候选术语赋予一个初始的置信度值;反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态;根据收敛状态下的置信度值,对术语传播网络G中各顶点进行排。可选的,所述对其顶点集V中的每个候选术语赋予一个初始的置信度值,包括:基于术语传播网络在其顶点集V中筛选出代表术语构建“种子集合”,对种子集合中的候选术语所对应的顶点,赋予初始置信度1.0,对于其他非种子的顶点,赋予初始置信度0.0;种子集合可以人工构建或自动构建;其中人工构建是将专家给出的输入文档中的部分关键术语作为种子集合,自动构建可以通过候选术语在输入语料中的TF-IDF值进行判断,将TF-IDF值最高的若干候选术语加入种子集合中。可选的,所述反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态,包括:计算顶点c的置信度值confk(c),直至传播网络G中各顶点的置信度值confk(c)达到收敛状态;其中,其中,k表示第k轮迭代,vsk(cj,ci)为第k轮迭代时,顶点cj对顶点ci的置信度传播值;vsk(cj,ci)=ph(cj)·e(ci,cj)·confk(cj),e(ci,cj)为顶点cj和顶点ci对应的候选术语间的语义相关度,Z为归因化因子,在ci和cj中,i代表候选术语在术语传播网络G中的编号,j为顶点在A(ci)中的编号;A(ci)表示与顶点ci有边相邻的顶点的集合,|A(ci)|表示集合A(ci)中顶点的个数;;其中,任一词组c的在某一选用语料上的词组概率ph(c)的计算方法如下:ph(c)=max{pmi(fi,bi)|i=1,…,k-1}其中,fi和bi分别表示将词组c从中间第i个词分隔时所得到的前半部分和后半部分,pmi(fi,bi)表示fi和bi在选用语料中的点互信息;分别计算候选术语c在第一语料的词组概率phD(c)和百科语料上的词组概率phE(c),根据phD(c)和phE(c)计算候选术语c在第一语料和百科语料的词组概率ph(c);ph(c)=α·phD(c)+(1-α)·phE(c);其中α为两个语料的分配权重,取值范围为0到1之间。第二方面,本专利技术提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法的步骤。第二方面,本专利技术提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述方法的步骤。由上述技术方案可知,本专利技术所述的术语抽取方法,在对术语抽取过程中引入外部语义信息,即使用外部的百科语料提供丰富的背景知识,并借此学习获得词组的嵌入表示。通过置信度网络,将语义信息引入到迭代的过程中,极大地提高了术语抽取的性能。因此,本专利技术极大地解决了现有术语抽取系统在抽取低频术语上的不足,并且在术语抽取过程中,对于目标语料规模基本没有特别要求。前面是提供对本专利技术一些方面的理解的简要
技术实现思路
。这个部分既不是本专利技术及其各种实施例的详尽表述也不是穷举的表述。它既不用于识别本专利技术的重要或关键特征也不限定本专利技术的范围,而是以一种简化形式给出本专利技术的所选原理,作为对下面给出的更具体的描述的简介。应当理解,单独地或者组合地利用上面阐述或下面具体描述的一个或多个特征,本专利技术的其它实施例也是可能的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些本文档来自技高网
...
术语抽取方法和装置

【技术保护点】
一种术语抽取方法,其特征在于,包括步骤:S101、抽取第一语料中的名词和名词短语,作为候选术语集合T;S102、根据百科语料和步骤S101中的候选术语集合T,获得候选术语的嵌入表示;S103、根据候选术语的嵌入表示,计算候选术语间的语义相关度SR(a,b);以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V),其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;S104、根据术语传播网络G使用置信度传播算法对候选术语进行排序;根据排序筛选术语。

【技术特征摘要】
1.一种术语抽取方法,其特征在于,包括步骤:S101、抽取第一语料中的名词和名词短语,作为候选术语集合T;S102、根据百科语料和步骤S101中的候选术语集合T,获得候选术语的嵌入表示;S103、根据候选术语的嵌入表示,计算候选术语间的语义相关度SR(a,b);以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V),其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;S104、根据术语传播网络G使用置信度传播算法对候选术语进行排序;根据排序筛选术语。2.根据权利要求1所述的方法,其特征在于,所述步骤抽取第一预料中的名词和名词短语,包括:根据输入的第一语料,对其进行分词处理,得到第一语料的文本词序列表示,对该文本词序列进行词性标注;基于已标注词性的词序列,在其中抽取出长度小于k个词,且满足第一词性模板的名词或名词短语,作为候选术语;由所有的候选术语构成候选术语集合T;第一词性模板为((A|N)+|(A|N)*(NP)?(A|N)*)N,其中A、N和P分别表示形容词、名词和介词;k为预设值。3.根据权利要求要求1所述的方法,其特征在于,所述获得候选术语的嵌入表示,包括:将百科语料表示为一个由词组成的有序序列W,其中wi表示单个词,m为该词序列的长度;在有序序列W中标注出候选术语集合T中的候选术语和构成候选术语的词,获得候选词标注的文本语料xi表示候选术语集合T中的一个候选术语或构成候选术语的词;根据百科语料计算xi的向量表示;对于候选术语集合T中的候选术语a,若a=xi,则候选术语a的向量表示等于xi;若候选术语a未出现在W’中,且候选术语a=e1+…en,e1~en,则候选术语a的向量表示等于构成候选术语a的各个词的向量之和。4.根据权利要求1所述的方法,其特征在于,任意两个候选术语之间的所述语义相关度等于其对应向量表示的标准化余弦距离。5.根据权利要求1所述的方法,其特征在于,所述以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,包括:若候选术语a与候选术语b之间的语义相关度SR(a,b)大于给定阈值θ,则顶点a与b间存在一条无向边,且边上的权重等于语义相关度SR(a,b)。6.根据权利要求1所述的方法,其特征在于,所述根据术语传播网络G使用置信度传播算法对候选术语进行排序,包括:对顶点集V中的每个候选术语赋予一个初始的置信度值;反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态;根据收敛状态下的置信度值,对术语传播网络G中各顶点...

【专利技术属性】
技术研发人员:李涓子潘亮铭王笑尘唐杰张鹏
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1