一种基于信息熵和术语可信度的金融领域术语识别方法技术

技术编号:14280392 阅读:26 留言:0更新日期:2016-12-25 01:32
本发明专利技术提出了一种基于信息熵和术语可信度的金融领域术语识别方法。本发明专利技术仅选择简单的特征,用CRF模型识别金融术语;在识别结果中根据基于边缘概率的信息熵公式,通过设定阈值筛选出属于特定错误类型的候选术语,对候选术语的处理更有针对性;过滤候选术语时将词转换为蕴含丰富语义信息的词向量,通过计算相似度与传统的互信息方法互为补充,可过滤得到大量的金融领域术语。利用本发明专利技术能有效避免现有机器学习模型过于繁琐的特征选择过程,后处理部分灵活而不局限于特定语料,不但有利于提高召回率,还能够提高术语结构的完整性,可作为通用的术语识别方法。

【技术实现步骤摘要】

本专利技术涉及自然语言领域处理、文本挖掘、信息处理及命名实体识别等领域,专注于术语识别的问题,提出一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有效地提高了召回率和术语结构的完整性,可作为通用的术语识别方法。
技术介绍
随着市场经济的深入发展,金融在社会生活中的地位日益突出,金融已然成为经济运行最重要的战略资源和区域经济发展的强力助推器。金融领域相比于其他领域术语更替速度更快,快速识别金融术语对金融领域的文本挖掘、信息抽取、舆情分析等任务有很高的应用价值。术语是表达特定领域学科的基本概念的语言单元,是相对固定的词或词组。术语具有相对完整的结构和语义。术语识别是命名实体研究的一个子领域,是信息处理领域的基础研究任务之一,国内外许多研究学者都对领域术语识别进行了深入研究。主要的方法有三类:基于语言学规则的方法、基于统计的方法和统计与规则相结合的方法。基于语言学规则的方法主要是根据现有的语言学知识和特定领域的术语构词特点制定规则模板,与之匹配的即为术语,这种方法便于理解且计算量少,可以获得较高的准确率,但过于局限于特定文本导致领域适应性差,近年来很少单独使用。基于统计的方法通常是通过计算词组在文本中的分布统计属性来度量其领域性,根据统计量的组合变化完成术语抽取,常用的统计量有词频、信息熵、TF-IDF、互信息、对数似然比,C-value等。基于统计的方法的优点是可移植性强,不局限于某一领域,但由于这种方法大多是无监督的学习方法,所以抽取的精度不高。另外,这种方法需要大规模且高质量的语料库作支撑,语料规模过小或数据过于稀疏不足以获取高可信度的统计信息。现在主流的方法是将统计与规则相结合,互相弥补不足,效果较好。这种方法一般将术语识别任务分为两个步骤:利用统计模型(或规则库)的方法从领域语料中获取候选术语;利用另一种方法过滤候选术语。常用的机器学习模型有隐马尔科夫模型、最大熵模型、条件随机场模型和神经网络模型等。这类模型将术语识别问题转化为序列标注问题,通常需要人工添加特征来拟合训练数据,而这些特征的选取和组合耗时耗力,过多特征还会使模型复杂度变高,导致过拟合现象。目前,采用这种方法的研究者们多数的重点都在对统计模型的运用上,后处理的规则选取不灵活,规则库多局限于领域语料,不具有通用性,因此如何减少人工干预并设计出具有通用性的规则库是目前术语识别亟待解决的问题。
技术实现思路
鉴于上述问题,本专利技术提出了一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有两个优点:一是通过融合边缘概率与信息熵的筛选,获取了大量潜在的属于特定错误类型的候选术语,对候选术语的处理更有针对性;二是引入了基于词向量的相似度过滤候选术语,与传统的互信息方法互为补充,有利于提高召回率,并提高术语结构的完整性。本专利技术的技术方案:一种基于信息熵和术语可信度的金融领域术语识别方法,步骤如下:(1)首先使用CRF模型初步识别出金融语料中的金融领域术语,选取的特征如下:1)词和词性:由金融领域术语的特点可知,词和词性包含了术语本身的最大信息。2)点式互信息:表示两个词的关联程度,是增加术语上下文信息的一种方式。pmif和pmir分别为当前词与左词、右词的点式互信息,其中wi代表当前词,wi-1代表wi的左词,wi+1代表wi的右词。为降低数据稀疏,对计算得到的浮点数取整处理。 pmi f ( w i - 1 , w i ) = log 2 p ( w i - 1 , w i ) p ( w i - 1 ) × p ( w i ) - - - ( 1 ) ]]> pmi r ( w i , w i + 1 ) = log 2 p ( w i , w i + 1 ) p ( w i ) × p ( w i + 1 ) - - - ( 2 ) ]]>(2)采用基于信息熵的术语可信度模型处理CRF的识别结果1)根据识别结果中标签的边缘概率求信息熵,筛选出候选术语。为方便查看序列标注的结果,采用BIO标记方法,即B为术语的首词,I为术语的中间和尾部,O为非术语。通过分析CRF的标注结果,得出6类术语标注错误:尾部缺失(术语尾部未识别)、尾部多余(术语尾部冗余本文档来自技高网
...

【技术保护点】
一种基于信息熵和术语可信度的金融领域术语识别方法,其特征在于,步骤如下:(1)使用CRF模型初步识别出金融语料中的金融领域术语,选取的特征如下:1)词和词性;2)点式互信息:表示两个词的关联程度,pmif和pmir分别为当前词与前一词、后一词的点式互信息,其中,wi代表当前词,wi‑1代表wi的前一词,wi+1代表wi的后一词;为降低数据稀疏,对得到的浮点数取整;pmif(wi-1,wi)=log2p(wi-1,wi)p(wi-1)×p(wi)---(1)]]>pmir(wi,wi+1)=log2p(wi,wi+1)p(wi)×p(wi+1)---(2)]]>(2)采用基于信息熵的术语可信度模型处理CRF的识别结果1)根据识别结果中标签的边缘概率求信息熵,筛选出候选术语采用BIO标记方法对步骤(1)识别结果进行标记,即B为术语的首词,I为术语的中间和尾部,O为非术语;将CRF识别结果分为6类术语标注错误:尾部缺失即术语尾部未识别、尾部多余即术语尾部冗余、头部缺失即术语头部未识别、头部多余即术语头部未冗余、整体缺失即术语整体未识别和整体多余即术语整体冗余;在CRF识别结果中,每个词均有为B、I、O三种标记以其对应的边缘概率,CRF将概率最大的标记作为最终的标注结果;如果某个词的边缘概率不具有明显的区分性,即该词的标记具有很大的不确定性,那么该词极有可能被标注错误;通过token标记信息熵定量观察标记的不确定性;某一个词W有3种可能的标记T1=B,T2=I,T3=O,对应的边缘概率为PB,PI,PO,且PB+PI+PO=1,W的token标记信息熵为H(W),如式(3)所示:H(W)=Σi=B,I,O(-pilog2pi)---(3)]]>由信息熵原理可知,H(W)越大,则这个标记的不确定性越大;当H(W)≥α时,即该词的标记是不确定的,作为候选术语进一步判断;其中α是H(W)的阈值,针对不确定的强度,分别有α1、α2、α3三个阈值,α1=0.92,α2=0.6,α3=0.5;token标记信息熵筛选算法,筛选“整体缺失”型的候选术语:输入:CRF识别结果;输出:候选术语集合;wordList:CRF识别结果的词表,包含特征、标记和边缘概率信息;secMaxP:第二大边缘概率;termStart:候选术语的开始位置;termEnd:候选术语的结束位置;L1:将CRF识别结果存入wordList中;L2:如果当前词wordList[i]的标记不为‘O’,则当前词不属于“整体缺失”型,退出返回;L3:如果当前词wordList[i]的标记为‘O’,满足条件⑴:H(wordList[i])≥α1且wordlist[i]的secMaxP是‘B’,记录此位置为termStart;L4:如果下一个词wordList[++i]的标记为‘O’,满足条件⑵:H(wordList[i])≥α2且wordlist[i]的secMaxP是‘I’,重复步骤L4;若该词标记不为‘O’,就跳到L5;若不满足条件⑵,就记录此位置为termEnd,跳到L6;L5:当前词的标记不为‘O’,若满足条件⑶:H(wordList[i])<min{α1,α2,α3},记录此位置为termEnd,跳到L6;L6:提取wordlist中下标[term_start,term_end]内的候选术语,放入候选术语集合中;2)根据基于互信息和词向量相似度的术语可信度对候选术语进行过滤;根据候选术语词长的不同,过滤由token标记信息熵得到的候选术语集合,分为以下两种情况:ⅰ.当词长≥2时,设有候选术语片段A1A2,统计训练语料中以A1开始的术语片段A1Ci,i=1,2,3…,以A2结尾的术语片段BjA2,j=1,2,3…,若A1A2满足以下任一条件,则称A1A2具有术语可信度;①反向术语度:②正向术语度:③术语相似度:其中,pmi是求两个词的点式互信息,具体公式参考式(1)或(2);avg是求数据集合的平均值;max是求数据集合的最大值;cos是求两个词所对应的词向量的余弦距离,反应了两个词的相似程度;X,Y是单位化向量;余弦距离公式见式(4):cos(X,Y)=Σi=1nXiYi---(4)]]>上述条件①和②分别从反向和正向计算术语词对之间的关联程度,判断是否大于或等于已知术语搭配的互信息平均值;而条件③则将词转换为词向量,考察了候选词与已知搭配词的相似度是否大于或等于已知搭配词之间的整体相似度;ⅱ.当词长=1时,设有候选术语A,统计训练语料中词长为1的术语Dk,k=1,2,3…,如果满足式(5),则认为候选术语A具有术语可信度,其中β为阈值;maxk=1,2,...{cos(A,Dk)}≥β---...

【技术特征摘要】
1.一种基于信息熵和术语可信度的金融领域术语识别方法,其特征在于,步骤如下:(1)使用CRF模型初步识别出金融语料中的金融领域术语,选取的特征如下:1)词和词性;2)点式互信息:表示两个词的关联程度,pmif和pmir分别为当前词与前一词、后一词的点式互信息,其中,wi代表当前词,wi-1代表wi的前一词,wi+1代表wi的后一词;为降低数据稀疏,对得到的浮点数取整; pmi f ( w i - 1 , w i ) = log 2 p ( w i - 1 , w i ) p ( w i - 1 ) × p ( w i ) - - - ( 1 ) ]]> pmi r ( w i , w i + 1 ) = log 2 p ( w i , w i + 1 ) p ( w i ) × p ( ...

【专利技术属性】
技术研发人员:黄德根梁晨
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1