一种基于信息熵和术语可信度的金融领域术语识别方法技术

技术编号：14280392 阅读：26 留言：0更新日期：2016-12-25 01:32

本发明专利技术提出了一种基于信息熵和术语可信度的金融领域术语识别方法。本发明专利技术仅选择简单的特征，用CRF模型识别金融术语；在识别结果中根据基于边缘概率的信息熵公式，通过设定阈值筛选出属于特定错误类型的候选术语，对候选术语的处理更有针对性；过滤候选术语时将词转换为蕴含丰富语义信息的词向量，通过计算相似度与传统的互信息方法互为补充，可过滤得到大量的金融领域术语。利用本发明专利技术能有效避免现有机器学习模型过于繁琐的特征选择过程，后处理部分灵活而不局限于特定语料，不但有利于提高召回率，还能够提高术语结构的完整性，可作为通用的术语识别方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言领域处理、文本挖掘、信息处理及命名实体识别等领域，专注于术语识别的问题，提出一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有效地提高了召回率和术语结构的完整性，可作为通用的术语识别方法。
技术介绍
随着市场经济的深入发展，金融在社会生活中的地位日益突出，金融已然成为经济运行最重要的战略资源和区域经济发展的强力助推器。金融领域相比于其他领域术语更替速度更快，快速识别金融术语对金融领域的文本挖掘、信息抽取、舆情分析等任务有很高的应用价值。术语是表达特定领域学科的基本概念的语言单元，是相对固定的词或词组。术语具有相对完整的结构和语义。术语识别是命名实体研究的一个子领域，是信息处理领域的基础研究任务之一，国内外许多研究学者都对领域术语识别进行了深入研究。主要的方法有三类：基于语言学规则的方法、基于统计的方法和统计与规则相结合的方法。基于语言学规则的方法主要是根据现有的语言学知识和特定领域的术语构词特点制定规则模板，与之匹配的即为术语，这种方法便于理解且计算量少，可以获得较高的准确率，但过于局限于特定文本导致领域适应性差，近年来很少单独使用。基于统计的方法通常是通过计算词组在文本中的分布统计属性来度量其领域性，根据统计量的组合变化完成术语抽取，常用的统计量有词频、信息熵、TF-IDF、互信息、对数似然比，C-value等。基于统计的方法的优点是可移植性强，不局限于某一领域，但由于这种方法大多是无监督的学习方法，所以抽取的精度不高。另外，这种方法需要大规模且高质量的语料库作支撑，语料规模过小或数据过于稀疏不足以获取高可信度的统计信息。...

【技术保护点】
一种基于信息熵和术语可信度的金融领域术语识别方法，其特征在于，步骤如下：(1)使用CRF模型初步识别出金融语料中的金融领域术语，选取的特征如下：1)词和词性；2)点式互信息：表示两个词的关联程度，pmif和pmir分别为当前词与前一词、后一词的点式互信息，其中，wi代表当前词，wi‑1代表wi的前一词，wi+1代表wi的后一词；为降低数据稀疏，对得到的浮点数取整；pmif(wi-1,wi)=log2p(wi-1,wi)p(wi-1)×p(wi)---(1)]]>pmir(wi,wi+1)=log2p(wi,wi+1)p(wi)×p(wi+1)---(2)]]>(2)采用基于信息熵的术语可信度模型处理CRF的识别结果1)根据识别结果中标签的边缘概率求信息熵，筛选出候选术语采用BIO标记方法对步骤(1)识别结果进行标记，即B为术语的首词，I为术语的中间和尾部，O为非术语；将CRF识别结果分为6类术语标注错误：尾部缺失即术语尾部未识别、尾部多余即术语尾部冗余、头部缺失即术语头部未识别、头部多余即术语头部未冗余、整体缺失即术语整体未识别和整体多余即术语整体冗余；在CRF...

【技术特征摘要】
1.一种基于信息熵和术语可信度的金融领域术语识别方法，其特征在于，步骤如下：(1)使用CRF模型初步识别出金融语料中的金融领域术语，选取的特征如下：1)词和词性；2)点式互信息：表示两个词的关联程度，pmif和pmir分别为当前词与前一词、后一词的点式互信息，其中，wi代表当前词，wi-1代表wi的前一词，wi+1代表wi的后一词；为降低数据稀疏，对得到的浮点数取整； pmi f ( w i - 1 , w i ) = log 2 p ( w i - 1 , w i ) p ( w i - 1 ) × p ( w i ) - - - ( 1 ) ]]> pmi r ( w i , w i + 1 ) = log 2 p ( w i , w i + 1 ) p ( w i ) × p ( ...

【专利技术属性】
技术研发人员：黄德根，梁晨，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人