当前位置: 首页 > 专利查询>上海大学专利>正文

基于互信息和条件随机场模型的中文领域术语识别方法技术

技术编号:8594005 阅读:235 留言:0更新日期:2013-04-18 07:11
本发明专利技术公开了一种基于互信息和条件随机场模型的中文领域术语识别方法,其步骤如下:(1)收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)设置字串,计算字串的互信息值;(3)计算字串左右信息熵;(4)定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,逐一对字义字串分词;(5)利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。

【技术实现步骤摘要】

本专利技术涉及的是一种,属于信息

技术介绍
国家标准GB/T15237. 1-2000《术语工作词汇》的定义,术语是特定专业领域中一般概念的词语指称,是在一个学科领域内使用、表示该学科领域内的概念或关系的词或词组。术语可以分为日常生活中使用的一般性术语和特定领域中使用的领域术语。一般性术语多是按人们的生活和工作习惯形成的,不要求它在概念的表达上严格准确,其含义往往比较模糊;领域术语是对一个专业概念的系统性、概括性的描述,不允许模棱两可,每一个专业术语表达的概念都必须准确无误,不能因使用人的不同而不同。领域术语识别是指从特定的科学或
的语料库中抽出专业领域术语。领域术语自动识别作为信息抽取的重要内容,在自然语言处理领域有着广泛的应用,对于提高领域文本索引与检索、文本挖掘、本体构建、文本分类和聚类、潜在语义分析等的处理精度有着重要的意义。现有的中文文本信息中的领域术语识别方法主要有(I)基于统计方法的中文领域术语识别方法,主要思想是利用领域术语内部各组成成分之间较高的关联程度以及术语的领域特征信息来抽取领域术语。基于统计的方法一般流程是首先利用统计学或信息论中的方法,建本文档来自技高网...

【技术保护点】
一种基于互信息和条件随机场模型的中文领域术语识别方法,具体步骤如下:(1)、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)、设置字串????????????????????????????????????????????????,计算字串的互信息值;(3)、计算字串左右信息熵;(4)、定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,得到各字串中对应的比值,其比值再与评价函数阈值比较,逐一对字义字串分词;?(5)、以词、词性、词的出现频率的随机场的训练特征,...

【技术特征摘要】
1.一种基于互信息和条件随机场模型的中文领域术语识别方法,具体步骤如下 (I )、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记; (2)、设置字串W,计算字串T的互信息值; (3)、计算字串JT左右信息熵; (4)、定义字串W评价函数,设置评价函数《 料,)阈值,计算各字串的评价函数值,确定字串IT力词,依次比较该字串W中前一字的评价函数值与后一字评价函数值相比较,得到各字串『中对应的比值,其比值再与评价函数-4,)阈值比较,逐一对字义字串,分词; (5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。2.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(2)中所述的设置字串『,计算字串JT的互信息值,其计算公式如下 假设一个领域术语是由n个字组成,如果字串T力一个领域术语,那么字串fT由珥、&、A......A个字组成,字串W的互信息值计算公式如下3.根据权利要求...

【专利技术属性】
技术研发人员:彭琳刘宗田杨林楠张立敏
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1