新词发现方法及装置制造方法及图纸

技术编号:13745946 阅读:67 留言:0更新日期:2016-09-23 23:29
本发明专利技术涉及一种新词发现方法及装置,所述方法包括:从目标文本库中的目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;计算词素ti的子集w的上下文关联度d,并将d值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;计算词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,对候选新词集合Wh进行过滤,提取新词保存为新词集合W。本发明专利技术有效地结合信息熵算法分析和关联规则算法分析,可有效提高新词发现的准确度。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,尤其涉及一种新词发现方法及装置
技术介绍
利用计算机分析处理自然语言信息时,经常会碰到新词提取。目前,新词提取的方法主要有两种方式:一种是基于统计的方法,另一种是基于词典和规则相结合的方法。基于统计的方法对于查找较短的短语较为适用,但是,单纯利用统计的方法则会因为忽略了词语内部的结构和词与词之间的构词能力等特性;而基于词典和规则相结合的方法则往往局限于某个特定的领域,这是因为规则的制定一般是针对具体领域的,灵活性比较差,而全面制定出一套合适的规则是一项既费时又费力的工作。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种新词发现方法,以有效提高新词发现准确率。本专利技术进一步所要解决的技术问题在于,提供一种新词发现装置,以有效提高新词发现准确率。为解决上述技术问题,本专利技术提供如下技术方案:一种新词发现方法,包括以下步骤:分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。进一步地,所述分析处理目标文本库中的目标文本,从所述目标文本中提取词素构建词素集合具体包括:以预定的分割符号为分割标准对目标文本进行分割,得到句子集合S,集合S中的每一个短句为Si={c1c2c3...cn本文档来自技高网...

【技术保护点】
一种新词发现方法,其特征在于,包括以下步骤:分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。

【技术特征摘要】
1. 一种新词发现方法,其特征在于,包括以下步骤:分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;使用关联规则算法计算二元组集合T中每个二元组中...

【专利技术属性】
技术研发人员:康潮明
申请(专利权)人:乐视控股北京有限公司乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1