一种热点词发现方法和装置制造方法及图纸

技术编号:17704930 阅读:50 留言:0更新日期:2018-04-14 17:54
本发明专利技术的实施例公开一种热点词发现方法和装置,涉及信息处理领域,能够有效地捕获热点词,以提高系统的自适应性。包括:采集网络系统生成的数据;基于信息熵模型对所述数据中的字符串进行分词获取候选词;将所述候选词与词库中的词进行匹配获取新词;按照所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。

【技术实现步骤摘要】
一种热点词发现方法和装置
本专利技术的实施例涉及信息处理领域,尤其涉及一种热点词发现方法和装置。
技术介绍
汉语的构词能力很强,从理论上讲,任何两个及以上的汉字字符组合在一起都有构成词语的可能,这种强构词性使得新词识别变得极为困难。一般地,新词识别的研究方法主要有两种:基于规则方法和基于统计方法。前者利用构词学规则、配合语义信息或词性信息来构造模板,最后通过匹配来发现和识别新词;而后者是通过对语料中的词条组成或特征信息进行统计来识别新词。目前大部分研究者使用规则和统计相结合的方法,以期发挥组合优势,从而有效改进新词识别效果。另外一种新词识别是基于字典的分词方法,其主旨思想在于将待分词的字串与已有的字典、词库中的现有词条进行匹配,若在词典中找到某个字符串,则匹配成功。另外,在无词库的分词实现上一般是基于词的频度统计,它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。通过对文本进行分词后,对词频进行统计,对于词频较高的词汇为经常出现的词汇,通过与常用词汇的对比,筛选掉高本文档来自技高网...
一种热点词发现方法和装置

【技术保护点】
一种热点词发现方法,其特征在于,包括:采集网络系统生成的数据;基于信息熵模型对所述数据中的字符串进行分词获取候选词;将所述候选词与词库中的词进行匹配获取新词;按照所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。

【技术特征摘要】
1.一种热点词发现方法,其特征在于,包括:采集网络系统生成的数据;基于信息熵模型对所述数据中的字符串进行分词获取候选词;将所述候选词与词库中的词进行匹配获取新词;按照所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。2.根据权利要求1所述的方法,其特征在于,所述基于信息熵模型对所述数据中的字符串进行分词获取候选词之前,还包括:对所述数据进行数据清洗。3.根据权利要求1所述的方法,其特征在于,所述基于信息熵模型对所述数据中的字符串进行分词获取候选词,包括:获取所述数据中的字符串;计算所述字符串的左侧信息熵和右侧信息熵;根据所述字符串的左侧信息熵和右侧信息熵对所述数据中的字符串进行分词得到候选短语,在所述候选短语中确定获取候选词。4.根据权利要求3所述的方法,其特征在于,所述在所述候选短语中确定获取候选词,包括:根据公式对所述候选短语的字符串进行凝固程度计算,其中所述指由字符串si组成的候选短语的凝固程度,指由字符串si组成的候选短语在所述数据中出现的概率,P(si)指字符串si在所述数据中出现的概率;若确定满足预定条件,则确定所述候选短语为候选词。5.根据权利要求3所述的方法,其特征在于,计算所述字符串的左侧信息熵和右侧信息熵,包括:根据公式Hl(s)=-∑a∈Ap(sla|s)*log(p(sla|s))计算字符串的左侧信息熵,其中,s表示所述字符串,Hl(s)表示s的左侧信息熵,A为s左侧出现的汉字的集合,sla表示由s左侧的汉字a与s结合所构成的字符串,p(sla|s)表示所述数据中出现s的前提下,在s左侧出现汉字a的条件概率;根据公式HΓ(s)=-∑b∈Bp(sΓb|s)*log(p(sΓb|s))计算字符串的右侧信息熵,其中HΓ(s)表示s的右侧信息熵,B是s右侧出现的汉字的集合,sΓb为由s右侧的汉字b与s结合所构成的字符串,p(sΓb|s)表示所述数据中出现s的前提下,在s的右侧出现汉字b的条件概率。6.一种热点词发现装置,其特征在于,包括:采集单元,用于采集网络系统生成的数据;分词单元...

【专利技术属性】
技术研发人员:陈思佳
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1