一种热点词发现方法和装置制造方法及图纸

技术编号:17704930 阅读:34 留言:0更新日期:2018-04-14 17:54
本发明专利技术的实施例公开一种热点词发现方法和装置,涉及信息处理领域,能够有效地捕获热点词,以提高系统的自适应性。包括:采集网络系统生成的数据;基于信息熵模型对所述数据中的字符串进行分词获取候选词;将所述候选词与词库中的词进行匹配获取新词;按照所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。

【技术实现步骤摘要】
一种热点词发现方法和装置
本专利技术的实施例涉及信息处理领域,尤其涉及一种热点词发现方法和装置。
技术介绍
汉语的构词能力很强,从理论上讲,任何两个及以上的汉字字符组合在一起都有构成词语的可能,这种强构词性使得新词识别变得极为困难。一般地,新词识别的研究方法主要有两种:基于规则方法和基于统计方法。前者利用构词学规则、配合语义信息或词性信息来构造模板,最后通过匹配来发现和识别新词;而后者是通过对语料中的词条组成或特征信息进行统计来识别新词。目前大部分研究者使用规则和统计相结合的方法,以期发挥组合优势,从而有效改进新词识别效果。另外一种新词识别是基于字典的分词方法,其主旨思想在于将待分词的字串与已有的字典、词库中的现有词条进行匹配,若在词典中找到某个字符串,则匹配成功。另外,在无词库的分词实现上一般是基于词的频度统计,它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。通过对文本进行分词后,对词频进行统计,对于词频较高的词汇为经常出现的词汇,通过与常用词汇的对比,筛选掉高频词汇即可得到热点词汇。然而无论是专业领域内的热点词发现还是在时间轴上的热点词发现,其中一个很重要的方法就是相互间的比对,即找出领域内或时间段前后的词汇差异,但是单纯的对词频或者比例变化的计算都不能收到很好的效果。
技术实现思路
本专利技术的实施例提供一种热点词发现方法和装置,能够有效地捕获热点词,以提高系统的自适应性。第一方面,提供一种热点词发现方法,包括:采集网络系统生成的数据;基于信息熵模型对所述数据中的字符串进行分词获取候选词;将所述候选词与词库中的词进行匹配获取新词;按照所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。第二方面,提供一种热点词发现装置,包括:采集单元,用于采集网络系统生成的数据;分词单元,用于基于信息熵模型对所述采集单元采集的数据中的字符串进行分词获取候选词;匹配单元,用于将所述分词单元获取的所述候选词与词库中的词进行匹配获取新词;热点词获取单元,用于按照所述匹配单元获取的所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。在上述方案中,热点词发现装置采集网络系统生成的数据;基于信息熵模型对数据中的字符串进行分词获取候选词;将候选词与词库中的词进行匹配获取新词;按照新词的出现频率和评分进行贝叶斯平均计算,获取新词的贝叶斯平均值;若确定贝叶斯平均值满足预定条件则确定新词为热点词;其中在热点词选取时,参考了新词的出现频率和评分的贝叶斯平均值,相对于单纯按照新词的出现频率或者比例确定热点词,能够有效地捕获热点词,以提高系统的自适应性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供一种应用场景示意图;图2为本专利技术实施例提供的一种热点词发现方法的流程图;图3为本专利技术实施例提供的一种热点词发现装置的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例描述的系统架构以及业务场景是为了更加清楚的说明本专利技术实施例的技术方案,并不构成对于本专利技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本专利技术实施例提供的技术方案对于类似的技术问题,同样适用。下面结合具体实施例对上述方法进行详细描述。参照图1所示,本专利技术的实施例应用于如下场景:包括数据库11、热点词发现装置12、数据分析和挖掘服务器13、管理平台14、展示及业务支持设备15;其中数据库11用于存储供热点词发现装置使用的网络系统的数据、热点词发现装置12生成的热点词、以及供数据分析和挖掘服务器13使用的其他数据;管理平台14用于对其他各部分进行状态监测、权限管理以及安全保障;数据分析和挖掘服务器13主要用于利用热点词发现装置12生成的热点词、数据库11提供的其他数据进行内容关联分析、时间序列分析、传播态势分析、热点话题识别、自动摘要生成、话题跟踪等等舆情分析,展示及业务支持设备15可以为一个终端设备,其作为人机交互设备主要用于依据数据分析和挖掘服务器13的分析结果实现舆情预警、统计报表、可视化、传播拓扑等等功能。本专利技术的实施例主要提供一种热点词发现装置12,其主要包括数据采集、数据清洗、以及新词发现和热点词筛选功能。具体的结合图2所示,本专利技术的实施例提供一种热点词发现方法,包括:101、采集网络系统生成的数据。其中,在步骤101之后还包括:对数据进行数据清洗。其中,新词,通常指之前没有出现过或者并没有在词库中收录的词语。在新词识别领域,对“新词”这个概念尚无统一界定,目前的研究包括未登录词识别(UnknownWordsIdentificationUWI)和新词识别(NWI)两方面。其中,未登录词是指未在当前所用词典中出现的词,UWI是中文自动分词过程中的重要阶段,这方面的研究开展得较早,取得了很多成果;而所谓的新词(NewWord)是指随着时代的发展而新出现或旧词新用的词,如“非典”、“山寨”等。此意义上的新词识别近些年才发展起来。但由于新词也属于未登录词,因此许多研究者对这两个概念不加区别,本申请中也不做明确区分。新词识别主要任务在于候选新词提取以及垃圾字串的过滤。候选新词提取是指提取满足初步条件的字符串作为候选新词。因为汉字具有极强的构词能力,理论上任何相邻的汉字组合在一起都有成词的可能性,所以新词识别的首要步骤就是从语料中提取字符串作为候选词。为避免提取出的候选词中出现非词垃圾字符串,因此需要进行垃圾字串的过滤,即数据清洗,其中数据清洗可以采用关键词过滤、长度过滤、特定格式过滤等方式。102、基于信息熵模型对数据中的字符串进行分词获取候选词。具体的步骤102包括:Sa、获取数据中的字符串。Sb、计算字符串的左侧信息熵和右侧信息熵。其中步骤Sb具体为:在这里本申请的实施例引入“自由程度”的概念,自由程度指的是对于字符串s左、右词边界的丰富程度,如果字符串s的左、右词边界比较多样,那么我们可以认为字符串s可以作为左、右词边界。例如,给定数据如下:“目前计算机的性能有了很大提高,人们对计算机的依赖也越来越大”字符串“计”,“计算”和“计算机”的左侧搭配的字是“前”和“对”,如果数据足够长,字符串“计算机”出现的次数足够多,就会发现在“计”,“计算”和“计算机”左侧出现的字很不确定,这样的字符串都被认为是左词边界。而对于左侧出现字比较固定的字符串,则认为它们不是左词边界。如例句中的“前计”,“的性”等只出现一本文档来自技高网...
一种热点词发现方法和装置

【技术保护点】
一种热点词发现方法,其特征在于,包括:采集网络系统生成的数据;基于信息熵模型对所述数据中的字符串进行分词获取候选词;将所述候选词与词库中的词进行匹配获取新词;按照所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。

【技术特征摘要】
1.一种热点词发现方法,其特征在于,包括:采集网络系统生成的数据;基于信息熵模型对所述数据中的字符串进行分词获取候选词;将所述候选词与词库中的词进行匹配获取新词;按照所述新词的出现频率和评分进行贝叶斯平均计算,获取所述新词的贝叶斯平均值;若确定所述贝叶斯平均值满足预定条件则确定所述新词为热点词。2.根据权利要求1所述的方法,其特征在于,所述基于信息熵模型对所述数据中的字符串进行分词获取候选词之前,还包括:对所述数据进行数据清洗。3.根据权利要求1所述的方法,其特征在于,所述基于信息熵模型对所述数据中的字符串进行分词获取候选词,包括:获取所述数据中的字符串;计算所述字符串的左侧信息熵和右侧信息熵;根据所述字符串的左侧信息熵和右侧信息熵对所述数据中的字符串进行分词得到候选短语,在所述候选短语中确定获取候选词。4.根据权利要求3所述的方法,其特征在于,所述在所述候选短语中确定获取候选词,包括:根据公式对所述候选短语的字符串进行凝固程度计算,其中所述指由字符串si组成的候选短语的凝固程度,指由字符串si组成的候选短语在所述数据中出现的概率,P(si)指字符串si在所述数据中出现的概率;若确定满足预定条件,则确定所述候选短语为候选词。5.根据权利要求3所述的方法,其特征在于,计算所述字符串的左侧信息熵和右侧信息熵,包括:根据公式Hl(s)=-∑a∈Ap(sla|s)*log(p(sla|s))计算字符串的左侧信息熵,其中,s表示所述字符串,Hl(s)表示s的左侧信息熵,A为s左侧出现的汉字的集合,sla表示由s左侧的汉字a与s结合所构成的字符串,p(sla|s)表示所述数据中出现s的前提下,在s左侧出现汉字a的条件概率;根据公式HΓ(s)=-∑b∈Bp(sΓb|s)*log(p(sΓb|s))计算字符串的右侧信息熵,其中HΓ(s)表示s的右侧信息熵,B是s右侧出现的汉字的集合,sΓb为由s右侧的汉字b与s结合所构成的字符串,p(sΓb|s)表示所述数据中出现s的前提下,在s的右侧出现汉字b的条件概率。6.一种热点词发现装置,其特征在于,包括:采集单元,用于采集网络系统生成的数据;分词单元...

【专利技术属性】
技术研发人员:陈思佳
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1