一种实现对热点事件从开始到结束实现完整检测的方法技术

技术编号:11213646 阅读:153 留言:0更新日期:2015-03-27 00:12
本发明专利技术涉及到一种实现对热点事件从开始到结束实现完整检测的方法,在舆情分析系统中信息获取和处理以定期更新的方式进行,每当数据更新后,针对于数据源发掘出来的各种信息必须更新,对新数据的更新采取增量聚类算法,首先设定T1,T2(T1>T2)两个文档相似阈值,保留之前文档类簇的中心文档设为本次聚类的中心点,对于新输入的新文档与以前生成的所有类簇进行相似比较,根据不同的比较结果将文档分别归入现有类簇或新建主题类簇。本发明专利技术的方法具有简单高效的优点,能够实现对于一个热点事件从开始到结束的完整检测。

【技术实现步骤摘要】

本专利技术涉及到语音智能处理,特别涉及到舆情检测时对热点事件发现和跟踪的技术,具体是一种实现对热点事件自始至终实现完整检测的方法。
技术介绍
自然语言处理技术主要用于文本的内容分析,关键技术包括中文分词、词法分析、句法分析和语义分析等。在这些关键技术中,中文分词(ChineseWordSegmentat1n)是指将一个汉字序列切分成一个一个单独的词,而词法分析一个主要的任务就是标注每个词在上下文中的词性,词性标注也经过了从规则方法到统计方法的过程。句法分析(Parsing)则是指对句子中的词语语法功能进行分析,比如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。最后,语义分析是编译过程的一个逻辑阶段,语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。 在现有技术中,研究较多的是如何利用统计规则结合简单的语义技术来提高中文信息处理系统的功能,而对自然语言处理技术的语义分析和语法分析还需要进行更高层次的研究才能取得实质性应用。在舆情检测热点发现和事件跟踪时,需要对文本数据进行挖掘,以提取热点事件并持续进行跟踪和分析。在进本文档来自技高网...

【技术保护点】
一种实现对热点事件从开始到结束实现完整检测的方法,在舆情分析系统中信息获取和处理以定期更新的方式进行,每当数据更新后,针对于数据源发掘出来的各种信息必须更新,其特征在于,新数据的更新采取增量聚类算法,若采用增量聚类算法需要执行如下步骤:第一步,设定T1和T2两个文档相似阈值,且T1> T2,保留之前文档类簇的中心文档,更新增量数据前需要先将之前类簇的中心文档设为本次聚类的中心点;第二步,新输入一篇的新文档,要求其与以前生成的所有类簇进行相似比较,若该新文档与之前的某个类簇的相似度大于T1,则直接属于该类簇,且该文档将不与其他类簇比较,聚类并作为该类簇的热点事件,程序结束;第三步,若该新文档与之...

【技术特征摘要】
1.一种实现对热点事件从开始到结束实现完整检测的方法,在舆情分析系统中信息获取和处理以定期更新的方式进行,每当数据更新后,针对于数据源发掘出来的各种信息必须更新,其特征在于,新数据的更新采取增量聚类算法,若采用增量聚类算法需要执行如下步骤: 第一步,设定T1和T2两个文档相似阈值,且ΤΙ > T2,保留之前文档类簇的中心文档,更新增量数据前需要先将之前类簇的中心文档设为本次聚类的中心点; 第二步,新输入一篇的新文档,要求其与以前生成的所有类簇进行相似比较,若该新文档与之前的某个类簇的相似度大于T1,则直接属于该类簇,且该文档将不与其他类簇比较,聚类并作为该类簇的热点事件,程序结束; 第三步,若该新文档与之前的某个类簇的相似度值大于T2且小于T1,则该新文档属于该类簇,然后重复第三步再继续与其他类簇进行比较,比较后进入第四步; 第四步,若该新文档与...

【专利技术属性】
技术研发人员:王正明
申请(专利权)人:上海埃帕信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1