一种信息监测方法及装置制造方法及图纸

技术编号:13397192 阅读:35 留言:0更新日期:2016-07-23 17:36
本申请公开了一种信息监测方法及装置。所述方法包括:抓取需要被监测的信息;获取所述信息中的句子,对所述句子进行句法分析得到潜在评价对象;由经过训练的条件随机场CRF对上述潜在评价对象进行标注和抽取得到最终评价对象;以及判断该最终评价对象与预设的关键词是否匹配。本申请实施例提供的信息监测方法及装置结合了句法分析技术及条件随机场CRF技术,获取对被监测的信息的评价对象,从而进一步确认所述信息是否属于用户所关心的主题,从而避免重要信息被直接过滤。

【技术实现步骤摘要】
一种信息监测方法及装置
本申请涉及计算机
,尤其涉及一种信息监测方法及装置。
技术介绍
互联网技术的高速发展给信息的传播带来了极大便利,每天都会有数以万计的信息在互联网上传播,社会真正进入了信息时代,而互联网也已成为了一种有别于电视、广播和报纸的全新媒体,且逐渐成为了反应社会舆情的主要载体之一。由于网络具有隐蔽性和虚拟性的特点,使得任何人都可以在网络上发表自己的观点,而且可以被迅速扩散至更大的范围,由此可导致互联网上存在大量错综复杂的信息,如此巨大的信息量中必然会存在一些有价值的信息,而无论是对政府、公众媒体或大型企业来说,若能及时有效地监测信息并从中获取有用的信息,将会给国家、社会、企业或个人带来极大的民用和商用价值。在信息爆炸的今天,如何及时有效地进行舆情监测已成为一个急需解决的技术问题。现有的监测方式主要是基于关键词来抓取,并结合人工筛选,即系统根据设置好的关键词从网络上抓取与关键词匹配的数据,再将抓取到的数据分类,例如:分成两类,一类是“无需进一步处理”,另一类是“需进一步处理”,这个方式虽然能将大部分的信息进行准确归类,但准确率仍然有待提高,在“无需进一步处理”类中依旧可能存在重大信息,若将此类数据直接过滤,则必然会导致重大信息的遗漏。
技术实现思路
本申请实施例提供一种信息监测方法及装置,用以解决现有技术中监测遗漏的问题。本申请实施例提供一种信息监测方法,包括:抓取需要被监测的信息;获取所述信息中的句子,对所述句子进行句法分析得到潜在评价对象;由经过训练的条件随机场CRF对上述潜在评价对象进行标注和抽取得到最终评价对象;以及判断该最终评价对象与预设的关键词是否匹配。本申请实施例还提供一种信息监测装置,包括:抓取模块,用于抓取需要被监测的信息;获取模块,用于获取所述信息中的句子,并对句子进行句法分析得到潜在评价对象;抽取模块,用于通过经训练的条件随机场CRF对上述潜在评价对象进行标注和抽取,得到最终评价对象;以及判断模块,用于判断所述最终评价对象与预设的关键词是否匹配。本申请实施例提供的信息监测方法及装置结合了句法分析技术及条件随机场CRF技术,获取对被监测的信息的评价对象,从而进一步确认所述信息是否属于用户所关心的主题,从而避免重要信息被直接过滤。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的信息监测方法过程;图2为本申请实施例提供的信息监测装置结构示意图。图3为本申请实施例在具体应用实例中进句法分析得到的句法结构树示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。参图1所示,本申请公开一种信息监测方法,包括:S101:抓取需要被监测的信息;抓取过程包括:根据预设的关键词抓取信息;通过支持向量机(SupportVectorMachine,SVM)分类器对抓取的信息进行分类,得到需要被监测的信息。依照关键词抓取信息的过程,具体来说,用户根据自身所关心的主题,预先设定好监测所需要用到的关键词,并将设定好的关键词发送至系统;随后,系统获取关键词后,根据该关键词进行信息抓取,从网络平台上抓取到与关键词匹配的信息,其中包含有与用户所关心的主题相关的信息。在本申请实施例中,所述关键词的设定可由人工在客户端或服务器端完成配置,而所述系统可以是信息搜索引擎,其获取关键词后将抓取相匹配的信息,然后存储抓取到的所有信息,并将信息发回至用户端或存储于服务器端,用于供下一步分析处理。然后,通过支持向量机(即SVM)分类器对抓取到的信息进行分类,具体来说,首先需要对前述抓取到的信息进行读取识别,并通过支持向量机(即SVM)分类器对信息进行分类,可根据信息与关键词匹配情况分为两类,即将有价值的信息归为第一类(如:“有用”类),将无价值的信息归为第二类(如:“无用”类),在本申请实施例中,为了避免“无用”类信息中发生重要信息遗漏,可将所述“无用”类信息设为需要被监测的信息,以便后续对其进行深入处理。在本实施例中,所述支持向量机(即SVM)分类器,其通过样本训练成模型,并找到前述两类信息的分类平面,即分类函数(线性或非线性),用于对所述信息进行类别的划分,且在分类前可对信息进行预处理,例如:提取出信息内的特征词(可包含信息内的文本特征、信息中出现的图形特征、以及信息被转载/转发的特征等等,这些均可在模型训练时进行设定),并将其转换成特征向量,再由所述模型对特征向量完成分类。另外,所述分类函数并不唯一,可根据需要进行设定,其将直接影响分类器的准确度,因此需要通过大量的模型训练,训练过程在此不再赘述。在本申请实施例中,所述信息经过所述支持向量机(即SVM)分类器后,在后续的人工筛选过程中,可直接对“有用”类信息进行人工筛选,这个方式使得用户可以快速精准的获取与其关心主题相关的信息,节省大量的人工筛选工作,提高了处理效率。另外,在实际分类处理过程中,所述支持向量机(即SVM)分类器的数量可以是多个,所述信息可逐一经过所述多个支持向量机分类器,进行多次分类处理,其中,每个支持向量机(即SVM)分类器中均可设置有两个类别,且每个分类器可设置特定的分类名目,使得同一信息可被多次分类并最终提高分类的准确性。S102:获取所述信息中的句子,对所述句子进行句法分析得到潜在评价对象;由于信息中本身可能会携带有一些外来的信息内容(例如:引用信息、网址、来源、字符等),它们本身并不属于其所在的信息中,因而,在获取被监测信息的句子时,不应将这部分内容纳入到句子中,本申请实施例中采用正则表达式规则,对这部分内容进行删除,从而得到内容更为简洁的信息,以如下被监测信息为例:“事实上,比这个更差的产品多多了//@Angela_不高兴小姐:那个产品太差了。”,该信息通过正则表达式规则处理后,将得到句子“事实上,比这个更差的产品多多了。”。另外,由于信息中有时会包含有多个句子(通过“。”、“?”、“!”等符号区隔),因此,从同一信息中获取得到的句子可能会有多个(为方便表述,下文以所述被监测信息内仅含有一个句子的情况为例进行介绍)获取所述信息的句子后,本申请实施例进一步对所述句子进行句法分析,从而得到潜在评价对象,具体包括:对所述句子通过句法分析,得到所述句子的根节点(ROOT)所对应节点词语;确定与所述根节点(ROOT)所对应的节点词语的关系是主谓关系(Subject-Verb,SBV)、动宾关系(Verb-Object,VOB)、间宾关系(Indirect-Object,IOB)、前置宾语(Fronting-Object,FOB)、状中结构(Adverbial,ADV)、并列关系(Coordinate,COO)、动补结构(Complement,CMP)、定中关系(Attribute,ATT)的节点词语并将其设为第一子节点集合;确定与所述第一子节点集本文档来自技高网...

【技术保护点】
一种信息监测方法,其特征在于,包括:抓取需要被监测的信息;获取所述信息中的句子,对所述句子进行句法分析得到潜在评价对象;由经过训练的条件随机场CRF对上述潜在评价对象进行标注和抽取得到最终评价对象;以及判断该最终评价对象与预设的关键词是否匹配。

【技术特征摘要】
1.一种信息监测方法,其特征在于,包括:根据预设的关键词抓取信息,根据抓取的信息与所述关键词的匹配情况对抓取的信息进行分类操作,确认被所述分类操作判定为无需进一步处理的信息;获取被所述分类操作判定为无需进一步处理的信息中的句子,对所述句子进行句法分析得到潜在评价对象;由经过训练的条件随机场CRF对上述潜在评价对象进行标注和抽取得到最终评价对象;以及判断该最终评价对象与预设的关键词是否匹配,当所述最终评价对象与预设的关键词匹配时,保留所述最终评价对象;否则将所述最终评价对象过滤。2.如权利要求1所述的方法,其特征在于,所述条件随机场CRF由人工标注的训练数据训练得到。3.如权利要求2所述的方法,其特征在于,由经过训练的条件随机场CRF对上述潜在评价对象进行标注和抽取得到最终评价对象,具体包括:由经过训练的条件随机场CRF通过计算潜在评价对象的概率得到最终评价对象。4.如权利要求3所述的方法,其特征在于,对所述句子进行句法分析得到潜在评价对象,具体包括:对所述句子通过句法分析,得到所述句子的根节点ROOT所对应的节点词语;确定与所述根节点ROOT对应的节点词语的关系是主谓关系SBV、动宾关系VOB、间宾关系IOB、前置宾语FOB、状中结构ADV、并列关系COO、动补结构CMP、定中关系ATT的节点词语,并由该节点词语构成第一子节点集合;将所述第一子节点集合中包含的节点词语确定为所述潜在评价对象。5.如权利要求4所述的方法,其特征在于,所述方法还包括:确定与所述第一子节点集合中的节点词语的关系是主谓关系SBV、动宾关系VOB、间宾关系IOB、前置宾语FOB、状中结构ADV、并列关系COO、动补结构CMP、定中关系ATT的节点词语,并由该节点词语构成第二子节点集合;将所述第二子节点集合中包含的节点词语也确定为所述潜在评价对象。6.如权利要求5所述的方法,其特征在于,所述方法还包括:根据情感要素抽取规则对上述潜在评价对象的第一子节点集合和第二子节点集合进行特征抽取得到所述潜在评价对象的置信度。7.如权利要求6所述的方法,其特征在于,所述置信度被用于条件随机场CRF对潜在评价对象进行概率的计算。8.如权利要求1所述的方法,其特征在于,抓取需要被监测的信息,具体包括:根据预设的关键词抓取信息;通过支持向量机SVM分类器对抓取的信息进行分类,得到需要被监测的信息。9.如权利要求1所述的方法,其特征在于,判断该最终评价对象与预设的关键词是否匹配,具体包括:将所述最终评价对象与所述关键词进行比较,判断两者之间是否存在交集;若存在,则确认所述最终评价对象与所述关键词匹配,...

【专利技术属性】
技术研发人员:王鑫文
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1