当前位置: 首页 > 专利查询>北京大学专利>正文

信息有效性分析的方法和装置制造方法及图纸

技术编号:6994272 阅读:198 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开一种信息有效性分析的方法和装置,涉及信息检测技术领域。为解决现有阶段还没有专门的对信息进行有效性分析的技术而发明专利技术。本发明专利技术提供的技术方案包括:由获取装置获取所要分析的信息的特征向量;根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分数;根据所述质量分数分析信息的有效性。本发明专利技术适用于博客、论坛、新闻站点等网站的评估系统中,也适用于对于评论进行进一步处理的系统中,如情感分析、话题统计与分析、评论话题演化、有效评论抽取、垃圾评论过滤等技术领域中。

【技术实现步骤摘要】

本专利技术涉及信息检测
,尤其涉及一种信息有效性分析的方法和装置
技术介绍
随着网络信息发布的成本和代价不断降低,大量网络信息,尤其是用户评论的发 布,使得无关、无用等垃圾信息充斥着网络。这既影响了网络用户对有用信息的获取,也在 计算机进行自动化处理过程中产生了很多噪音信息,因此,对于网络信息有效性的分析逐 渐成为人们关注的焦点。通过对网络信息的有效性进行分析,能够实现有效信息抽取、垃圾 信息过滤等后续工作。而在现阶段,对于信息有效性的判断仅局限于基于分类器进行划分等简单技术, 还没有专门对信息的有效性进行分析的相关工作,使得有些后续工作处理效果较差。
技术实现思路
本专利技术的实施例提供一种信息有效性分析的方法和装置,能够对信息的有效性进 行较准确地分析。为达到上述目的,本专利技术的实施例采用如下技术方案一种信息有效性分析的方法,包括由获取装置获取所要分析的信息的特征向量;根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分 数;根据所述质量分数分析信息的有效性。一种信息有效性分析的装置,包括第一获取单元,用于获取所要分析的信息的特征向量;第一分析单元,用于根据预先建立的信息质量评估模型对由所述第一获取单元获 取的信息的特征向量进行分析,获取质量分数;第二分析单元,用于根据由所述第一分析单元获取的质量分数分析信息的有效信 肩、ο本专利技术实施例提供的信息有效性分析的方法和装置,通过获取所要分析的信息的 特征向量,提取了信息多方面的特征,将复杂、随机的信息转化成为数学模型;并根据预先 建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分数,根据所述质量 分数来分析信息的有效性,解决了由于现有阶段还没有专门的对信息有效性进行分析的技 术,使得有些后续工作处理效果较差的问题。本专利技术的实施例提供的信息有效性分析的方 法和装置,能够对信息的有效性进行较准确地分析。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 这些附图获得其他的附图。图1为本专利技术实施例提供的信息有效性分析的方法流程图;图2为本专利技术另一个实施例提供的信息有效性分析的方法流程图;图3为本专利技术实施例提供的提取所要分析的信息与预先设定的信息的相关性特 征的方法流程图;图4为本专利技术实施例提供的信息有效性分析的装置的结构示意图一;图5为本专利技术实施例提供的信息有效性分析的装置中第一获取单元401的结构示 意图;图6为图5中所示的第一获取单元401中的提取单元4011的结构示意图;图7为图6中所示的提取单元4011中第二提取子单元502的结构示意图;图8为本专利技术实施例提供的信息有效性分析的装置的结构示意图二。具体实施例方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例 中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员 在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了解决现有阶段还没有专门的对信息进行有效性分析的技术,使得有些后续工 作处理效果较差的问题,本专利技术实施例提供一种信息有效性分析的方法和装置。如图1所示,本专利技术实施例提供的信息有效性分析的方法,包括步骤101,由获取装置获取所要分析的信息的特征向量;在本实施例中,所述信息的特征向量是由信息的特征经过数学建模后获得的。信 息的特征包括信息自身的特征和该信息与其它信息的相关性特征,信息自身的特征可以包 括信息的长度特征、句式特征、情感特征和上下文特征等。将这些特征用一个数学向量来 表示,将复杂的信息数字化。步骤102,根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获 取质量分数;在本实施例中,所述信息质量评估模型是对现有的规约模型进行训练获得的。通 过获取已经进行过质量标注的训练语料的特征向量,使用已有的规约模型对所述训练语料 的特征向量进行计算,将获得的质量分数与标注的质量分数进行比较,从而调整训练语料 特征向量中各个元素的权值,直到所获得的质量分数与标注的质量分数基本一致,这样可 以建立一个比较准确的信息质量评估模型。步骤103,根据所述质量分数分析信息的有效性。在本实施例中,将所获得的质量分数作为分析信息有效性的标准,并且分布在 0 1之间;得分越高,表明所分析的信息越有效。 本专利技术实施例提供的信息有效性分析的方法,通过获取所要分析的信息的特征向 量,提取了信息多方面的特征,将复杂、随机的信息转化成为数学模型;并根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分数,根据所述质量分数来 分析信息的有效性,解决了由于现有阶段还没有专门的对信息有效性进行分析的技术,使 得有些后续工作处理效果较差的问题。为了使本领域技术人员能够更清楚地理解本专利技术实施例提供的技术方案,下面通 过具体的实施例,对本专利技术另一个实施例提供的信息有效性分析的方法进行详细说明。以下实 施例中,所要分析的信息为对网络新闻发表的评论信息。如图2所示,本专利技术另一个实施例提供的信息有效性分析的方法,包括步骤201,提取所要分析的信息的自身特征;本实施例中,所要分析的信息为对网络新闻发表的评论信息。提取评论信息的自 身特征包括评论的长度、句式、语义、所表达的情感以及该评论与其它评论的相关性等特 征。具体的提取评论自身特征的方法为首先对一条评论进行预处理,即将该条评论按照标 点符号划分为句子,得到句子集合;利用分词工具将句子集合中的每一条句子划分成词语, 得到词语集合;再利用词性标注工具将词语集合中的每一个词语都标注词性,并进行词性 分类,可得到名词集合、动词集合、形容词集合等。附加地,为了使分析的结果更准确,可利 用命名实体识别工具将句子集合中的命名实体都识别出来,例如,北京市公安局、最高人民 法院、国家图书馆等专有名词,并与普通名词一样进行分类,得到命名实体集合。将评论进 行上述的预处理后,就可以提取该评论自身的特征了,下面对于评论自身各方面的特征进 行详细说明长度特征在评论中,长度特征占据较大的作用。长度比较长的评论往往信息含量 较多,反之,比较短的评论往往所包含的有效信息量较少。本实施例中,所获取的评论的长 度特征包括,评论的字数、评论的句子数和该评论平均句子的长度。句式特征在评论中,句式也能传达很多的信息。例如,感叹句表示强烈的感情,而 疑问句表示困惑;再例如,如果一条评论的标点符号所占比例较大,表示该评论本身的文本 内容不多,即所包含的信息量不多;同时,标点符号的含量也能体现一条评论的规范性。在 本实施例中,所获取的评论的句式特征包括,该评论中问号的个数、感叹号的个数、省略号 的个数、引号的个数、引号内的文本内容占该评论内容的比例、以及所有标点符号的个数占 该评论总字符的比例等。语义特征在评论中,有些词能表明评论人的心态,是认真参与了评论还是敷衍了 事;有些词能够区分评论人的态度,是疑问、不确定,还是肯定等。在本实本文档来自技高网...

【技术保护点】
一种信息有效性分析的方法,其特征在于,包括:由获取装置获取所要分析的信息的特征向量;根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分数;根据所述质量分数分析信息的有效性。

【技术特征摘要】

【专利技术属性】
技术研发人员:王晨峰杨建武万小军
申请(专利权)人:北京大学北大方正集团有限公司北京方正电子政务信息科技有限公司北京北大方正电子有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1