信息相关性分析方法和装置制造方法及图纸

技术编号:7736071 阅读:181 留言:0更新日期:2012-09-09 17:28
本发明专利技术提出了一种信息相关性分析方法和装置,属于通信技术领域。本发明专利技术的方法包括:根据预设条件对所有的检索串进行分层;根据分层后的检索串获取用于分析的抽样检索串;获取所述用于分析的抽样检索串对应的数据;根据所述获取的数据对信息相关性进行分析。本发明专利技术的装置包括:分层模块、第一获取模块、第二获取模块、分析模块。本发明专利技术实施例通过上述方案实现了通过分层抽样增大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最终得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。

【技术实现步骤摘要】

本专利技术涉及通信
,特别涉及一种信息相关性分析方法和装置
技术介绍
随着互联网技术的发展,网络作为ー种新兴媒体成为广告发布的新平台。与传统媒体发布广告相比,网络广告具有高针对性,传播速度快等优点。在搜索引擎广告的投放过程中,可以根据来访者的检索意图,具有针对性的进行广告投放,在一定程度上保证了广告的到达率。为了使网络广告能够按照来访者的检索意图更加准确的投放,各互联网公司会对自有的搜索引擎广告投放系统进行广告相关性分析。 现有技术中各互联网公司对自有搜索引擎广告投放系统的广告相关性分析,一般采用的是从检索日志中随机抽取一部分用户曾经进行检索的检索串,然后到自有的搜索引擎中检索抽取的检索串,查看所展示的广告与用户的检索意图是否相一致。最后根据这些抽样的广告相关性作为自有搜索引擎广告投放系统的广告相关性。现有技术中在广告相关性分析费用有限制的情况下,采用随机抽取用于检验广告相关性的样本,这种方法抽取的样本与总体分布有可能不一致,使得抽样的误差较大,因此増大了误差的方差,最終得到的广告相关性分析指标也不一定能代表总体的相关性。若使随机抽取的样本尽可能的与总体分布一致,达到减少误差的目的,则要增大样本容量,因此会增加广告相关性的分析费用。
技术实现思路
为了解决现有技术中用于分析的抽样样本误差大,无法代表总体分布情况的问题,本专利技术实施例提供了一种信息相关性分析方法和装置。所述技术方案如下本专利技术实施例提出了一种信息相关性分析方法,包括根据预设条件对检索串进行分层;根据分层后的检索串获取用于分析的抽样检索串;获取所述用于分析的抽样检索串对应的数据;根据所述获取的数据对信息相关性进行分析。作为上述技术方案的优选,所述根据预设条件对所有的检索串进行分层,具体包括 将检索串的词频、串长作为预设条件对检索串进行分层。作为上述技术方案的优选,所述根据分层后的检索串获取用于分析的抽样检索串,具体包括根据历史数据计算用于分析的抽样检索串总容量;按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量;按照所述每个分层的抽样容量,随机抽取抽样检索串。作为上述技术方案的优选,所述根据历史数据计算用于分析的抽样检索串总容量,具体包括根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差;根据每层的方差计算用于分析的抽样检索串总容量。本专利技术实施例还提出了一种信息相关性分析装置,包括分层模块,用于根据预设条件对所有的检索串进行分层;第一获取模块,用于根据分层后的检索串获取用于分析的抽样检索串;第二获取模块,用于获取所述用于分析的抽样检索串对应的数据;分析模块,用于根据所述获取的数据对信息相关性进行分析。作为上述技术方案的优选,所述分层模块具体包括按照检索串的词频、串长作为预设条件进行分层。作为上述技术方案的优选,所述第一获取模块包括第一计算单元,用于根据历史数据计算用于分析的抽样检索串总容量;第二计算单元,用于按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量;抽取单元,用于按照所述每个分层的抽样容量,随机抽取抽样检索串。作为上述技术方案的优选,所述第一计算单元包括第一计算子単元,用于根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差;第二计算子単元,用于根据每层的方差计算用于分析的抽样检索串总容量。本专利技术实施例提供的技术方案的有益效果是通过根据预设条件对所有的检索串进行分层,根据分层后的检索串获取用于分析的抽样检索串,获取所述用于分析的抽样检索串对应的数据,根据所述获取的数据对信息相关性进行分析。实现了通过分层抽样増大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最終得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I是为本专利技术实施例I提供的信息相关性分析方法流程示意图;图2是为本专利技术实施例2提供的信息相关性分析方法流程示意图;图3是为本专利技术实施例3提供的信息相关性分析装置结构示意图; 图4是为本专利技术实施例4提供的信息相关性分析装置结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进ー步地详细描述。实施例I本专利技术第一实施例提出了一种信息相关性分析方法,其流程如图I所示,包括步骤101 :根据预设条件对检索串进行分层;步骤102 :根据分层后的检索串获取用于分析的抽样检索串;步骤103 :获取所述用于分析的抽样检索串对应的数据;步骤104 :根据所述获取的数据对信息相关性进行分析。 本专利技术实施例提供的技术方案的有益效果是通过根据预设条件对所有的检索串进行分层,根据分层后的检索串获取用于分析的抽样检索串,获取所述用于分析的抽样检索串对应的数据,根据所述获取的数据对信息相关性进行分析。实现了通过分层抽样増大层间方差,降低增内方差的方式,降低了抽样检索串的误差,使得抽取的检索串可以与总体分布大致一致,最終得到的分析指标也可以代表总体的相关性,达到了从抽样看总体的目的。实施例2本专利技术第二实施例是在第一实施例的基础上改进而来,其流程如图2所示,包括步骤201 :预先制定对抽样的信息进行相关性分析的评分标准。具体的,按照抽样检索串与对应检索到的数据的一致性和信息满足用户需求的程度预先制定相关性分析的评分标准,评分的梯度分别为很好(4分)、好(3分)、可接受(2分)、一般(I分)、不好(0分)。对每条数据的评分作为信息相关性的水准。在对信息相关性进行评分的时候,若遇到模棱两可的情況,统ー采用就低原则进行评分。步骤202 :预先制定用于信息相关度分析的度量指标。具体的,根据评价信息相关性的目的,制定不同的信息相关性分析的度量指标。在进行信息相关性分析吋,可根据每次分析的目的,使用相应的度量指标作为本次分析使用何种标志值的依据。一般有如下两种分析目的a.用于分析衡量信息的相关性程度的目的,制定整体指标为信息相关性的平均得分AVG,这个分数是对每一条检索串,和与其对应的数据进行评分后所计算到的ー个平均值,这个平均值就是进行信息相关性程度分析的标志值。算法为AVG =所有信息相关性评分之和/分析的信息个数b.用于分析衡量相关性不好的信息数量和占比统计的目的。“相关性不好”下文中统称为“Badcase” (缺陷)。这个衡量Badcase的指标如表I :统计指标指标含乂Badcase信息数人工评分为0的信息数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息相关性分析方法,其特征在于,所述方法包括 根据预设条件对检索串进行分层; 根据分层后的检索串获取用于分析的抽样检索串; 获取所述用于分析的抽样检索串对应的数据; 根据所述获取的数据对信息相关性进行分析。2.根据权利要求I所述的ー种信息相关性分析方法,其特征在于,所述根据预设条件对所有的检索串进行分层,具体包括 将检索串的词频、串长作为预设条件对检索串进行分层。3.根据权利要求I所述的ー种信息相关性分析方法,其特征在于,所述根据分层后的检索串获取用于分析的抽样检索串,具体包括 根据历史数据计算用于分析的抽样检索串总容量; 按照所述抽样检索串总容量,采用奈曼分配分别计算每个分层的抽样检索串容量; 按照所述每个分层的抽样容量,随机抽取抽样检索串。4.根据权利要求3所述的ー种信息相关性分析方法,其特征在于,所述根据历史数据计算用于分析的抽样检索串总容量,具体包括 根据分层后每层中包含传统的随机抽样分析方式获得的检索串度量指标来计算每层的方差; 根据每层的方差计算用于分析的抽样检索串总容量。5.一种信息相关性分析装置...

【专利技术属性】
技术研发人员:朱建朋李佳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1