一种检测内容变更的方法和装置制造方法及图纸

技术编号:8271439 阅读:189 留言:0更新日期:2013-01-31 03:39
本发明专利技术公开一种检测内容变更的方法和装置,涉及自然语言处理领域,可以提高识别广告主内容变更的准确率,降低错误报警。本发明专利技术实施例通过分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。本发明专利技术实施例适合检测广告主内容是否变更时采用。

【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,尤其涉及一种检测内容变更的方法和装置
技术介绍
在检测内容变更时通常采用通过建立的向量空间模型来计算文档间的相似性,进而确定某一篇的文档内容是否有变更。向量空间模型是一种自然语言处理中常用的模型,将文档内容的处理简化为空间中的向量运算,并且以空间上的相似度表达文档内容中语义的相似度。当文档被表示为 文档空间的向量时,可以通过计算向量之间的相似性来度量文档间的相似性。具体的,在向量空间模型中,两个文档之间的语义内容相似度以两个向量之间的夹角的余弦值表示。然而,在采用通过向量空间模型来确定广告主内容变更时,由于广告主内容中某一个广告创意页面内容会远少于广告主网站内容,每个词项的词频在两者中差异很大,导致计算广告创意与广告主网站内容的相似度时,获得的相似度值会很小,且两者共有的词项数目远少于广告主网站中出现的词项数目,所以若利用余弦相似度计算两者相似度,得出的相似度值会和实际情况相差很大,导致出现错误报警,不能准确识别广告主内容是否有变更。
技术实现思路
本专利技术的实施例提供一种检测内容变更的方法和装置,可以提高识别广告主内容变更的准确率,降低错误报警。为达到上述目的,本专利技术的实施例采用如下技术方案一种检测内容变更的方法,包括分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。一种检测内容变更的装置,包括文本集合获取单元,用于分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;向量获取单元,用于分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;相似度确定单元,用于根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;判决单元,用于当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。本专利技术实施例提供一种检测内容变更的方法和装置,通过分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。与现有技术中在采用通过向量空间模型来确定广告主内容变更时,由于广告主内容中某一个广告创意页面内容会远少于广告主网站内容,每个词项的词频在两者中差异很·大,导致计算广告创意与广告主网站内容的相似度时,获得的相似度值会很小,且两者共有的词项数目远少于广告主网站中出现的词项数目,所以若利用余弦相似度计算两者相似度,得出的相似度值会和实际情况相差很大,导致出现错误报警,不能准确识别广告主内容是否有变更相比,本专利技术实施例提供的方案采用改进的向量空间模型以及新的相似度值计算方法检测广告主内容变更,可以提高识别广告主内容变更的准确率,降低错误报警。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本专利技术实施例I提供的一种检测内容变更的方法的流程图;图2为本专利技术实施例I提供的一种检测内容变更的装置的框图;图3为本专利技术实施例2提供的一种检测内容变更的方法的流程图;图4为本专利技术实施例2提供的三级页面示意图;图5为本专利技术实施例2提供的对创意文本集合进行向量化的方法的流程图;图6为本专利技术实施例2提供的一种检测内容变更的装置的框图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例I本专利技术实施例提供一种检测内容变更的方法,如图I所示,该方法包括以下步骤步骤101,分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;本步骤中,根据任一广告创意的内容,获取并解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合;根据所述广告创意对应的广告主网站内容以及预设周期,获取并解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合,所述预设周期为更新所述网站文本集合的周期。步骤102,分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;本步骤中,对所述创意文本集合和所述网站文本集合中的每篇文本进行切词;统计预设词库中每个词在切词后的每篇文本中的词频;根据统计的所述每个词的所述词频,分别计算所述每个词在所述创意文本集合和所述网站文本集合中的总词频; 将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量。进一步的,将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量包括将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到第一创意向量和第一网站向量;获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词频最高的元素之外所述第一创意向量中的元素的值设置为0,得到创意向量;获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为0,得到网站向量;其中,所述第一阈值参数小于所述第二阈值参数。步骤103,根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度; N本步骤中,根据Sim(VpV2)=#确定所述广告创意内容与所述广告主网站内容的相似度;其中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,N1为所述第一阈值参数。步骤104,当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。进一步的,当确定所述广告主网站内容发生变更之后,提出报警。当所述相似度大于或者等于预设阈值时,确定所述广告主内容未发生变更。本专利技术实施例提供一种检测内容变更的方法,通过采用改进的向量空间模型以及新的相似度值计算方法检测广告主内容变更,可以提高识别广告主内容变更的准确率,降低错误报警。本专利技术实施例提供一种检测内容变更的装置,如图2所示,该装置包括文本集合获取单元20本文档来自技高网...

【技术保护点】
一种检测内容变更的方法,其特征在于,包括:分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。

【技术特征摘要】
1.一种检测内容变更的方法,其特征在于,包括 分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合; 分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量; 根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度; 当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。2.根据权利要求I所述的方法,其特征在于,所述分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合包括 根据任一广告创意的内容,获取并解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合; 根据所述广告创意对应的广告主网站内容以及预设周期,获取并解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合,所述预设周期为更新所述网站文本集合的周期。3.根据权利要求2所述的方法,其特征在于,所述分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量包括 对所述创意文本集合和所述网站文本集合中的每篇文本进行切词; 统计预设词库中每个词在切词后的每篇文本中的词频; 根据统计的所述每个词的所述词频,分别计算所述每个词在所述创意文本集合和所述网站文本集合中的总词频; 将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量。4.根据权利要求3所述的方法,其特征在于,所述将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量包括 将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到第一创意向量和第一网站向量; 获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词频最高的元素之外所述第一创意向量中的元素的值设置为O,得到创意向量; 获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为O,得到网站向量; 其中,所述第一阈值参数小于所述第二阈值参数。5.根据权利要求4所述的方法,其特征在于,所述根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度包括N 根据Sim(VpV2)=I确定所述广告创意内容与所述广告主网站内容的相似度;其中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,N1为所述第一阈值参数。6.根据权利要求1-5所述的方法,其特征在于,所述方法还包括 当所...

【专利技术属性】
技术研发人员:孙翔吴欢琴
申请(专利权)人:盘古文化传播有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1