【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,尤其涉及一种检测内容变更的方法和装置。
技术介绍
在检测内容变更时通常采用通过建立的向量空间模型来计算文档间的相似性,进而确定某一篇的文档内容是否有变更。向量空间模型是一种自然语言处理中常用的模型,将文档内容的处理简化为空间中的向量运算,并且以空间上的相似度表达文档内容中语义的相似度。当文档被表示为 文档空间的向量时,可以通过计算向量之间的相似性来度量文档间的相似性。具体的,在向量空间模型中,两个文档之间的语义内容相似度以两个向量之间的夹角的余弦值表示。然而,在采用通过向量空间模型来确定广告主内容变更时,由于广告主内容中某一个广告创意页面内容会远少于广告主网站内容,每个词项的词频在两者中差异很大,导致计算广告创意与广告主网站内容的相似度时,获得的相似度值会很小,且两者共有的词项数目远少于广告主网站中出现的词项数目,所以若利用余弦相似度计算两者相似度,得出的相似度值会和实际情况相差很大,导致出现错误报警,不能准确识别广告主内容是否有变更。
技术实现思路
本专利技术的实施例提供一种检测内容变更的方法和装置,可以提高识别广告主内容变更的准确率,降低错误报警。为达到上述目的,本专利技术的实施例采用如下技术方案一种检测内容变更的方法,包括分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相 ...
【技术保护点】
一种检测内容变更的方法,其特征在于,包括:分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。
【技术特征摘要】
1.一种检测内容变更的方法,其特征在于,包括 分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合; 分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量; 根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度; 当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。2.根据权利要求I所述的方法,其特征在于,所述分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合包括 根据任一广告创意的内容,获取并解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合; 根据所述广告创意对应的广告主网站内容以及预设周期,获取并解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合,所述预设周期为更新所述网站文本集合的周期。3.根据权利要求2所述的方法,其特征在于,所述分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量包括 对所述创意文本集合和所述网站文本集合中的每篇文本进行切词; 统计预设词库中每个词在切词后的每篇文本中的词频; 根据统计的所述每个词的所述词频,分别计算所述每个词在所述创意文本集合和所述网站文本集合中的总词频; 将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量。4.根据权利要求3所述的方法,其特征在于,所述将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量包括 将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到第一创意向量和第一网站向量; 获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词频最高的元素之外所述第一创意向量中的元素的值设置为O,得到创意向量; 获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为O,得到网站向量; 其中,所述第一阈值参数小于所述第二阈值参数。5.根据权利要求4所述的方法,其特征在于,所述根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度包括N 根据Sim(VpV2)=I确定所述广告创意内容与所述广告主网站内容的相似度;其中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,N1为所述第一阈值参数。6.根据权利要求1-5所述的方法,其特征在于,所述方法还包括 当所...
【专利技术属性】
技术研发人员:孙翔,吴欢琴,
申请(专利权)人:盘古文化传播有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。