内容处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:25948920 阅读:12 留言:0更新日期:2020-10-17 03:41
本申请公开了内容处理方法、装置、设备以及存储介质,涉及云计算、自然语言处理和智能搜索领域。具体实现方案为:对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;根据聚合后得到的每个预设时长内的查询数据,确定所述指定时段内的关键词;根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度;根据所述待处理内容在所述指定时段内的热度,确定热点内容。本申请提高了输出内容的热度,从而提高了点击率。

【技术实现步骤摘要】
内容处理方法、装置、设备以及存储介质
本申请涉及计算机
,尤其涉及云计算、自然语言处理和智能搜索等领域。
技术介绍
传统的社区站点在确定对外所展现的内容,往往考虑的是内容的权威性、相关性、互动性和丰富度。然而随着信息迭代速度的加快,人们提高了对搜索信息时效性的要求。若采用传统的内容展现策略,输出的内容难以满足用户需求。
技术实现思路
本申请提供了一种用于内容处理方法、装置、设备以及存储介质。第一方面,本申请提供了一种内容处理方法,包括:对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;根据聚合后得到的每个预设时长内的查询数据,确定指定时段内的关键词;根据待处理内容中出现的关键词的特征,确定待处理内容在指定时段内的热度;根据待处理内容在指定时段内的热度,确定热点内容。第二方面,本申请提供一种内容处理装置,包括:聚合模块,用于对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;关键词确定模块,用于聚合后得到的每个预设时长内的查询数据,确定指定时段内的关键词;内容热度确定模块,用于根据待处理内容中出现的关键词的特征,确定待处理内容在指定时段内的热度;热点内容确定模块,用于根据待处理内容在指定时段内的热度,确定热点内容。根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请任意实施例提供的方法。根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本申请任意实施例提供的方法。根据本申请的技术提高了输出内容的热度。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请实施例提供的内容处理方法的流程图一;图2是根据本申请实施例提供的内容处理方法的流程图二;图3是根据本申请实施例提供的内容处理方法的流程图三;图4是根据本申请实施例提供的内容处理方法的一示例图;图5是根据本申请实施例提供的内容处理装置的结构框图一;图6是根据本申请实施例提供的内容处理装置的结构框图二;图7是根据本申请实施例提供的内容处理装置的结构框图三;图8是根据本申请实施例提供的内容处理装置的结构框图四;图9是用来实现本申请实施例的内容处理的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本申请实施例公开了一种内容处理方法,涉及云计算、自然语言处理和智能搜索等领域。参见图1,内容处理方法包括:S101、对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;S102、根据聚合后得到的每个预设时长内的查询数据,确定指定时段内的关键词S103、根据待处理内容中出现的关键词的特征,确定待处理内容在指定时段内的热度。S104、根据待处理内容在指定时段内的热度,确定热点内容。其中,待处理内容可以为线上社区里的内容,例如用户发布的贴子、日志、文章、问答或心情等等。内容的形式可以包括但不限于文字、图片、链接和视频等。其中,指定时段可以为用户指定的某个时间段。例如指定采集1点~2点区间内,或者指定采集1小时内搜索引擎的查询数据。通常,每隔预设时间例如5分钟采集一次搜索引擎的查询数据并存储,然后从存储的数据中选取指定时段的查询数据,例如选取最近1小时内的查询数据。其中,搜索引擎可以为待处理内容所在站点的搜索引擎和/或站点外的搜索引擎。站点可以包括各种网站。例如,待处理内容所在站点的搜索引擎可以为某个网站内部可以搜索本网站内容的搜索引擎。站点外的搜索引擎可以为某些专用的搜索引擎,例如百度。通过分析搜索引擎侧引入的查询数据,确定当前的关键词。关键词也可以称为热搜词,与用户在一段时间内用搜索引擎搜索的查询词的频率有关。关键词从一定程度上体现了当前热点,在当前站点内的所有内容中挖掘和关键词相关性较高的内容,得到的内容的热点程度较高。利用该热点内容在站内或者其它平台进行展现时,可以提高用户点击率。此外,其它平台在对展现的内容评估时,内容的热度越高,展现的概率越高。在一种实施方式中,参见图2,步骤S102根据聚合后得到的每个预设时长内的查询数据,确定所述指定时内的关键词,包括:S201、对聚合后得到的每个预设时长内的查询数据进行词频统计。可选地,对聚合后得到的每个预设时长内的查询数据进行切词处理,再对切词处理后的每个预设时长内的查询数据进行词频统计。S202、根据每个预设时长内的查询数据的词频和每个预设时长对应的关键词频标准,确定每个预设时长内的关键词。可选地,每个预设时长对应的关键词词频标准可以为词频超过预设值、词频排序位于前预设位数。查询数据可以包括用户输入搜索引擎的词、句等内容。可以记录查询数据对应的查询时间,将指定时段的查询数据按照预设时长进行聚合。例如,指定时段为上午7点到8点,预设时长为10分钟、30分钟、1小时。在某个上午8点的时候,选取出上午7点到8点的查询数据,然后按照10分钟、30分钟、1小时分类。通常选取最近的10分钟、30分钟和1小时内的查询数据,即10分钟的为7:51到8:00,30分钟的为7:31到8:00,1小时的为7:00到8:00。然后对7:51到8:00、7:31到8:00和7:00到8:00这三组查询数据的词频进行统计。假设各个时长的关键词频标准为:5分钟的为词频超过1千次;30分钟为词频超过1万次;设定30分钟的为词频超过10万次。根据上述关键词标准可以选取各个预设时长的查询数据中关键词。S203、根据每个预设时长内的关键词,确定指定时段内的关键词。可选地,选取每个预设时长内的关键词里共同的关键词,作为指定时段内的关键词。在其它实施例中,也可以按照需求调整为满足。例如,基于上述示例关键词频标准,选出各个时长的关键词为:10分钟的为词A、词B和词C,30分钟的为词A、词D和词E,1小时的为词A、词C和词E;由于三个时长里的关键词均出现了词A,此时可以选取词A作为上午7点到8点这个时段内的关键词。确定关键词的时候,将满足不同时长要求的词才作为关键词,可以避免一些瞬时查询量突增但又很快消逝的词语被选为关键词的情况,对关键词的考虑更加全本文档来自技高网...

【技术保护点】
1.一种内容处理方法,包括:/n对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;/n根据聚合后得到的每个预设时长内的查询数据,确定所述指定时段内的关键词;/n根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度;/n根据所述待处理内容在所述指定时段内的热度,确定热点内容。/n

【技术特征摘要】
1.一种内容处理方法,包括:
对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;
根据聚合后得到的每个预设时长内的查询数据,确定所述指定时段内的关键词;
根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度;
根据所述待处理内容在所述指定时段内的热度,确定热点内容。


2.根据权利要求1所述的方法,其中,
所述根据聚合后得到的每个预设时长内的查询数据,确定所述指定时内的关键词包括:
对聚合后得到的每个预设时长内的查询数据进行词频统计;
根据每个预设时长内的查询数据的词频和每个预设时长对应的关键词频标准,确定每个预设时长内的关键词;
根据每个预设时长内的关键词,确定所述指定时段内的关键词。


3.根据权利要求1所述的方法,其中,还包括下述至少一项:
获取黑词数据,并根据所述黑词数据对所述关键词进行过滤,其中,所述黑词数据包括常态关键词和语气助词中至少一项;
获取白词数据,并根据所述白词数据增加新的关键词,其中,所述白词数据包括用户指定的关键词。


4.根据权利要求1所述的方法,其中,还包括:获取所述关键词在所述指定时段内的热度;
所述根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度,包括:根据待处理内容中出现的关键词的特征以及所述关键词在所述指定时段内的热度,确定所述待处理内容在所述指定时段内的热度。


5.根据权利要求1所述的方法,其中,所述根据待处理内容中出现的关键词的特征,确定所述待处理内容在所述指定时段内的热度,包括:
根据所述待处理内容中出现的关键词的特征在所有待处理内容中出现的关键词的同类特征的总和,对所述待处理内容中出现的关键词的特征进行归一化处理;
根据归一化处理后的所述待处理内容的关键词的特征,确定所述待处理内容在所述指定时段内的热度。


6.根据权利要求1至5中任一项所述的方法,其中,所述关键词的特征包括下述至少一项:指定位置的关键词个数、指定位置的关键词长度占比和指定位置的关键词总频次,所述指定位置包括标题、正文、回帖中的至少一项。


7.一种内容处理装置,包括:
聚合模块,用于对指定时段内搜索引擎的查询数据进行多个预设时长的聚合;
关键词确定模块,用于聚合后得到的每个预设时长内的查询数据,确定所述指定时段内的关键词;
内容热度确定模块,用于根据待处理内容中出现的...

【专利技术属性】
技术研发人员:王全想李琳科李光
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1