基于内容的搜索建议生成方法及装置制造方法及图纸

技术编号:28223054 阅读:29 留言:0更新日期:2021-04-28 09:50
本发明专利技术的实施方式涉及互联网技术领域,更具体地,本发明专利技术的实施方式涉及基于内容的搜索建议生成方法及装置,存储介质和电子设备。所述方法包括获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集;基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本;对所述待分析短文本进行依存句法分析,以获取目标短句;将所述目标短句加入搜索建议集合。本方法能够有效的提升生成的搜索建议词条的时效性,能够为用户推荐出实时性更高的词条。尤其对于新闻领域来说,能够极大的提高相关推荐词条的时效性。关推荐词条的时效性。关推荐词条的时效性。

【技术实现步骤摘要】
基于内容的搜索建议生成方法及装置


[0001]本专利技术的实施方式涉及互联网
,更具体地,本专利技术的实施方式涉及基于内容的搜索建议生成方法及装置,存储介质和电子设备。

技术介绍

[0002]本部分旨在为权利要求中陈述的本专利技术的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
[0003]用户在利用搜索引擎搜索内容时,搜索引擎会根据用户当前输入的文本做相关内容的推荐。一般来说,会在搜索框中展示推荐的内容,推荐内容可能为多个。例如,用户在搜索框中输入“搜”,对应展示的搜索建议依次为:搜狐、搜狐体育、搜狗以及搜房网等等。

技术实现思路

[0004]但是,在一些技术中,相关技术在生成搜索建议词条时,通常基于全局用户已使用过的搜索关键词,进行去重过滤后得到候选搜索词条。然而,相关技术存在“刷单”风险;并且,由于是基于已有的搜索词生成建议词条,存在时间滞后性的缺陷。
[0005]为此,非常需要一种改进的基于内容的搜索建议生成方法及装置、存储介质和电子设备,以解决现有技术中存在的人为刷数据和时效滞后的问题。
[0006]在本上下文中,本专利技术的实施方式期望提供一种基于内容的搜索建议生成方法和装置、存储介质和电子设备。
[0007]根据本公开的一个方面,提供一种基于内容的搜索建议生成方法,包括:获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集;
[0008]基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本;
[0009]对所述待分析短文本进行依存句法分析,以获取目标短句;
[0010]将所述目标短句加入搜索建议集合。
[0011]在本公开的一种示例性实施例中,所述获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本包括:
[0012]根据预设地址信息向目标地址读取所述待处理文本;
[0013]提取所述待处理文本中目标位置的文本内容作为短文本;其中,所述目标位置包括标题、副标题、摘要以及特殊标记内容中的任意一项或任意多项;以及
[0014]识别所述待处理文本中正文部分长度大于预设阈值的文本内容作为所述短文本。
[0015]在本公开的一种示例性实施例中,所述根据所述短文本生成候选集后,所述方法还包括:
[0016]根据预设关键词对所述候选集中各所述短文本进行匹配;并在所述短文本包含所述预设关键词时删除对应的所述短文本。
[0017]在本公开的一种示例性实施例中,所述基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本,包括:
[0018]对所述候选集中各所述短文本进行切词处理,并根据切词处理结果对应的词频信息计算各所述短文本的权重;
[0019]根据权重对所述短文本进行排序,并根据排序结果筛选所述待分析短文本。
[0020]在本公开的一种示例性实施例中,所述对所述待分析短文本进行依存句法分析,以获取目标短句,包括:
[0021]对所述待分析短文本进行切词处理以获取分词,并标记各所述分词对应的词性信息;
[0022]基于各所述分词对应的词性信息对所述待分析短文本进行依存句法分析,以获取所述待分析短文本对应的依存关系;
[0023]基于所述依存关系和所述分词对应的词性信息生成所述待分析短文本对应的所述目标短句。
[0024]在本公开的一种示例性实施例中,所述标记各所述分词对应的词性信息时,所述方法还包括:
[0025]识别所述待分析短文本中的目标类型分词,并标记各所述目标类型分词对应的偏移信息;其中,所述目标类型分词包括:否定词、修饰词和国家名称中的任意一项或任意多项。
[0026]在本公开的一种示例性实施例中,生成所述待分析短文本对应的所述目标短句后,所述方法还包括:
[0027]将所述目标短句与所述待分析短文本进行对比,并在所述目标短句中不存在所述目标类型分词时,根据所述目标类型分词及对应的偏移信息对所述目标短句进行增补处理。
[0028]在本公开的一种示例性实施例中,调用敏感词库,并利用所述敏感词库对所述目标短句进行过滤,以删除不符合预设规则所述目标短句。
[0029]在本公开的一种示例性实施例中,所述将所述目标短句加入搜索建议集合后,所述方法还包括:
[0030]统计目标监控周期内所述搜索建议集合中各短句的出现频率;
[0031]根据各所述短句对应的关注度信息、发表时间、所述短句中短文本的权重、以及基于所述短句识别的相关文章量,结合所述短句的出现频率对所述搜索建议集合中各所述短句进行排序。
[0032]根据本公开的一个方面,提供一种基于内容的搜索建议生成装置,包括:候选集生成模块,用于获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集;
[0033]短文本生成模块,用于基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本;
[0034]目标短句生成模块,用于对所述待分析短文本进行依存句法分析,以获取目标短句;
[0035]搜索建议集合处理模块,用于将所述目标短句加入搜索建议集合。
[0036]在本公开的一种示例性实施例中,所述候选集生成模块包括:
[0037]待处理文本获取模块,用于根据预设地址信息向目标地址读取所述待处理文本;
[0038]待处理文本处理模块,用于提取所述待处理文本中目标位置的文本内容作为短文本;其中,所述目标位置包括标题、副标题、摘要以及特殊标记内容中的任意一项或任意多项;以及
[0039]短文本筛选模块,用于识别所述待处理文本中正文部分长度大于预设阈值的文本内容作为所述短文本。
[0040]在本公开的一种示例性实施例中,所述装置还包括:
[0041]候选集预处理模块,用于根据所述短文本生成候选集后,根据预设关键词对所述候选集中各所述短文本进行匹配;并在所述短文本包含所述预设关键词时删除对应的所述短文本。
[0042]在本公开的一种示例性实施例中,所述短文本生成模块包括:
[0043]短文本权重计算模块,用于对所述候选集中各所述短文本进行切词处理,并根据切词处理结果对应的词频信息计算各所述短文本的权重;
[0044]短文本排序模块,用于根据权重对所述短文本进行排序,并根据排序结果筛选所述待分析短文本。
[0045]在本公开的一种示例性实施例中,所述目标短句生成模块包括:
[0046]词性分析模块,用于对所述待分析短文本进行切词处理以获取分词,并标记各所述分词对应的词性信息;
[0047]依存关系分析模块,用于基于各所述分词对应的词性信息对所述待分析短文本进行依存句法分析,以获取所述待分析短本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于内容的搜索建议生成方法,其特征在于,包括:获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本,并根据所述短文本生成候选集;基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本;对所述待分析短文本进行依存句法分析,以获取目标短句;将所述目标短句加入搜索建议集合。2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本,按预设规则对所述待处理文本进行识别以提取短文本包括:根据预设地址信息向目标地址读取所述待处理文本;提取所述待处理文本中目标位置的文本内容作为短文本;其中,所述目标位置包括标题、副标题、摘要以及特殊标记内容中的任意一项或任意多项;以及识别所述待处理文本中正文部分长度大于预设阈值的文本内容作为所述短文本。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述短文本生成候选集后,所述方法还包括:根据预设关键词对所述候选集中各所述短文本进行匹配;并在所述短文本包含所述预设关键词时删除对应的所述短文本。4.根据权利要求1所述的方法,其特征在于,所述基于所述候选集中短文本对应的词频信息计算各所述短文本的权重,并根据各所述短文本的权重进行排序,以筛选待分析短文本,包括:对所述候选集中各所述短文本进行切词处理,并根据切词处理结果对应的词频信息计算各所述短文本的权重;根据权重对所述短文本进行排序,并根据排序结果筛选所述待分析短文本。5.根据权利要求1或4所述的方法,其特征在于,所述对所述待分析短文本进行依存句法分析,以获取目标短句,包括:对所述待分析短文本进行切词处理以获取分词,并标记各所述分词对应的词性信息;基于各所述分词对应的词性信息...

【专利技术属性】
技术研发人员:田丰
申请(专利权)人:网易传媒科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1