目标搜索词生成方法及装置、电子设备、存储介质制造方法及图纸

技术编号:20566698 阅读:26 留言:0更新日期:2019-03-14 09:29
本申请涉及了一种目标搜索词生成方法及装置,所述方法包括:从搜索日志中获取与字母搜索序列相关的影片标题集合;根据影片标题集合所形成的影视搜索文本,获得词语集合;计算词语集合中对应于影片标题的词语相对影视搜索文本的权重,根据词语的权重排名获取关键词,以及计算词语集合中对应于影视搜索文本的共现短语相对影视搜索文本的关键程度;根据所获得共现短语的关键程度,提取含有关键词的共现短语为目标搜索词。采用本申请提供的方法能够将用户输入的首字母或者拼音转化为中文目标搜索词进行影片搜索。

Target Search Word Generation Method and Device, Electronic Equipment and Storage Media

This application relates to a method and device for generating target search terms. The method includes: obtaining a set of movie titles related to the alphabetical search sequence from the search log; obtaining a set of words based on the movie search text formed by the set of movie titles; calculating the weight of words corresponding to the movie title in the set of words relative to the movie search text, and rearranging the words according to the weight of the words. Name acquisition keywords, and calculation of the key degree of the co-occurrence phrases corresponding to the film and television search text in the word set; according to the key degree of the co-occurrence phrases obtained, the co-occurrence phrases containing keywords are extracted as the target search words. The method provided in this application can convert the user's input initials or Pinyin into Chinese target search words for film search.

【技术实现步骤摘要】
目标搜索词生成方法及装置、电子设备、存储介质
本申请涉及自然语言处理
,尤其涉及一种目标搜索词生成方法及装置、电子设备、计算机可读存储介质。
技术介绍
传统的影视搜索引擎是根据用户输入的中文搜索词进行影片搜索,并根据用户输入的大量历史搜索词构建推荐联想词库。与此相对应的,在用户输入中文搜索词进行影片搜索时,通过所构建的推荐联想词库生成更多的推荐搜索词,丰富了用户的搜索体验。但是在互联网电视平台的搜索引擎中,由于电视遥控器的输入操作不便,用户只能输入首字母和拼音进行影片搜索,不能直接输入中文,因此无法收集用户的中文搜索词输入,也无法通过构建中文的推荐联想词库来为用户生成更多的推荐搜索词,导致用户搜索体验不佳。因此,现有的互联网电视平台搜索引擎中仍存在因不能获取用户的中文搜索词输入,而导致无法构建中文的推荐联想词库,无法自动生成推荐搜索词的问题。
技术实现思路
基于上述技术问题,本申请提供一种目标搜索词生成方法及装置、电子设备、计算机可读存储介质。其中,本申请所采用的技术方案为:一种目标搜索词生成方法,包括:从搜索日志中获取与字母搜索序列相关的影片标题集合;根据所述影片标题集合所形成的影视搜索文本,获得词语集合;计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;根据所获得共现短语的关键程度,提取含有所述关键词的共现短语中为目标搜索词。进一步地,所述从搜索日志中获取与字母搜索序列相对应的影片标题集合,包括:获取与所述字母搜索序列相对应的搜索日志,所述搜索日志中包括对所述字母搜索序列进行历史搜索所得的影片标题;按照点击量排名对历史搜索所得的影片标题进行提取,获得所述影片标题集合。进一步地,所述根据所述影片标题集合所形成的影视搜索文本,获得词语集合,包括:为所述影片标题集合中每一影片标题添加分隔符,由所述影片标题集合中每一影片标题和所添加的分隔符组合形成所述影视搜索文本;以所述分隔符作为标识对所述影视搜索文本进行分割,获得分割语句;对所述分割语句进行分词处理和停用词过滤,将所获得的词语组合形成所述词语集合。进一步地,在所述从搜索日志中获取与字母搜索序列相对应的影片标题集合之前,所述方法还包括:获取影视库中各维度的影视信息;对所获取各维度的影视信息进行有效信息提取,获得基础词汇;将所述基础词汇和通用词典组合形成分词词典,所述分词词典用于为所述影视搜索文本所包含影片标题进行的分词处理提供分词依据。进一步地,所述计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,包括:以所述词语集合中的每一词语为节点,且以所述词语在所述影视搜索文本中的共现关系为边构建词图;将各节点的初始权重在所述词图中进行迭代传播,直至各节点的权重收敛,各节点所得权重的收敛值即为所对应词语相对所述影视搜索文本的权重。进一步地,所述计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度,包括:从所述词语集合中提取对应于所述影视搜索文本的共现短语,且计算各共现短语在所述影视搜索文本中的词频;根据所提取共现短语的总量和各共现短语的词频,计算各共现短语的互信息和左右熵,将所述互信息和所述左右熵之和作为各共现短语相对所述影视搜索文本的关键程度。更进一步地,从所述词语集合中提取对应于所述影视搜索文本的共现短语后,计算各共现短语在文本语料库中的词频,以根据所提取共现短语的总量和各共现短语的词频,计算各共现短语的互信息和左右熵。一种目标搜索词生成装置,包括:标题集合获取模块,用于从搜索日志中获取与字母搜索序列相关的影片标题集合;标题集合处理模块,用于根据所述影片标题集合所形成的影视搜索文本,获得词语集合;信息计算模块,用于计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;目标搜索词提取模块,用于根据所获得共现短语的关键程度,提取含有所述关键词的共现短语为目标搜索词。一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的目标搜索词生成方法。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的目标搜索词生成方法。在上述技术方案中,互联网电视平台获取由用户所输入首字母或者拼音组成的字母搜索序列后,通过上述目标搜索词生成方法生成与字母搜索序列相适应的中文目标搜索词,互联网电视平台搜索引擎则根据所生成的中文目标搜索词进行影片搜索。因此,通过本申请提供的方法,互联网电视平台能够将字母搜索序列转化为中文目标搜索词进行影片搜索,从而能够根据现有方法对这些中文目标搜索词构建推荐联想词库,并根据所构建的推荐联想词库来生成推荐搜索词,解决了现有互联网电视平台的搜索引擎因不能获取用户的中文搜索词输入而导致无法构建中文的推荐联想词库,无法自动生成推荐搜索词的问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并于说明书一起用于解释本申请的原理。图1是根据本申请所涉及的一种实施环境的示意图;图2是根据一示例性实施例示出的一种服务器的硬件框图;图3是根据一示例性实施例示出的一种互联网电视平台的界面示意图;图4是根据一示例性实施例示出的一种目标搜索词生成方法的流程图;图5是图4对应实施例中步骤330在一个实施例的流程图;图6是根据一示例性实施例示出的一种词图的示意图;图7是图4对应实施例中步骤330在另一个实施例的流程图;图8是根据一示例性实施例示出的一种目标搜索词生成装置的框图。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种实施环境的示意图。如图1所示,本专利技术的实施环境包括:用户端100和服务端200。在本专利技术中,用户端100具体为智能电视设备,其用于运行互联网电视平台客户端,并提供用户交互界面,以供用户进行影片搜索、影片观看或者其他互联网电视功能。服务端200包括若干服务器,用于存储海量数据,例如,服务端200存储有大量影片数据用以构建影视库、存储用户账号信息、存储用户的搜索日志等等。服务端200还用于从用户端100接收影片搜索请求,并根据所接收的搜索请求从影视库中进行影片搜索,并将搜索到的影片数据推送至用户端100。服务端200还可用于处理常见的与互联网电视平台相关的业务,例本文档来自技高网...

【技术保护点】
1.一种目标搜索词生成方法,其特征在于,所述方法包括:从搜索日志中获取与字母搜索序列相关的影片标题集合;根据所述影片标题集合所形成的影视搜索文本,获得词语集合;计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;根据所获得共现短语的关键程度,提取含有所述关键词的共现短语为目标搜索词。

【技术特征摘要】
1.一种目标搜索词生成方法,其特征在于,所述方法包括:从搜索日志中获取与字母搜索序列相关的影片标题集合;根据所述影片标题集合所形成的影视搜索文本,获得词语集合;计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;根据所获得共现短语的关键程度,提取含有所述关键词的共现短语为目标搜索词。2.根据权利要求1所述的方法,其特征在于,所述从搜索日志中获取与字母搜索序列相对应的影片标题集合,包括:获取与所述字母搜索序列相对应的搜索日志,所述搜索日志中包括对所述字母搜索序列进行历史搜索所得的影片标题;按照点击量排名对历史搜索所得的影片标题进行提取,获得所述影片标题集合。3.根据权利要求1所述的方法,其特征在于,所述根据所述影片标题集合所形成的影视搜索文本,获得词语集合,包括:为所述影片标题集合中每一影片标题添加分隔符,由所述影片标题集合中每一影片标题和所添加的分隔符组合形成所述影视搜索文本;以所述分隔符作为标识对所述影视搜索文本进行分割,获得分割语句;对所述分割语句进行分词处理和停用词过滤,将所获得的词语组合形成所述词语集合。4.根据权利要求1所述的方法,其特征在于,在所述从搜索日志中获取与字母搜索序列相对应的影片标题集合之前,所述方法还包括:获取影视库中各维度的影视信息;对所获取各维度的影视信息进行有效信息提取,获得基础词汇;将所述基础词汇和通用词典组合形成分词词典,所述分词词典用于为所述影视搜索文本所包含影片标题进行的分词处理提供分词依据。5.根据权利要求1所述的方法,其特征在于,所述计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,包括:以所述词语集合中的每一词语为节点,且以所述词语在所述影视搜索文本中的共现关系为边构建词图;将各节点的初始权重在所述词图中进行迭代传播,直至各节点的权...

【专利技术属性】
技术研发人员:袁丽徐钊于松王永选杨梅赵明
申请(专利权)人:青岛聚看云科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1