This application relates to a method and device for generating target search terms. The method includes: obtaining a set of movie titles related to the alphabetical search sequence from the search log; obtaining a set of words based on the movie search text formed by the set of movie titles; calculating the weight of words corresponding to the movie title in the set of words relative to the movie search text, and rearranging the words according to the weight of the words. Name acquisition keywords, and calculation of the key degree of the co-occurrence phrases corresponding to the film and television search text in the word set; according to the key degree of the co-occurrence phrases obtained, the co-occurrence phrases containing keywords are extracted as the target search words. The method provided in this application can convert the user's input initials or Pinyin into Chinese target search words for film search.
【技术实现步骤摘要】
目标搜索词生成方法及装置、电子设备、存储介质
本申请涉及自然语言处理
,尤其涉及一种目标搜索词生成方法及装置、电子设备、计算机可读存储介质。
技术介绍
传统的影视搜索引擎是根据用户输入的中文搜索词进行影片搜索,并根据用户输入的大量历史搜索词构建推荐联想词库。与此相对应的,在用户输入中文搜索词进行影片搜索时,通过所构建的推荐联想词库生成更多的推荐搜索词,丰富了用户的搜索体验。但是在互联网电视平台的搜索引擎中,由于电视遥控器的输入操作不便,用户只能输入首字母和拼音进行影片搜索,不能直接输入中文,因此无法收集用户的中文搜索词输入,也无法通过构建中文的推荐联想词库来为用户生成更多的推荐搜索词,导致用户搜索体验不佳。因此,现有的互联网电视平台搜索引擎中仍存在因不能获取用户的中文搜索词输入,而导致无法构建中文的推荐联想词库,无法自动生成推荐搜索词的问题。
技术实现思路
基于上述技术问题,本申请提供一种目标搜索词生成方法及装置、电子设备、计算机可读存储介质。其中,本申请所采用的技术方案为:一种目标搜索词生成方法,包括:从搜索日志中获取与字母搜索序列相关的影片标题集合;根据所述影片标题集合所形成的影视搜索文本,获得词语集合;计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;根据所获得共现短语的关键程度,提取含有所述关键词的共现短语中为目标搜索词。进一步地,所述从搜索日志中获取与字母搜索序列相对应的影片标题集合,包括:获取与所述字母搜 ...
【技术保护点】
1.一种目标搜索词生成方法,其特征在于,所述方法包括:从搜索日志中获取与字母搜索序列相关的影片标题集合;根据所述影片标题集合所形成的影视搜索文本,获得词语集合;计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;根据所获得共现短语的关键程度,提取含有所述关键词的共现短语为目标搜索词。
【技术特征摘要】
1.一种目标搜索词生成方法,其特征在于,所述方法包括:从搜索日志中获取与字母搜索序列相关的影片标题集合;根据所述影片标题集合所形成的影视搜索文本,获得词语集合;计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,根据所述词语的权重排名获取关键词,以及计算所述词语集合中对应于所述影视搜索文本的共现短语相对所述影视搜索文本的关键程度;根据所获得共现短语的关键程度,提取含有所述关键词的共现短语为目标搜索词。2.根据权利要求1所述的方法,其特征在于,所述从搜索日志中获取与字母搜索序列相对应的影片标题集合,包括:获取与所述字母搜索序列相对应的搜索日志,所述搜索日志中包括对所述字母搜索序列进行历史搜索所得的影片标题;按照点击量排名对历史搜索所得的影片标题进行提取,获得所述影片标题集合。3.根据权利要求1所述的方法,其特征在于,所述根据所述影片标题集合所形成的影视搜索文本,获得词语集合,包括:为所述影片标题集合中每一影片标题添加分隔符,由所述影片标题集合中每一影片标题和所添加的分隔符组合形成所述影视搜索文本;以所述分隔符作为标识对所述影视搜索文本进行分割,获得分割语句;对所述分割语句进行分词处理和停用词过滤,将所获得的词语组合形成所述词语集合。4.根据权利要求1所述的方法,其特征在于,在所述从搜索日志中获取与字母搜索序列相对应的影片标题集合之前,所述方法还包括:获取影视库中各维度的影视信息;对所获取各维度的影视信息进行有效信息提取,获得基础词汇;将所述基础词汇和通用词典组合形成分词词典,所述分词词典用于为所述影视搜索文本所包含影片标题进行的分词处理提供分词依据。5.根据权利要求1所述的方法,其特征在于,所述计算所述词语集合中对应于所述影片标题的词语相对所述影视搜索文本的权重,包括:以所述词语集合中的每一词语为节点,且以所述词语在所述影视搜索文本中的共现关系为边构建词图;将各节点的初始权重在所述词图中进行迭代传播,直至各节点的权...
【专利技术属性】
技术研发人员:袁丽,徐钊,于松,王永选,杨梅,赵明,
申请(专利权)人:青岛聚看云科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。