联想词的推荐方法、装置、电子设备及存储介质制造方法及图纸

技术编号:18763877 阅读:24 留言:0更新日期:2018-08-25 10:31
本发明专利技术实施例提供了联想词的推荐方法、装置、电子设备及存储介质,该方法包括:基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;检测在客户端输入的搜索关键词;在所述多个数据索引中召回所述搜索关键词对应的联想词;将所述联想词返回所述客户端进行展示。通过提出新的构建数据索引的方式,在不同的维度构建不同的数据索引,能够对字体编码混合输入等多种情况进行正确召回,提高了召回的准确率。

【技术实现步骤摘要】
联想词的推荐方法、装置、电子设备及存储介质
本专利技术涉及计算机处理的
,特别是涉及一种基于搜索的联想词的推荐方法、一种基于搜索的联想词的推荐装置、一种电子设备和一种计算机可读存储介质。
技术介绍
随着网络的迅速发展,网络信息急剧增加,用户为了在海量的网络信息中寻找所需的网络信息,通常在各网站中使用搜索关键词进行搜索。各网站接收到用户输入的搜索关键词,通常会对该搜索关键词进行联想,推荐相关的联想词给用户。目前,联想词主要采用Lucene、Solor、ES模块等现有的框架生成,但是,此方法针对特定场景和需求,在汉字和拼音混合输入的召回场景下,召回的准确率较低,召回的结果较少。
技术实现思路
本专利技术实施例提出了联想词的推荐方法、装置、电子设备及存储介质,以解决召回的准确率较低,召回的结果较少的问题。依据本专利技术的一个方面,提供了一种基于搜索的联想词的推荐方法,包括:基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;检测在客户端输入的搜索关键词;在所述多个数据索引中召回所述搜索关键词对应的联想词;将所述联想词返回所述客户端进行展示。可选地,所述基于兴趣点文本内容建立多个数据索引的步骤包括:将兴趣点文本内容重组为一个或多个目标文本;查询所述目标文本的拼音和所述拼音的首字母;采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。可选地,所述将兴趣点文本内容重组为一个或多个目标文本的步骤包括:对兴趣点文本内容进行分词,获得样本分词;对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。可选地,有限状态转移机包括多个节点,所述节点表示状态;所述采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引的步骤包括:将所述目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;对所述目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引;按照所述拼音的状态生成结构为有限状态转移机的拼音数据索引;按照所述首字母的状态生成结构为有限状态转移机的首字母数据索引。可选地,所述数据索引包括混编数据索引、拼音数据索引、首字母数据索引;所述在所述多个数据索引中召回所述搜索关键词对应的联想词的步骤包括:判断所述搜索关键词是否包含汉字;若是,则依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词;若否,则依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。可选地,所述依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:确定当前次召回的第一目标索引,所述第一目标索引在奇数次召回时为所述混编数据索引、在偶数次召回时为所述拼音数据索引;在所述第一目标索引中查找与所述搜索关键词匹配的目标文本;判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;若是,则输出召回的目标文本;若否,则在奇数次召回时、将所述搜索关键词转换为拼音,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行所述确定当前次召回的第一目标索引的步骤。可选地,所述依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:确定当前次召回的第二目标索引,所述第二目标索引在奇数次召回时为所述拼音数据索引、在偶数次召回时为所述首字母数据索引;在所述第二目标索引中查找与所述搜索关键词匹配的目标文本;判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;若是,则输出召回的目标文本;若否,则在奇数次召回时、从所述搜索关键词中提取首字母,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行所述确定当前次召回的第一目标索引的步骤。可选地,所述将所述联想词返回所述客户端进行展示的步骤包括:获取所述联想词的特征信息;将所述联想词的特征信息输入预置的点击期望模型,获得所述目标文本的评分信息;按照所述评分信息对所述联想词进行排序;将排序后的联想词返回所述客户端进行展示。可选地,所述点击期望模型通过如下方式训练:对所述数据索引中的目标文本标注是否点击;获取所述目标文本的特征信息;关联标注之后的目标文本与所述目标文本的特征信息,作为训练集;采用所述训练集训练点击期望模型。根据本专利技术的另一方面,提供了一种基于搜索的联想词的推荐装置,包括:数据索引建立模块,用于基于兴趣点文本内容的编码信息建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;搜索关键词检测模块,用于检测在客户端输入的搜索关键词;联想词召回模块,用于在所述多个数据索引中召回所述搜索关键词对应的联想词;联想词返回模块,用于将所述联想词返回所述客户端进行展示。可选地,所述数据索引建立模块包括:目标文本重组子模块,用于将兴趣点文本内容重组为一个或多个目标文本;拼音信息查询子模块,用于查询所述目标文本的拼音和所述拼音的首字母;有限状态转移机生成子模块,用于采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。可选地,所述目标文本重组子模块包括:分词单元,用于对兴趣点文本内容进行分词,获得样本分词;组合单元,用于对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。可选地,有限状态转移机包括多个节点,所述节点表示状态;所述有限状态转移机生成子模块包括:状态设置单元,用于将所述目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;混编数据索引生成单元,用于对所述目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引;拼音数据索引生成单元,用于按照所述拼音的状态生成结构为有限状态转移机的拼音数据索引;首字母数据索引生成单元,用于按照所述首字母的状态生成结构为有限状态转移机的首字母数据索引。可选地,所述数据索引包括混编数据索引、拼音数据索引、首字母数据索引;所述联想词召回模块包括:汉字判断子模块,用于判断所述搜索关键词是否包含汉字;若是,则调用第一依次召回子模块,若否,则调用第二依次召回子模块;第一依次召回子模块,用于依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词;第二依次召回子模块,用于依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。可选地,所述第一依次召回子模块包括:第一目标索引确定单元,用于确定当前次召回的第一目标索引,所述第一目标索引在奇数次召回时为所述混编数据索引、在偶数次召回时为所述拼音数据索引;第一目标文本查找单元,用于在所述第一目标索引中查找与所述搜索关键词匹配的目标文本;第一召回条件判断单元,用于判断是否满足预设的召回条件,若是,则调用第一目标文本输出单元,若否,则调用第一搜索关键词处理单元,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;第一目标文本输出单元,用于输出召回的目标文本;第一搜索关键词处理单元,用于在奇数次召回时、将所述搜索关键词转换为拼音,本文档来自技高网...

【技术保护点】
1.一种基于搜索的联想词的推荐方法,其特征在于,包括:基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;检测在客户端输入的搜索关键词;在所述多个数据索引中召回所述搜索关键词对应的联想词;将所述联想词返回所述客户端进行展示。

【技术特征摘要】
1.一种基于搜索的联想词的推荐方法,其特征在于,包括:基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;检测在客户端输入的搜索关键词;在所述多个数据索引中召回所述搜索关键词对应的联想词;将所述联想词返回所述客户端进行展示。2.根据权利要求1所述的方法,其特征在于,所述基于兴趣点文本内容建立多个数据索引的步骤包括:将兴趣点文本内容重组为一个或多个目标文本;查询所述目标文本的拼音和所述拼音的首字母;采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。3.根据权利要求2所述的方法,其特征在于,所述将兴趣点文本内容重组为一个或多个目标文本的步骤包括:对兴趣点文本内容进行分词,获得样本分词;对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。4.根据权利要求2所述的方法,其特征在于,有限状态转移机包括多个节点,所述节点表示状态;所述采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引的步骤包括:将所述目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;对所述目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引;按照所述拼音的状态生成结构为有限状态转移机的拼音数据索引;按照所述首字母的状态生成结构为有限状态转移机的首字母数据索引。5.根据权利要求1至4任一项所述的方法,其特征在于,所述数据索引包括混编数据索引、拼音数据索引、首字母数据索引;所述在所述多个数据索引中召回所述搜索关键词对应的联想词的步骤包括:判断所述搜索关键词是否包含汉字;若是,则依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词;若否,则依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。6.根据权利要求5所述的方法,其特征在于,所述依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:确定当前次召回的第一目标索引,所述第一目标索引在奇数次召回时为所述混编数据索引、在偶数次召回时为所述拼音数据索引;在所述第一目标索引中查找与所述搜索关键词匹配的目标文本;判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过...

【专利技术属性】
技术研发人员:陈振
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1