检索项的生成方法及相关装置制造方法及图纸

技术编号:21628919 阅读:23 留言:0更新日期:2019-07-17 11:05
本申请提供了本申请提供了一种检索项的生成方法,该方法使用机器学习模型来确定检索词语中各个词的去留情况,机器学习模型是由具有目标词特征的检索词语样本训练而成的,相比现有的检索项的生成方法而言,目标词特征能反映词对查询结果重要程度,使用该种目标词特征训练而成的机器学习模型,对检索词语中词选择结果更加精确,从而生成更加准确的检索项,进而避免召回不相关的查询结果。另外,本申请还提供了用于生成检索项的相关装置,用以保证上述方法在实际中的实现及应用。

Generation Method of Retrieval Items and Related Devices

【技术实现步骤摘要】
检索项的生成方法及相关装置
本申请涉及检索
,更具体地,涉及检索项的生成方法及相关装置。
技术介绍
搜索,是指获得检索词语(query)后,按照一定的查询策略从网络中搜集与检索词语相匹配的信息,将信息组织及处理后进行展示等操作。具体地,在搜索时会对检索词语进行分词操作,得到若干独立的词(term),并检索与各个词相关的信息列表,再求取每个词所对应的信息列表的交集,从而得到召回文档。通常地,使用所有词的信息列表求交得到的召回文档数量过少且优质文档不能召回,因此需要对检索词语获得的词进行筛选,选择出用于检索的词,这些词的集合可以称为检索项,然后仅使用所选择的词的信息列表获得召回文档即可。目前在生成检索项时,选择的词准确度不高,容易造成召回文档与检索词语相关性较差的问题。
技术实现思路
有鉴于此,本申请提供了一种检索项的生成方法,使用该方法生成的检索项得到的查询结果准确度更高。第一方面,本申请提供了一种检索项的生成方法,包括:获得预先由检索词语样本训练得到的机器学习模型,其中所述检索词语样本包含词,所述词具有目标词特征,所述目标词特征用于表示所述词对查询结果的重要程度;获得目标检索词语,并确定所述目标检索词语中的词在所述目标词特征上的特征值;将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项。第二方面,本申请提供了一种检索项的生成装置,包括:机器学习模型获得单元,用于获得预先由检索词语样本训练得到的机器学习模型,其中所述检索词语样本包含词,所述词具有目标词特征,所述目标词特征用于表示所述词对查询结果的重要程度;目标词特征值获得单元,用于获得目标检索词语,并确定所述目标检索词语中的词在所述目标词特征上的特征值;检索项生成单元,用于将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项。第三方面,本申请提供了一种检索项的生成设备,包括:输入单元,用于输入检索词语样本;处理器,用于训练所述检索词语样本训练,以得到的机器学习模型,其中所述检索词语样本包含词,所述词具有目标词特征,所述目标词特征用于表示所述词对查询结果的重要程度;获得目标检索词语,并确定所述目标检索词语中的词在所述目标词特征上的特征值;以及将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项。由以上技术方案可知,本申请提供了一种检索项的生成方法,该方法使用机器学习模型来确定检索词语中各个词的去留情况,机器学习模型是使用具有目标词特征的检索词语样本训练而成的,相比现有的检索项的生成方法而言,目标词特征能反映词对查询结果重要程度的特征,使用该种目标词特征训练而成的机器学习模型,能够更加准确地确定检索词语中词的去留情况,从而生成更加准确的检索项,进而避免召回不相关的查询结果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1A及1B为使用不同的检索项得到的查询结果示意图;图2为本申请提供的检索项的生成方法的一种流程图;图3为本申请提供的检索词语的搜索量曲线的一种示意图;图4为本申请提供的训练集的生成方式的一种流程图;图5为本申请提供的检索词语的句法依存树的一种示意图;图6为本申请提供的词与其他词的紧密度特征的一种示意图;图7为本申请提供的检索项的生成装置的一种结构示意图;图8为本申请提供的检索项的生成装置的另一种结构示意图;图9为本申请提供的检索项的生成装置的又一种结构示意图;图10为本申请提供的检索项的生成设备的一种硬件结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。搜索,是指获得检索词语(query)后,按照一定的查询策略从网络中搜集与检索词语相匹配的信息,将信息组织及处理后进行展示等操作。其中,检索词语也可以称为搜索语句,搜集与检索词语相匹配的信息这一过程也可以称为召回文档。在搜索时,会对检索词语进行分词操作。若使用所有词召回文档,则所得到的文档数量过少且优质文档不能召回。例如,检索词语为“儿歌简谱大全100首”,分词结果包括“儿歌”“简谱”“大全”及“100首”。若使用所有的词检索,则召回文档如图1A所示,检索结果与检索词语相关性不高。在用户检索的场景中,用户检索体验较差。因此,为了保证召回文档的准确性,需要对检索词语获得的词进行筛选,选择出用于检索的词及可以丢弃的词。其中,用于检索的词可以称为必留词,丢弃的词可以称为非必留词;选择的过程可以称为查非必留词或查必留词;选择出的用于检索的词的集合可以称为查询项或检索项。在实际应用中,使用舍弃部分词后的检索项进行检索,会比使用完整的检索词语效果更好。可以理解的是,确定必留词及非必留词是检索中的一个重要步骤,确定结果准确与否能够决定召回文档是否优质。目前的检索项的生成方法,对哪些词属于必留词哪些词属于非必留词的判断准确度不高,生成的检索项不够准确,从而造成召回的文档也不够准确。究其原因,目前的检索项的生成方法,是根据词赋权得到每个词的权重,按照权重对词进行排序,然后结合模板及后验规则来判断哪些词可以保留,哪些词可以丢弃。例如,检索词语为“民国时期人物”,将该检索词语进行分词操作后得到的词包括“民国”“时期”及“人物”,其中词赋权方法为词“民国”设置的权重为0.8357,为词“时期”设置的权重为0.8045,为词“人物”设置的权重为0.3494,根据权重大小的排序,将词“民国”及词“时期”确定为必留词,将词“人物”确定为非必留词。在使用词赋权设置词权重时,该方法仅仅使用词的独立特征如词出现次数等对每个词进行判断,并未考虑词与词之间的联系性特征,因此导致词的去留结果不准确。在实际应用中,词的去留结果不准确的一种表现是,有意义的片段词语中的一部分被丢弃,这种情况会导致语义漂移,召回不相关文档。例如,检索词语为“怎样查看陌生人的朋友圈”,其分词结果包括“怎样”“查看”“陌生”“人”“的”“朋友”及“圈”。其中“朋友”和“圈”是两个紧密度比较高的词,目前的选择方法可能会出现丢弃“朋友”保留“圈”,或丢弃“圈”保留“朋友”的情况,从而出现语义漂移,检索到不相关文档。词的去留结果不准确的又一种表现是,一些对检索词语较为关键的词被丢弃,相反一些对检索词语并不关键的词被保留。以上述检索词语“民国时期人物”为例,从权重值上可知词“时期”比词“人物”被保留的可能性更大,但是依据人工经验可知“人物”这个词更应该被保留。对此,本申请提供了一种检索项的生成方法,该方法根据词对查询结果的重要程度来判断词的去留情况,在较大程度上提高了所生成的检索项的准确度,进而提高了检索结果的准确度。仍以图1A中的检索词语“儿歌简谱大全100首”为例,本申请针对该检索词语生成的检索项包括本文档来自技高网...

【技术保护点】
1.一种检索项的生成方法,其特征在于,包括:获得预先由检索词语样本训练得到的机器学习模型,其中所述检索词语样本包含词,所述词具有目标词特征,所述目标词特征用于表示所述词对查询结果的重要程度;获得目标检索词语,并确定所述目标检索词语中的词在所述目标词特征上的特征值;将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项。

【技术特征摘要】
1.一种检索项的生成方法,其特征在于,包括:获得预先由检索词语样本训练得到的机器学习模型,其中所述检索词语样本包含词,所述词具有目标词特征,所述目标词特征用于表示所述词对查询结果的重要程度;获得目标检索词语,并确定所述目标检索词语中的词在所述目标词特征上的特征值;将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项。2.根据权利要求1所述的检索项的生成方法,其特征在于,所述机器学习模型的训练方法包括:获得检索词语样本后,确定所述检索词语样本中的词的去留情况,所述去留情况用于表示所述词是否用于生成检索项;确定所述词在所述目标词特征上的特征值;对所述检索词语样本、所述词的去留情况及所述词的特征值进行训练后,得到所述机器学习模型。3.根据权利要求2所述的检索项的生成方法,其特征在于,所述确定所述词在所述目标词特征上的特征值,包括:获得依据语料生成的目标词特征值确定工具;使用所述目标词特征值确定工具,确定所述词在所述目标词特征上的特征值。4.根据权利要求2所述的检索项的生成方法,其特征在于,所述确定所述检索词样本中的词的去留情况,包括:获得所述检索词样本对应的召回文档;确定所述检索词样本中的词在所述召回文档中的特征;根据所述特征,确定所述检索词样本中的词的去留情况。5.根据权利要求4所述的检索项的生成方法,其特征在于,所述根据所述特征,确定所述检索词样本中的词的去留情况,包括:根据所述特征计算所述检索词样本中的词的分数,并根据所述分数确定所述词的去留情况。6.根据权利要求1所述的检索项的生成方法,其特征在于,所述将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语对应的检索项,包括:将所述目标检索词语及所述特征值输入至所述机器学习模型中,得到所述目标检索词语中的词的保留概率;根据所述保留概率,确定所述目标检索词语中的词的去留情况,其中必留的词的集合为检索项。7.根据权利要求1至6任意一项所述的检索项的生成方法,其特征在于,还包括:获得非机器学习模型为所述目标检索词语生成的修正检索项;使用所述修正检索项,对所述机器学习模型生成的检索项进行修正。8.根据权利要求7所述的检索项的生成方法,其特征在于,所述使用所述修正检索项,对所述机器学习模型生成的检索项进行修正,包括:判断所述机器学习模型确定为非必留的词是否被所述非机器学习模型确定为符合必留条件的词;若是,则将所述机器学习模型确定为非必留的词修正为必留。9.根据权利要求1所述的检索项的生成方法,其特征在于,所述目标词特征包括以下几项中的任意一项或多...

【专利技术属性】
技术研发人员:谢润泉连凤宗黄泽谦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1