检索项的生成方法及相关装置制造方法及图纸

技术编号：21628919 阅读：23 留言：0更新日期：2019-07-17 11:05

本申请提供了本申请提供了一种检索项的生成方法，该方法使用机器学习模型来确定检索词语中各个词的去留情况，机器学习模型是由具有目标词特征的检索词语样本训练而成的，相比现有的检索项的生成方法而言，目标词特征能反映词对查询结果重要程度，使用该种目标词特征训练而成的机器学习模型，对检索词语中词选择结果更加精确，从而生成更加准确的检索项，进而避免召回不相关的查询结果。另外，本申请还提供了用于生成检索项的相关装置，用以保证上述方法在实际中的实现及应用。

Generation Method of Retrieval Items and Related Devices

全部详细技术资料下载

【技术实现步骤摘要】
检索项的生成方法及相关装置
本申请涉及检索
，更具体地，涉及检索项的生成方法及相关装置。
技术介绍
搜索，是指获得检索词语(query)后，按照一定的查询策略从网络中搜集与检索词语相匹配的信息，将信息组织及处理后进行展示等操作。具体地，在搜索时会对检索词语进行分词操作，得到若干独立的词(term)，并检索与各个词相关的信息列表，再求取每个词所对应的信息列表的交集，从而得到召回文档。通常地，使用所有词的信息列表求交得到的召回文档数量过少且优质文档不能召回，因此需要对检索词语获得的词进行筛选，选择出用于检索的词，这些词的集合可以称为检索项，然后仅使用所选择的词的信息列表获得召回文档即可。目前在生成检索项时，选择的词准确度不高，容易造成召回文档与检索词语相关性较差的问题。
技术实现思路
有鉴于此，本申请提供了一种检索项的生成方法，使用该方法生成的检索项得到的查询结果准确度更高。第一方面，本申请提供了一种检索项的生成方法，包括：获得预先由检索词语样本训练得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值；将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项。第二方面，本申请提供了一种检索项的生成装置，包括：机器学习模型获得单元，用于获得预先由检索词语样本训练得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；目标词特征值...

【技术保护点】
1.一种检索项的生成方法，其特征在于，包括：获得预先由检索词语样本训练得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值；将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项。

【技术特征摘要】
1.一种检索项的生成方法，其特征在于，包括：获得预先由检索词语样本训练得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值；将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项。2.根据权利要求1所述的检索项的生成方法，其特征在于，所述机器学习模型的训练方法包括：获得检索词语样本后，确定所述检索词语样本中的词的去留情况，所述去留情况用于表示所述词是否用于生成检索项；确定所述词在所述目标词特征上的特征值；对所述检索词语样本、所述词的去留情况及所述词的特征值进行训练后，得到所述机器学习模型。3.根据权利要求2所述的检索项的生成方法，其特征在于，所述确定所述词在所述目标词特征上的特征值，包括：获得依据语料生成的目标词特征值确定工具；使用所述目标词特征值确定工具，确定所述词在所述目标词特征上的特征值。4.根据权利要求2所述的检索项的生成方法，其特征在于，所述确定所述检索词样本中的词的去留情况，包括：获得所述检索词样本对应的召回文档；确定所述检索词样本中的词在所述召回文档中的特征；根据所述特征，确定所述检索词样本中的词的去留情况。5.根据权利要求4所述的检索项的生成方法，其特征在于，所述根据所述特征，确定所述检索词样本中的词的去留情况，包括：根据所述特征计算所述检索词样本中的词的分数，并根据所述分数确定所述词的去留情况。6.根据权利要求1所述的检索项的生成方法，其特征在于，所述将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项，包括：将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语中的词的保留概率；根据所述保留概率，确定所述目标检索词语中的词的去留情况，其中必留的词的集合为检索项。7.根据权利要求1至6任意一项所述的检索项的生成方法，其特征在于，还包括：获得非机器学习模型为所述目标检索词语生成的修正检索项；使用所述修正检索项，对所述机器学习模型生成的检索项进行修正。8.根据权利要求7所述的检索项的生成方法，其特征在于，所述使用所述修正检索项，对所述机器学习模型生成的检索项进行修正，包括：判断所述机器学习模型确定为非必留的词是否被所述非机器学习模型确定为符合必留条件的词；若是，则将所述机器学习模型确定为非必留的词修正为必留。9.根据权利要求1所述的检索项的生成方法，其特征在于，所述目标词特征包括以下几项中的任意一项或多...

【专利技术属性】
技术研发人员：谢润泉，连凤宗，黄泽谦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人