用于确认搜索场景的数据处理方法、搜索方法及相应装置制造方法及图纸

技术编号:16175710 阅读:28 留言:0更新日期:2017-09-09 02:56
本发明专利技术实施例提供一种用于确认搜索场景的数据处理方法、搜索方法及相应装置,涉及数据处理以及搜索领域。其中,所述数据处理方法包括:建立第一数据集与第二数据集之间的初始数据映射;根据监督数据集调整所述初始数据映射,得到所述第一数据集与所述第二数据集之间的实际数据映射;基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据,确定所述第二数据集中的第二数据所映射的搜索场景。采用本发明专利技术,能够有效优化数据映射关系,改善映射的精准度,进而提高后续确定搜索场景的精准度;提升匹配效率,有效地提升匹配场景的广度,提高搜索结果的准确性。

【技术实现步骤摘要】
用于确认搜索场景的数据处理方法、搜索方法及相应装置
本专利技术实施例涉及数据处理以及搜索领域,更为具体而言,涉及一种用于确认搜索场景的数据处理方法、搜索方法及相应装置。
技术介绍
O2O电商平台近年来在互联网领域迅速发崛起,其中以餐饮配送为主的外卖领域发展最为迅速。用户通过在应用软件上搜索选择美食来完成消费,这一过程中必然涉及的一个核心功能就是搜索。不同于百度、GOOGLE等传统的通用文本搜索引擎,餐饮电商的搜索引擎需要通过特定的搜索场景和专业化的数据源展开搜索任务。例如,搜索“油条”,则对应的特定场景应该为早餐以及北方等。简单来说,搜索场景就是在挖掘用户搜索行为背后的信息,例如搜索“小龙虾”,对应的搜索场景就是“夏季、宵夜、多人聚会、海鲜”等一些信息,通过这些场景数据的“联想”,可以更精准地产出用户期待的结果。目前,基于餐饮领域知识的搜索场景识别技术在国内还处于摸索阶段。在工业界,由于餐饮领域垂搜起步晚且发展迅速,搜索场景识别的技术升级未能跟上需求的提升;而学界由于难以获得大规模高价值搜索数据,该领域研究进展也基本停滞。然而巨大的市场需求给餐饮领域搜索带来巨大压力。因此,精准且专业化的识别搜索场景就成了这一领域搜索引擎技术的核心优化方向。在一种现有技术中,餐饮领域垂直电商搜索的场景识别主要采用人工标记的方式完成。这种方式具有人力成本高、标记标准主观性强无法客观统一等缺陷。即使现有技术支持自动化方式,也难以保证搜索场景的精准且专业化的识别。
技术实现思路
为了解决现有技术所存在的缺陷,本专利技术实施例提供一种用于确认搜索场景的数据处理方法、搜索方法及相应装置,能够自动化、精准化地实现搜索场景的映射,改善搜索场景的识别准确度,提高搜索结果的精准度。第一方面,本专利技术实施方式中提供了一种用于确认搜索场景的数据处理方法,包括:建立第一数据集与第二数据集之间的初始数据映射,所述第一数据集包含多项第一数据,所述第二数据集包含多项第二数据;根据监督数据集调整所述初始数据映射,得到所述第一数据集与所述第二数据集之间的实际数据映射;基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据,确定所述第二数据集中的第二数据对应的搜索场景。在本专利技术实施方式的一种实现方式中,所述第一数据集为餐饮领域的场景特征库,所述第二数据集包括菜品数据和商户数据。在本专利技术实施方式的一种实现方式中,所述方法还包括:按照时间维度和地理维度处理第一数据源,得到所述第一数据集。或者,所述方法还包括:对监督数据源进行切词分析、词频分析、词干提取以及语义分析,得到所述监督数据集。在本专利技术实施方式的一种实现方式中,所述监督数据集中的监督数据除了包括短语名称,还包括权重和/或惩罚因子。进一步地,所述根据监督数据集调整所述初始数据映射,包括:采用文本匹配处理确定相互匹配的监督数据和第一数据;针对各项第二数据,基于与第二数据初始映射到的第一数据匹配的监督数据的权重,修改第二数据与其初始映射到的第一数据之间的映射关系,和/或,针对各项第二数据,基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子,调整第二数据初始映射到的第一数据的权重。在本专利技术实施方式的一种实现方式中,所述基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据,确定所述第二数据集中的第二数据对应的搜索场景,包括:针对各项第二数据,从实际映射至第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。第二方面,本专利技术实施方式中提供了一种搜索场景识别方法,该方法包括:对搜索项进行切词,得到搜索词;通过匹配处理确定第二数据集中与所述搜索词匹配的匹配数据;根据所述匹配数据所映射的搜索场景,确定所述搜索项对应的搜索场景;其中,所述第二数据集所映射的搜索场景采用前述数据处理方法确定。第三方面,本专利技术实施方式还提供一种搜索方法,包括:根据搜索项和第二数据集及所述第二数据集所映射的搜索场景,确定所述搜索项对应的搜索场景,其中,所述第二数据集所映射的所述场景采用前述数据映射方法确定(该步骤的输出结果是识别搜索场景,其具体可以通过上述第二方面实现);加载与所述搜索场景对应的数据文件,所述数据文件配置有召回数据的优化策略;根据所述数据文件对召回数据进行优化排序。第四方面,本专利技术实施方式中提供一种用于确认搜索场景的数据处理装置,包括:数据映射建立模块,用于建立第一数据集与第二数据集之间的数据映射,所述第一数据集包含多项第一数据,所述第二数据集包含多项第二数据;数据映射调整模块,用于根据监督数据集调整所述初始数据映射,得到所述第一数据集与所述第二数据集之间的实际数据映射;搜索场景映射模块,用于基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据,确定所述第二数据集中的第二数据对应的搜索场景。在本专利技术实施方式的一种实现方式中,所述第一数据集为餐饮领域的场景特征库,所述第二数据集包括菜品数据和商户数据。在本专利技术实施方式的一种实现方式中,所述装置还包括:第一数据处理模块,用于按照时间维度和地理维度处理第一数据源,得到所述第一数据集。或者,所述装置还包括:监督数据处理模块,用于对监督数据源进行切词分析、词频分析、词干提取以及语义分析,得到所述监督数据集。在本专利技术实施方式的一种实现方式中,所述监督数据集中的监督数据除了包括短语名称,还包括权重和/或惩罚因子。进一步地,所述数据映射调整模块包括:匹配子模块,用于采用文本匹配处理确定相互匹配的监督数据和第一数据;第一调整子模块,用于针对各项第二数据,基于与第二数据初始映射到的第一数据匹配的监督数据的权重,修改第二数据与其初始映射到的第一数据之间的映射关系,和/或,第二调整子模块,用于针对各项第二数据,基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子,调整第二数据初始映射到的第一数据的权重。在本专利技术实施方式的一种实现方式中,所述搜索场景映射模块具体用于:针对各项第二数据,从实际映射到第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。第五方面,本专利技术实施方式中提供一种搜索场景识别装置,包括:切词模块,用于对搜索项进行切词,得到搜索词;匹配模块,用于通过匹配处理确定第二数据集中与所述搜索词匹配的匹配数据;确定模块,用于根据所述匹配数据所映射的搜索场景,确定所述搜索项对应的搜索场景;其中,所述第二数据集所映射的场景采用前述数据映射方法确定。第六方面,本专利技术实施例中提供一种搜索装置,包括:场景确定模块,用于根据搜索项和第二数据集及所述第二数据集所映射的搜索场景,确定所述搜索项对应的搜索场景,其中,所述第二数据集所映射的场景采用前述数据映射方法确定(该模块的输出结果是识别搜索场景,其具体可以通过上述搜索场景识别装置实现);加载模块,用于加载与所述搜索场景对应的数据文件,所述数据文件配置有召回数据的优化策略;优化模块,用于根据加载的所述数据文件对召回数据进行优化排序。所述搜索场景识别装置和搜索装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,上述搜索场景识别装置或搜索装置的结构中包括处理器和存储本文档来自技高网...
用于确认搜索场景的数据处理方法、搜索方法及相应装置

【技术保护点】
一种用于确认搜索场景的数据处理方法,其特征在于,所述方法包括:建立第一数据集与第二数据集之间的初始数据映射,所述第一数据集包含多项第一数据,所述第二数据集包含多项第二数据;根据监督数据集调整所述初始数据映射,得到所述第一数据集与所述第二数据集之间的实际数据映射;基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据,确定所述第二数据集中的第二数据所映射的搜索场景。

【技术特征摘要】
1.一种用于确认搜索场景的数据处理方法,其特征在于,所述方法包括:建立第一数据集与第二数据集之间的初始数据映射,所述第一数据集包含多项第一数据,所述第二数据集包含多项第二数据;根据监督数据集调整所述初始数据映射,得到所述第一数据集与所述第二数据集之间的实际数据映射;基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据,确定所述第二数据集中的第二数据所映射的搜索场景。2.如权利要求1所述的方法,其特征在于,所述监督数据集中的监督数据包括权重和/或惩罚因子。3.如权利要求2所述的方法,其特征在于,所述根据监督数据集调整所述初始数据映射,包括:采用文本匹配处理确定相互匹配的监督数据和第一数据;针对各项第二数据,基于与第二数据初始映射到的第一数据匹配的监督数据的权重,修改第二数据与其初始映射到的第一数据之间的映射关系,和/或,针对各项第二数据,基于与第二数据初始映射到的第一数据匹配的监督数据的惩罚因子,调整第二数据初始映射到的第一数据的权重。4.如权利要求1-3中任一项所述的方法,其特征在于,所述基于所述第二数据集中的第二数据实际映射到的所述第一数据集中的第一数据,确定所述第二数据集中的第二数据对应的搜索场景,包括:针对各项第二数据,从实际映射至第二数据的第一数据中选取至少部分第一数据或所述至少部分第一数据的组合作为所述搜索场景。5.一种搜索方法,其特征在于,所述方法包括:根据搜索项和第二数据集及所述第二数据集所映射的搜索场景,确定所述搜索项对应的搜索场景,其中,所述第二数据集所映射的搜索场景采用如权利要求1-4中任一项所述的方法确定;加载与所述搜索场景对应的数据文件,所述数据文件配置有召回数据的优化策略;根据所述数据文件对召回数据进行优化排序。6.一种用于确认搜索场景的数...

【专利技术属性】
技术研发人员:吴霄梁东苟秋媛张潇
申请(专利权)人:北京小度信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1