一种数据搜索方法、系统、电子设备及存储介质技术方案

技术编号：33623430 阅读：20 留言：0更新日期：2022-06-02 00:50

本发明专利技术提供了一种数据搜索方法、系统、电子设备及存储介质，涉及互联网技术领域，方法包括：获取待搜索数据，将待搜索数据输入预先训练好的识别模型进行待搜索词提取，获取待搜索词集；对待搜索词集中的待搜索词进行可视化显示，生成待搜索词图形；待搜索词图形被触发时，获取待搜索词图形对应的待搜索词在至少一个搜索引擎中的搜索结果集，搜索结果集包括至少一个搜索结果；获取搜索结果与对应的待搜索词之间的关联度，根据预设的打分规则和关联度，对搜索结果集进行打分，根据搜索结果集的分数，对搜索结果集进行排序与可视化显示，生成搜索结果集图形。本方法较好地满足了对大量资料或数据进行多搜索引擎搜索的需求，提升用户体验。户体验。户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据搜索方法、系统、电子设备及存储介质

[0001]本公开涉及互联网
，尤其涉及一种数据搜索方法、系统、电子设备及存储介质。

技术介绍

[0002]目前，对于大量资料，如多个待搜索词的搜索或查询，通常有手动查询和爬虫查询两种方式。其中，利用手动查询，需要在不同的搜索引擎网站，对待查询待搜索词一个个进行查询并记录查询结果，浪费需求者大量时间；而利用爬虫爬取互联网搜索引擎进行信息搜索，则很可能涉及搜索引擎网站的知识产权问题，导致用户进行大量资料搜索或查询的过程十分不便。其次，目前的网站搜索通常针对单一文本词汇进行搜索，不能较好地对大量文本和语音进行联合搜索，不能较好地满足用户需求。

技术实现思路

[0003]本公开提供了一种数据搜索方法、系统、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。
[0004]根据本公开的第一方面，提供了一种数据搜索方法，所述方法包括：获取待搜索数据；将所述待搜索数据输入预先训练好的识别模型进行待搜索词提取，获取待搜索词集；对所述待搜索词集中的待搜索词进行可视化显示，生成待搜索词图形；所述待搜索词图形被触发时，获取所述待搜索词图形对应的待搜索词在至少一个搜索引擎中的搜索结果集，所述搜索结果集包括至少一个搜索结果；获取所述搜索结果与对应的待搜索词之间的关联度，根据预设的打分规则和所述关联度，对所述搜索结果集进行打分，获取对应搜索结果集的分数；根据所述分数，对所述搜索结果集进行排序与可视化显示，生成搜索结果集图形，所述搜索结果集图形分别与搜索引擎和待搜...

【技术保护点】

【技术特征摘要】
1.一种数据搜索方法，其特征在于，所述方法包括：获取待搜索数据；将所述待搜索数据输入预先训练好的识别模型进行待搜索词提取，获取待搜索词集；对所述待搜索词集中的待搜索词进行可视化显示，生成待搜索词图形；所述待搜索词图形被触发时，获取所述待搜索词图形对应的待搜索词在至少一个搜索引擎中的搜索结果集，所述搜索结果集包括至少一个搜索结果；获取所述搜索结果与对应的待搜索词之间的关联度，根据预设的打分规则和所述关联度，对所述搜索结果集进行打分，获取对应搜索结果集的分数；根据所述分数，对所述搜索结果集进行排序与可视化显示，生成搜索结果集图形，所述搜索结果集图形分别与搜索引擎和待搜索词相对应。2.根据权利要求1所述的数据搜索方法，其特征在于，所述待搜索数据至少包括以下之一：文本数据和语音数据；所述识别模型至少包括以下之一：文本识别子模型和语音识别子模型。3.根据权利要求2所述的数据搜索方法，其特征在于，所述文本识别子模型的获取步骤包括：获取第一训练集，所述第一训练集包括：训练语句、训练词集、与所述训练语句相对应的第一真实语义标签、以及与所述训练词集相对应的第二真实语义标签；将所述训练语句和训练词集分别输入预设的第一语义识别网络进行语义识别，获取第一预测语义标签集和第二预测语义标签集，所述第一预测语义标签集包括至少一个第一预测语义标签，所述第二预测语义标签集包括至少一个第二预测语义标签，所述第一预测语义标签集与所述训练语句相对应，所述第二预测语义标签集与所述训练词集相对应；根据所述第一真实语义标签与第一预测语义标签之间的差距、以及第二真实语义标签与第二预测语义标签之间的差距，对所述第一语义识别网络进行迭代训练，获取所述文本识别子模型。4.根据权利要求2所述的数据搜索方法，其特征在于，所述语音识别子模型的获取步骤包括：获取第二训练集，所述第二训练集包括：语音样本数据、以及与所述语音样本数据相对应的第三真实语义标签；对所述语音样本数据进行降噪处理，获取降噪样本数据；将所述降噪样本数据输入预设的语音识别网络进行语音识别，获取语音文本；将所述语音文本输入预设的第二语义识别网络进行语义识别，获取第三预测语义标签集；根据所述第三真实语义标签和所述第三预测语义标签集中的第三预测语义标签之间的差距，对所述语音识别网络和所述第二语义识别网络进行联合训练，获取所述语音识别子模型。5.根据权利要求2所述的数据搜索方法，其特征在于，将待搜索数据输入预先训练好的识别模型进行待搜索词提取，获取待搜索词集的步骤包括：当所述待搜索数据为文本数据时，将所述文本数据输入所述文本识别子模型进行识别与预测，获取所述文本识别子模型输出的文本语义标签集，将所述文本语义标签集作为待
搜索词集；当所述待搜索数据为语音数据时，将所述语音数据输入所述语音识别子模型进行识别与预测，获取所述语音识别子模型输出的语音语义标签集，将所述语音语义标签集作为待搜索词集。6.根据权利要求5所述的数据搜索...

【专利技术属性】
技术研发人员：崔燕红，
申请(专利权)人：北京泰迪熊移动科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人