搜索方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：25637280 阅读：28 留言：0更新日期：2020-09-15 21:29

本发明专利技术实施例提供了一种搜索方法、装置、电子设备及计算机可读存储介质，该方法包括：获取目标搜索词；根据预先建立的分词库，对所述目标搜索词进行分词处理，获得第一分词结果；在预先建立的数据库中，搜索与所述第一分词结果相匹配的数据；其中，所述分词库中的词语是采用机器学习方式，从用户的历史搜索记录中提取的目标词语，所述目标词语用于描述历史搜索词的搜索目标。因此，本发明专利技术的方案，能够在一定程度上解决基于目前的分词方法，在进行搜索时，搜索时间耗时较长，而且搜索结果精确度较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
搜索方法、装置、电子设备及计算机可读存储介质
本专利技术涉及计算机
，特别是涉及一种搜索方法、装置、电子设备及计算机可读存储介质。
技术介绍
一个信息流后台，其基于Elasticsearch(即一个基于Lucene(搜索引擎)的搜索服务器)提供了全库短视频的搜索，其中，使用者可以通过视频ID、视频标题等进行搜索。但是，基于Elasticsearch的默认中文分词算法，不但匹配的结果可能不是很准确，而且匹配的结果中很多可能就不是用户真正需要的，返回过多的结果也会使耗时比较久，用户体验很不好。比如，用户搜索的“机器学习算法视频教程”，就不应该返回只有“机器”或只含有“学习”或只含有“算法”等的结果，而是必须含有“机器学习算法”整个词的结果。但是，目前基于Elasticsearch的默认的中文分词算法(例如ik分词器)，“机器学习算法”会被分成多个词。由此可见，基于目前的分词方法，在进行搜索时，搜索时间耗时较长，而且搜索结果精确度较低。
技术实现思路
本专利技术实施例的目的在于提供一种搜索方法、装置、电子设备及计算机可读存储介质，以在一定程度上解决基于目前的分词方法，在进行搜索时，搜索时间耗时较长，而且搜索结果精确度较低的问题。具体技术方案如下：在本专利技术实施的第一方面，首先提供了一种搜索方法，包括：获取目标搜索词；根据预先建立的分词库，对所述目标搜索词进行分词处理，获得第一分词结果；在预先建立的数据库中，搜索与所述第一分词结果相匹配的数据；>其中，所述分词库中的词语是采用机器学习方式，从用户的历史搜索记录中提取的目标词语，所述目标词语用于描述历史搜索词的搜索目标。在本专利技术实施的又一方面，还提供了一种搜索装置，所述装置包括：搜索词获取模块，用于获取目标搜索词；第一分词模块，用于根据预先建立的分词库，对所述目标搜索词进行分词处理，获得第一分词结果；搜索模块，用于在预先建立的数据库中，搜索与所述第一分词结果相匹配的数据；其中，所述分词库中的词语是采用机器学习方式，从用户的历史搜索记录中提取的目标词语，所述目标词语用于描述历史搜索词的搜索目标。在本专利技术实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述所述的搜索方法。在本专利技术实施的又一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的搜索方法。在本专利技术实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的搜索方法。本专利技术实施例的搜索方法，通过收集用户的历史搜索记录，并基于机器学习方式，从用户的历史搜索记录中提取用于描述历史搜索词的搜索目标的词语，并由这些词语构建一分词库，从而在后续需要基于搜索词进行搜索时，可以根据该分词库对目标搜索词进行分词，然后按照分词结果，在预先建立的数据库中搜索所需的数据。其中，从历史搜索记录中提取的，用于描述历史搜索词的搜索目标的词语，表示的是用户的搜索需求，因而根据上述分词库对后续的目标搜索词进行分词处理时，可以按照用户的需要进行分词，在一定程度上避免了不合理分词，从而不会返回过多的搜索结果，则在一定程度上缩短了搜索时间，提高了搜索结果的精确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例提供的一种搜索方法的步骤流程图；图2为本专利技术实施例提供的另一种搜索方法的步骤流程图；图3为本专利技术实施例中分词库的创建过程的步骤流程图；图4为本专利技术的实施例的搜索方法的具体实施方式的流程示意图；图5为本专利技术实施例提供的一种搜索装置的框图；图6为本专利技术实施例提供的另一种搜索装置的框图；图7为本专利技术实施例提供的电子设备的框图。具体实施方式下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行描述。图1是本专利技术实施例提供的一种搜索方法。如图1所示，该搜索方法可以包括以下步骤：步骤101：获取目标搜索词。本专利技术的实施例，涉及的是搜索方法，因而在进行搜索时，需要获取用于进行搜素的目标搜索词。其中，目标搜索词是用户输入的文本信息，例如“机器学习算法视频教程”、“word应用视频教程”等。步骤102：根据预先建立的分词库，对所述目标搜索词进行分词处理，获得第一分词结果。所述分词库中的词语是采用机器学习方式，从用户的历史搜索记录中提取的目标词语，所述目标词语用于描述历史搜索词的搜索目标。其中，历史搜索记录中记录了用户基于某一搜索词的搜索目标是某一目标对象，例如用户A输入搜索词“机器学习算法视频教程”后，搜索结果中包括有视频名称里有“机器”二字的视频、视频名称里有“学习”二字的视频、视频名称里有“算法”二字的视频、视频名称里有“机器学习算法”六字的视频，而用户A只点击了视频名称里有“机器学习算法”六字的视频进行观看，则这条历史搜索记录：搜索词为“机器学习算法视频教程”，用户点击观看“机器学习算法”视频，则说明“机器学习算法视频教程”的搜索词的目的是为了搜索名称为“机器学习算法”的视频。因而，可以从历史搜索记录中，分析获得搜索词所要搜索的目标对象，进而可以从历史搜索记录中提取描述该目标对象的词语，例如从上述搜索词为“机器学习算法视频教程”，用户点击观看“机器学习算法”视频的历史搜索记录中，则可以提取“机器学习算法视频教程”搜索词所要搜索的目标对象-“机器学习算法”视频的名称，即“机器学习算法”。由此可知，从历史搜索记录中提取的，用于描述历史搜索词的搜索目标的词语，表示的是用户的搜索需求。因而，本专利技术的实施例，可以依据上述分词库对用户输入的目标搜索词进行合理分词，即依据用户的搜索需求进行分词，进而可以在一定程度上避免返回过多的搜索结果，则在一定程度上缩短搜索时间，提高搜索结果的精确度。步骤103：在预先建立的数据库中，搜索与所述第一分词结果相匹配的数据。其中，由于第一分词结果是根据上述分词库，对目标搜索词进行分词处理后得到的结果，且上述分词库中的词语表示的是用户的搜索需求，因而，第一分词结果是按照用户的搜索需求进行的合理分词，进而，根据第一分词结果在预先建立的数据库中进行搜索时，可以在一定程度上避免搜索用户并不需要的数据，从而缩短了搜索时间，提高了搜索结果的精确度。例如，目标搜索词是“机器学习算法视频教程”时，第一分词结果并不会将“机器”、“学习”、“算法”这三个词语分开，而是将“机器学习算法”作为一个完整的词语，则可以依据“机器学习算法”这个完整的词语在数据库中进行搜索，从而不会返回只包括“机器”一词的视频，也不会返回只包括本文档来自技高网...

【技术保护点】
1.一种搜索方法，其特征在于，所述方法包括：/n获取目标搜索词；/n根据预先建立的分词库，对所述目标搜索词进行分词处理，获得第一分词结果；/n在预先建立的数据库中，搜索与所述第一分词结果相匹配的数据；/n其中，所述分词库中的词语是采用机器学习方式，从用户的历史搜索记录中提取的目标词语，所述目标词语用于描述历史搜索词的搜索目标。/n

【技术特征摘要】
1.一种搜索方法，其特征在于，所述方法包括：
获取目标搜索词；
根据预先建立的分词库，对所述目标搜索词进行分词处理，获得第一分词结果；
在预先建立的数据库中，搜索与所述第一分词结果相匹配的数据；
其中，所述分词库中的词语是采用机器学习方式，从用户的历史搜索记录中提取的目标词语，所述目标词语用于描述历史搜索词的搜索目标。

2.根据权利要求1所述的搜索方法，其特征在于，所述分词库的建立过程包括：
获取用户的多条历史搜索记录，其中，所述历史搜索记录中包括历史搜索词和浏览结果，所述浏览结果是用户从所述历史搜索词的搜索结果中选择进行浏览的结果；
获取每一条所述历史搜索记录中，历史搜索词与浏览结果中的相同词语，并确定为候选词语；其中，一条历史搜索记录中的历史搜索词与浏览结果的所有相同词语组成一个候选词语；
获取所述候选词语中每一种候选词语的出现次数；
将出现次数大于第一预设阈值的候选词语，进行保存，形成所述分词库。

3.根据权利要求2所述的搜索方法，其特征在于，获取每一条所述历史搜索记录中，历史搜索词与浏览结果中的相同词语，并确定为候选词语之前，还包括：
从所述多条历史搜索记录中，剔除历史搜索词与浏览结果的相似度小于第二预设阈值的历史搜索记录。

4.根据权利要求3所述的搜索方法，其特征在于，所述从所述多条历史搜索记录中，剔除历史搜索词与浏览结果的相似度小于第二预设阈值的历史搜索记录，包括：
获取每一条所述历史搜索记录中的历史搜索词的第一特征向量以及浏览结果的第二特征向量；
计算所述第一特征向量和与其属于同一个历史搜索记录的第二特征向量之间的相似度；
将所述多条历史搜索记录中，小于所述第二预设阈值的相似度对应的历史搜索记录剔除。

5.根据权利要求2所述的搜索方法，其特征在于，所述获取每一条所述历史搜索记录中，历史搜索词与浏览结果中的相同词语，并确定为候选词语，包括：
采用预设分词算法，对每一条所述历史搜索记录中的历史搜索词进行分词处理，获得第二分词结果；
采用所述预设分词算法，对每一条所述历史搜索记录中的浏览结果进行分词处理，获得第三分词结果；
将所述第二分词结果和与其属于同一历史搜索记录的第三分词结果中相同的词语，组成一个候选词语。

6.根据权利要求2所述的搜索方法，其特征在于，所述获取每一条所述历史搜索记录中，历史搜索词与浏览结...

【专利技术属性】
技术研发人员：韩立伟，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人