基于技术关键词抽取的语义搜索方法、装置、设备及介质制造方法及图纸

技术编号:38016242 阅读:10 留言:0更新日期:2023-06-30 10:41
本发明专利技术涉及计算机技术的技术领域,尤其是涉及一种基于技术关键词抽取的语义搜索方法、装置、设备及介质,基于技术关键词抽取的语义搜索方法包括:获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。本申请具有提升对于语义检索的精确度的效果。索的精确度的效果。索的精确度的效果。

【技术实现步骤摘要】
基于技术关键词抽取的语义搜索方法、装置、设备及介质


[0001]本专利技术涉及计算机技术的
,尤其是涉及一种基于技术关键词抽取的语义搜索方法、装置、设备及介质。

技术介绍

[0002]目前,在用户搜索的场景当中,除了传统的关键词搜索之外,还包括了语义检索,根据用户输入的文字,识别该文字段落的语义后,再进行检索。
[0003]现有的语义检索中,尤其是通过语义检索去搜索相关的科技文献时,由于对于科技文献中,会包含很多具有相同含义的名词,然而对于用户的习惯,对相同的名词存在有不同的叫法。
[0004]上述中的现有技术方案存在以下缺陷:由于用户针对同一个技术名词有不同的叫法,且存在不同
的专有名词有相同的简称,或者相同的英文缩写,因此,用户基于自身语言体系在对科技文献进行语义检索时,容易导致搜索结果不够精确。

技术实现思路

[0005]为了提升对于语义检索的精确度,本申请提供一种基于技术关键词抽取的语义搜索方法、装置、设备及介质。
[0006]本申请的上述专利技术目的一是通过以下技术方案得以实现的:一种基于技术关键词抽取的语义搜索方法,所述基于技术关键词抽取的语义搜索方法包括:获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。/>[0007]通过采用上述技术方案,在用户进行语义搜索时,对待搜索文本数据分词后,根据得到的文本关键词匹配对应的待搜索领域信息,从而能够将用户输入的待搜索文本限定具体的科技领域,从而能够使得获取得到的领域关键词词库与待搜索文本数据关联度更高,从而能够在使用文本关键词在该领域关键词词库中进行匹配筛选时,得到的技术关键词更加准确,同时也能够丰富从待搜索文本数据中筛选匹配得到的技术关键词,进而提升根据该技术关键词对待搜索文本数据进行语义搜索的准确性。
[0008]本申请在一较佳示例中可以进一步配置为:在所述根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库的步骤之前,所述基于技术关键词抽取的语义搜索方法还包括:获取预设的
信息,并根据所述
信息获取对应的领域关键词,并
根据所述领域关键词获取关键词同义词组;根据所述领域关键词和对应的所述关键词同义词组组成每个所述
信息的
关键词词库。
[0009]通过采用上述技术方案,在根据文本关键词获取待搜索领域信息之前,先预设各个
信息,并统计每个
信息中对应的领域关键词,并进行拓展得到关键词同义词组,从而能够在使用
关键词词库进行技术关键词的筛选时,使用对应的同义词进行匹配筛选,从而提升了筛选的准确性。
[0010]本申请在一较佳示例中可以进一步配置为:所述根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库,具体包括:逐个计算每个所述文本关键词与所述
信息的所述
关键词词库的相似度分值;根据每个所述文本关键词的相似度分值,计算每个所述
信息相对于所述文本关键词的相似度总分,并将所述相似度总分最高的所述
信息作为所述待搜索领域信息。
[0011]通过采用上述技术方案,计算每个文本关键词与各个
信息的相似度分值,能够根据每个
关键词词库的相似度总分,筛选出与待搜索文本数据相似度最高的作为待搜索领域信息,从而提升了筛选得到的技术关键词的准确性。
[0012]本申请在一较佳示例中可以进一步配置为:所述使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词,具体包括:获取每个所述文本关键词在所述领域关键词库中的所述相似度分值;筛选所述相似度分值高于预设值的所述文本关键词,作为所述技术关键词。
[0013]通过采用上述技术方案,通过获取上述筛选待搜索领域信息时计算得到的相似度分值,与预设值进行比对,不仅能够准确地筛选出技术关键词,也能够有效提升数据的利用率,从而提升了筛选出技术关键词的效率。
[0014]本申请在一较佳示例中可以进一步配置为:所述根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果,具体包括:根据所述技术关键词的相似度分值计算对应的搜索权重;根据所述技术关键词和所述搜索权重进行语义搜索。
[0015]通过采用上述技术方案,利用筛选得到的技术关键词,以及对应的相似度分值,计算出对应的语义搜索的搜索权重,从而提升了语义搜索的准确度。
[0016]本申请的上述专利技术目的二是通过以下技术方案得以实现的:一种基于技术关键词抽取的语义搜索装置,所述基于技术关键词抽取的语义搜索装置包括:文本分词模块,用于获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;词库匹配模块,用于根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;技术词抽取模块,用于使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;语义搜索模块,用于根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。
[0017]通过采用上述技术方案,在用户进行语义搜索时,对待搜索文本数据分词后,根据得到的文本关键词匹配对应的待搜索领域信息,从而能够将用户输入的待搜索文本限定具体的科技领域,从而能够使得获取得到的领域关键词词库与待搜索文本数据关联度更高,从而能够在使用文本关键词在该领域关键词词库中进行匹配筛选时,得到的技术关键词更加准确,同时也能够丰富从待搜索文本数据中筛选匹配得到的技术关键词,进而提升根据该技术关键词对待搜索文本数据进行语义搜索的准确性。
[0018]本申请的上述目的三是通过以下技术方案得以实现的:一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于技术关键词抽取的语义搜索方法的步骤。
[0019]本申请的上述目的四是通过以下技术方案得以实现的:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于技术关键词抽取的语义搜索方法的步骤。
[0020]综上所述,本申请包括以下至少一种有益技术效果:1、在用户进行语义搜索时,对待搜索文本数据分词后,根据得到的文本关键词匹配对应的待搜索领域信息,从而能够将用户输入的待搜索文本限定具体的科技领域,从而能够使得获取得到的领域关键词词库与待搜索文本数据关联度更高,从而能够在使用文本关键词在该领域关键词词库中进行匹配筛选时,得到的技术关键词更加准确,同时也能够丰富从待搜索文本数据中筛选匹配得到的技术关键词,进而提升根据该技术关键词对待搜索文本数据进行语义搜索的准确性;2、在根据文本关键词获取待搜索领域信息之前,先预设各个技术本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于技术关键词抽取的语义搜索方法,其特征在于,所述基于技术关键词抽取的语义搜索方法包括:获取待搜索文本数据,对所述待搜索文本数据进行分词处理,得到文本关键词;根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库;使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词;根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果。2.根据权利要求1所述的基于技术关键词抽取的语义搜索方法,其特征在于,在所述根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库的步骤之前,所述基于技术关键词抽取的语义搜索方法还包括:获取预设的技术领域信息,并根据所述技术领域信息获取对应的领域关键词,并根据所述领域关键词获取关键词同义词组;根据所述领域关键词和对应的所述关键词同义词组组成每个所述技术领域信息的技术领域关键词词库。3.根据权利要求2所述的基于技术关键词抽取的语义搜索方法,其特征在于,所述根据所述文本关键词获取待搜索领域信息,根据所述待搜索领域信息获取预设的领域关键词词库,具体包括:逐个计算每个所述文本关键词与所述技术领域信息的所述技术领域关键词词库的相似度分值;根据每个所述文本关键词的相似度分值,计算每个所述技术领域信息相对于所述文本关键词的相似度总分,并将所述相似度总分最高的所述技术领域信息作为所述待搜索领域信息。4.根据权利要求3所述的基于技术关键词抽取的语义搜索方法,其特征在于,所述使用所述文本关键词在所述领域关键词词库进行匹配筛选,得到技术关键词,具体包括:获取每个所述文本关键词在所述领域关键词库中的所述相似度分值;筛选所述相似度分值高于预设值的所述文本关键词,作为所述技术关键词。5.根据权利要求4所述的基于技术关键词抽取的语义搜索方法,其特征在于,所述根据所述技术关键词对所述待搜索文本数据进行语义搜索,得到对应的搜索结果,具体包括:根据所述技术关键词的相似...

【专利技术属性】
技术研发人员:黄威威李成翰刘美圆朱梓延
申请(专利权)人:企知道产学研科技成果转化深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1