非结构化数据全文搜索方法、系统及计算机设备技术方案

技术编号:27742032 阅读:23 留言:0更新日期:2021-03-19 13:35
本申请涉及一种非结构化数据全文搜索方法、系统及计算机设备。该方法包括:将非结构化文件解析成半结构化信息,对半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果,并根据向量化结果进行召回处理,确定目标全文搜索结果;该方法不需要打开非结构化文件,也不需要将非结构化文件转换成结构化文件后,执行先获取预期搜索的目标文本信息对应的索引信息,再根据索引信息从非结构化文件中提取目标文本信息这样复杂的流程,可以将非结构化文件解析为半结构化文件后,进一步实现智能搜索直接获取,从而降低了非结构化数据全文搜索方法操作的复杂性,提高了非结构化数据的搜索效率。

【技术实现步骤摘要】
非结构化数据全文搜索方法、系统及计算机设备
本申请涉及信息搜索
,特别是涉及一种非结构化数据全文搜索方法、系统及计算机设备。
技术介绍
目前垂直搜索在各大门户,电子商务等网站均有比较广泛的应用,其主要采用结构化数据全文搜索给用户提供了更加垂直、直观的搜索服务,使得用户能在某一特定的网站上渐变、快捷、准确地获取自己需要的信息。而对于企事业单位、国家政府机关,其非结构化文件(如pdf文档、doc文档和ppt文档)居多,因此,需要提供一套完整的非结构化数据全文搜索的解决方案。传统技术中,将非结构化文件存储在网页端,通过预览搜索或者相应的格式软件程序进行搜索以实现非结构化数据全文搜索,获取预期搜索的目标文本信息对应的索引信息,进一步通过索引信息从非结构化文件中提取到目标文本信息。但是,传统的非结构化数据全文搜索方法操作复杂,导致非结构化数据的搜索效率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高非结构化数据搜索效率的非结构化数据全文搜索方法、系统及计算机设备。一种非结构化数据全文搜索方法,所述方法包括:将非结构化文件解析成半结构化信息;对所述半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果;根据所述向量化结果进行召回处理,确定目标全文搜索结果。在其中一个实施例中,所述向量结果包括向量化单元信息以及向量化关键信息;所述对所述半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果,包括:对所述半结构化信息进行向量化处理,得到所述向量化单元信息;对所述全文搜索的关键信息进行向量化处理,得到所述向量化关键信息。在其中一个实施例中,所述对所述半结构化信息进行向量化处理,得到向量化单元信息,包括:提取所述半结构化信息中的不同单元信息;根据不同单元信息进行向量化处理,得到所述向量化单元信息。在其中一个实施例中,所述根据不同单元信息进行向量化处理,得到所述向量化单元信息,包括:对不同单元信息进行预处理,得到预处理后的不同单元信息;对所述预处理后的不同单元信息进行向量化处理,得到所述向量化单元信息。在其中一个实施例中,所述方法还包括:接收全文搜索指令,其中,所述全文搜索指令携带所述全文搜索的关键信息;响应所述全文搜索指令。在其中一个实施例中,所述根据所述向量化结果进行召回处理,确定目标全文搜索结果,包括:对所述向量化单元信息和所述向量化关键信息进行相似度处理,得到初始全文搜索结果;对所述初始全文搜索结果进行排序处理,确定目标全文搜索结果。在其中一个实施例中,所述对所述初始全文搜索结果进行排序处理,确定目标全文搜索结果,包括:根据目标搜索信息,对所述初始全文搜索结果进行排序处理,获取所述目标全文搜索结果。在其中一个实施例中,所述方法还包括:将所述向量化单元信息存储至全文搜索引擎。一种非结构化数据全文搜索系统,所述系统包括:文件解析模块,用于将非结构化文件解析成半结构化信息;向量化模块,用于对所述半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果;召回模块,用于根据所述向量化结果进行召回处理,确定目标全文搜索结果。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:将非结构化文件解析成半结构化信息;对所述半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果;根据所述向量化结果进行召回处理,确定目标全文搜索结果。一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:将非结构化文件解析成半结构化信息;对所述半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果;根据所述向量化结果进行召回处理,确定目标全文搜索结果。上述非结构化数据全文搜索方法、系统、计算机设备及存储介质,该方法将非结构化文件解析成半结构化信息,对半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果,并根据向量化结果进行召回处理,确定目标全文搜索结果;该方法不需要打开非结构化文件,也不需要将非结构化文件转换成结构化文件后,执行先获取预期搜索的目标文本信息对应的索引信息,再根据索引信息从非结构化文件中提取目标文本信息这样复杂的流程,可以将非结构化文件解析为半结构化文件后,进一步实现智能搜索直接获取,从而降低了非结构化数据全文搜索方法操作的复杂性,提高了非结构化数据的搜索效率。附图说明图1为一个实施例中非结构化数据全文搜索的流程示意图;图2为另一个实施例中向量化处理的流程示意图;图3为另一个实施例中召回处理的具体流程示意图;图4为另一个实施例中全文搜索指令响应结果显示图;图5为另一个实施例中患者管理界面文件中显示的html格式的文本内容的展示图;图6为一个实施例中非结构化数据全文搜索系统的结构示意图;图7为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本实施例提供的非结构化数据全文搜索方法,可以适用于计算机设备中。可选的,非结构化数据全文搜索可以理解为不打开非结构化文件,对非结构化文件中的某一处内容进行搜索的过程。其中,上述计算机设备可以为智能手机、平板电脑、笔记本电脑、台式电脑或个人数字助理等具有信息处理功能的电子设备,本实施例对计算机设备的具体形式不做限定。需要说明的是,本申请实施例提供的非结构化数据全文搜索方法的应用环境可以为非结构化数据全文搜索系统,该系统可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例的执行主体以计算机设备为例来进行说明。在本实施例中,计算机设备可以安装Document2text插件,通过Document2text插件实现上述非结构化数据全文搜索方法;该Document2text插件可以为自定义的功能插件。图1为一实施例提供的非结构化数据全文搜索方法的流程示意图。本实施例涉及的是如何对非结构化文本进行全文搜索的实现过程,以该方法应用于计算机设备为例进行说明。如图1所示,该方法包括:S1000、将非结构化文件解析成半结构化信息。具体的,计算机设备可以先识别本地存储的每个非结构化文件的文本文件类型,然后利用Document2html算法将非结构化文件解析成半结构化信息。可选的,上述非结构化文件的文本文件类型可以理解为非结构化文件中的文本格式,即pdf类型、doc类型和ppt类型等。可选的,上述Document2html算法可以理解为文本文件类型对应的文本协议,该文本协议可以为pdf协本文档来自技高网...

【技术保护点】
1.一种非结构化数据全文搜索方法,其特征在于,所述方法包括:/n将非结构化文件解析成半结构化信息;/n对所述半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果;/n根据所述向量化结果进行召回处理,确定目标全文搜索结果。/n

【技术特征摘要】
1.一种非结构化数据全文搜索方法,其特征在于,所述方法包括:
将非结构化文件解析成半结构化信息;
对所述半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果;
根据所述向量化结果进行召回处理,确定目标全文搜索结果。


2.根据权利要求1所述的方法,其特征在于,所述向量结果包括向量化单元信息以及向量化关键信息;
所述对所述半结构化信息和全文搜索的关键信息进行向量化处理,得到向量化结果,包括:
对所述半结构化信息进行向量化处理,得到所述向量化单元信息;
对所述全文搜索的关键信息进行向量化处理,得到所述向量化关键信息。


3.根据权利要求2所述的方法,其特征在于,所述对所述半结构化信息进行向量化处理,得到向量化单元信息,包括:
提取所述半结构化信息中的不同单元信息;
对不同单元信息进行向量化处理,得到所述向量化单元信息。


4.根据权利要求3所述的方法,其特征在于,所述根据不同单元信息进行向量化处理,得到所述向量化单元信息,包括:
对不同单元信息进行预处理,得到预处理后的不同单元信息;
对所述预处理后的不同单元信息进行向量化处理,得到所述向量化单元信息。


5.根据权利要求2-4中任一项所述的方法,其特征在于,所述方法还包括:
接收全文搜...

【专利技术属性】
技术研发人员:高静谢国栋庄之中
申请(专利权)人:武汉联影医疗科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1