一种用于政务数据的智能搜索方法、系统、设备及介质技术方案

技术编号:38523944 阅读:12 留言:0更新日期:2023-08-19 17:01
本发明专利技术公开了一种用于政务数据的智能搜索方法、系统、设备及介质,涉及计算机信息处理技术领域,该方法包括:步骤S1,获取针对于政务的搜索文本;步骤S2,根据所述搜索文本、预先建立的政务数据库集群和预先构建的政务领域词典,确定所述搜索文本中的实体词集合、目标指标和目标实体;步骤S3,根据所述实体词集合、所述目标指标和所述目标实体,构建所述搜索文本对应的查询语句;步骤S4,根据所述查询语句,确定所述搜索文本对应的搜索结果。本发明专利技术可以从政务数据库集群中快速确定搜索文本对应的搜索结果,对搜索文本的搜索速度快且搜索准确度高。高。高。

【技术实现步骤摘要】
一种用于政务数据的智能搜索方法、系统、设备及介质


[0001]本专利技术涉及计算机信息处理
,具体涉及一种用于政务数据的智能搜索方法、系统、设备及介质。

技术介绍

[0002]当前,政务领域数据量庞大,数据涉及的领域多、数据格式多,数据更新频繁,难以实现标准化、规模化和智能化。再加上政务数据专业名词多,难以理解业务和数据冗余,一个部门所需的业务往往需要进行多个领域的数据筛选和汇总。传统搜索方法效率低且不易用,已经无法满足日益增长的业务需求。

技术实现思路

[0003]本专利技术所要解决的技术问题为:对于针对于政务的搜索文本,现有的搜索方法对搜索文本的搜索效率低、搜索准确率低。为解决该技术问题,本专利技术提供了一种用于政务数据的智能搜索方法、系统、设备及介质。
[0004]本专利技术解决上述技术问题的技术方案如下:
[0005]一种用于政务数据的智能搜索方法,包括:
[0006]步骤S1,获取针对于政务的搜索文本;
[0007]步骤S2,根据所述搜索文本、预先建立的政务数据库集群和预先构建的政务领域词典,确定所述搜索文本中的实体词集合、目标指标和目标实体,所述政务数据库集群中存储有多个领域的政务数据的数据库表,每个所述领域的政务数据的数据库表对应一个所述数据库,每个所述数据库表中包括多列政务数据,每列所述政务数据对应一个字段,对于每个所述字段,所述字段为对应的列的标识,所述字段包括指标字段和非指标字段,所述目标指标为指标字段,所述目标实体为非指标字段,所述政务领域词典包括多个领域词典,每个所述数据库对应一个所述领域词典;
[0008]步骤S3,根据所述实体词集合、所述目标指标和所述目标实体,构建所述搜索文本对应的查询语句;
[0009]步骤S4,根据所述查询语句,确定所述搜索文本对应的搜索结果。
[0010]本专利技术的有益效果是:从政务数据特点出发,通过对搜索文本进行实体识别、目标指标匹配和目标实体匹配,高效、准确地确定搜索文本中的实体词集合、目标指标和目标实体,根据实体词集合中每个实体词、目标指标和目标实体及其各自在政务数据库集群中对应的字段,构建搜索文本对应的查询语句,根据查询语句,从政务数据库集群中对应的数据库表中快速确定搜索文本对应的搜索结果,无需在庞大的政务数据库集群包含的各个领域对应的数据库表中搜索,极大地减轻了搜索负担,提升了对搜索文本的搜索速度和搜索准确度,避免了由于无法理解用户真实意图,而不能搜索到符合用户真实意图的搜索结果,进而降低了搜索结果准确度的问题。
[0011]在上述技术方案的基础上,本专利技术还可以做如下改进。
[0012]进一步,所述步骤S3包括:
[0013]将所述实体词集合中的每个实体词、所述目标指标和所述目标实体分别作为一个目标字段值;
[0014]对于每个所述目标字段值,根据所述政务数据库集群,确定所述目标字段值对应的目标字段;
[0015]根据各个所述目标字段值和各个所述目标字段值中每个所述目标字段值对应的目标字段,构建所述搜索文本对应的查询语句。
[0016]采用上述进一步方案的有益效果是:根据目标字段值确定对应的目标字段,建立搜索文本对应的查询语句,并根据查询语句进行搜索,保证了得到搜索文本对应的搜索结果的效率。
[0017]进一步,所述方法还包括:
[0018]对于每个所述目标字段值,通过预先构建的政务知识图谱验证所述目标字段值与所述目标字段值对应的目标字段之间是否存在一致性;
[0019]对于每个所述目标字段值,若所述目标字段值与所述目标字段值对应的目标字段之间存在一致性,则将所述目标字段作为所述目标字段值对应的正确字段,若所述目标字段值与所述目标字段值对应的目标字段之间不存在一致性,则根据所述政务知识图谱和所述政务领域词典确定所述目标字段值对应的正确字段;
[0020]所述根据各个所述目标字段值和各个所述目标字段值中每个所述目标字段值对应的目标字段,构建所述搜索文本对应的查询语句,包括:
[0021]根据各个所述目标字段值和各个所述目标字段值中每个所述目标字段值对应的正确字段,构建所述搜索文本对应的查询语句。
[0022]采用上述进一步方案的有益效果是:通过利用知识图谱对目标字段值及其对应的目标字段进行一致性检测,避免了一种类型的数据可对应同一数据库表中包含的多个字段的问题,达到消除歧义的作用,保证了本方法确定搜索文本对应的搜索结果的准确度。
[0023]进一步,所述搜索文本包括实体词和非实体词;
[0024]所述步骤S2包括:
[0025]步骤S2.1,对所述搜索文本进行实体识别,得到所述搜索文本对应的实体词集合和非实体词集合;
[0026]步骤S2.2,根据所述非实体词集合和所述政务数据库集群,确定所述搜索文本对应的目标指标;
[0027]步骤S2.3,根据所述实体词集合和所述目标指标,确定所述搜索文本中的剩余文本集合,所述剩余文本集合为所述搜索文本中除所述实体词集合和所述目标指标之外对应的文本集合;
[0028]步骤S2.4,根据所述目标指标,确定所述搜索文本对应的目标数据库表和目标数据库,所述目标数据库表为所述目标指标对应的一个数据库表,所述目标数据库为所述目标数据库表对应的数据库;
[0029]步骤S2.5,根据所述剩余文本集合、所述目标数据库表和所述目标数据库,确定所述搜索文本对应的目标实体。
[0030]采用上述进一步方案的有益效果是:政务数据库集群中,各个数据库表的维度和
对应的业务逻辑不完全相同,存在同一指标字段对应多个数据库表的情况,通过根据目标指标,确定搜索文本对应的目标数据库表和目标数据库,以便于确定搜索文本对应的目标实体,提高对搜索文本的识别准确率。
[0031]进一步,所述步骤S2.2,包括:
[0032]步骤A1,通过预先构建好的相似文本自动生成模型,确定所述非实体词集合对应的文本矩阵和预设的指标数据集对应的二维指标矩阵,所述指标数据集为所述政务数据库集群中所有数据库表各自包含的指标字段的集合,所述二维指标矩阵中的每一个元素分别对应一个所述指标字段通过所述相似文本自动生成模型生成的相似文本,所述二维指标矩阵中的每一行元素分别对应一个所述指标字段对应的所有相似文本所形成的相似文本集合;对于每个所述指标字段,将所述指标字段对应的相似文本集合转化为所述指标字段对应的一维指标矩阵;
[0033]步骤A2,对于所述指标数据集中的每个所述指标字段,确定所述指标字段对应的一维指标矩阵与所述文本矩阵之间的第一相似度,根据各个所述第一相似度,确定所述指标数据集中是否存在所述第一相似度大于预设的第一相似阈值的待定指标;
[0034]步骤A3,若存在所述待定指标,则根据每个所述待定指标各自对应的第一相似度,确定目标指标;若不存在所述待定指标,则执行步骤A4;
[0035]步骤A4,对所述非实体词集合进行分词,得到非实体分词结果,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于政务数据的智能搜索方法,其特征在于,包括:步骤S1,获取针对于政务的搜索文本;步骤S2,根据所述搜索文本、预先建立的政务数据库集群和预先构建的政务领域词典,确定所述搜索文本中的实体词集合、目标指标和目标实体,所述政务数据库集群中存储有多个领域的政务数据的数据库表,每个所述领域的政务数据的数据库表对应一个所述数据库,每个所述数据库表中包括多列政务数据,每列所述政务数据对应一个字段,对于每个所述字段,所述字段为对应的列的标识,所述字段包括指标字段和非指标字段,所述目标指标为指标字段,所述目标实体为非指标字段,所述政务领域词典包括多个领域词典,每个所述数据库对应一个所述领域词典;步骤S3,根据所述实体词集合、所述目标指标和所述目标实体,构建所述搜索文本对应的查询语句;步骤S4,根据所述查询语句,确定所述搜索文本对应的搜索结果。2.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:将所述实体词集合中的每个实体词、所述目标指标和所述目标实体分别作为一个目标字段值;对于每个所述目标字段值,根据所述政务数据库集群,确定所述目标字段值对应的目标字段;根据各个所述目标字段值和各个所述目标字段值中每个所述目标字段值对应的目标字段,构建所述搜索文本对应的查询语句。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对于每个所述目标字段值,通过预先构建的政务知识图谱验证所述目标字段值与所述目标字段值对应的目标字段之间是否存在一致性;对于每个所述目标字段值,若所述目标字段值与所述目标字段值对应的目标字段之间存在一致性,则将所述目标字段作为所述目标字段值对应的正确字段,若所述目标字段值与所述目标字段值对应的目标字段之间不存在一致性,则根据所述政务知识图谱和所述政务领域词典确定所述目标字段值对应的正确字段;所述根据各个所述目标字段值和各个所述目标字段值中每个所述目标字段值对应的目标字段,构建所述搜索文本对应的查询语句,包括:根据各个所述目标字段值和各个所述目标字段值中每个所述目标字段值对应的正确字段,构建所述搜索文本对应的查询语句。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述搜索文本包括实体词和非实体词;所述步骤S2包括:步骤S2.1,对所述搜索文本进行实体识别,得到所述搜索文本对应的实体词集合和非实体词集合;步骤S2.2,根据所述非实体词集合和所述政务数据库集群,确定所述搜索文本对应的目标指标;步骤S2.3,根据所述实体词集合和所述目标指标,确定所述搜索文本中的剩余文本集合,所述剩余文本集合为所述搜索文本中除所述实体词集合和所述目标指标之外对应的文
本集合;步骤S2.4,根据所述目标指标,确定所述搜索文本对应的目标数据库表和目标数据库,所述目标数据库表为所述目标指标对应的一个数据库表,所述目标数据库为所述目标数据库表对应的数据库;步骤S2.5,根据所述剩余文本集合、所述目标数据库表和所述目标数据库,确定所述搜索文本对应的目标实体。5.根据权利要求4所述的方法,其特征在于,所述步骤S2.2,包括:步骤A1,通过预先构建好的相似文本自动生成模型,确定所述非实体词集合对应的文本矩阵和预设的指标数据集对应的二维指标矩阵,所述指标数据集为所述政务数据库集群中所有数据库表各自包含的指标字段的集合,所述二维指标矩阵中的每一个元素分别对应一个所述指标字段通过所述相似文本自动生成模型生成的相似文本,所述二维指标矩阵中的每一行元素分别对应一个所述指标字段对应的所有相似文本所形成的相似文本集合;对于每个所述指标字段,将所述指标字段对应的相似文本集合转化为所述指标字段对应的一维指标矩阵;步骤A2,对于所述指标数据集中的每个所述指标字段,确定所述指标字段对应的一维指标矩阵与所述文本矩阵之间的第一相似度,根据各个所述第一相似度,确定所述指标数据集中是否存在所述第一相似度大于预设的第一相似阈值的待定指标;步骤A3,若存在所述待定指标,则根据每个所述待定指标各自对应的第一相似度,确定目标指标;若不存在所述待定指标,则执行步骤A4;步骤A4,对所述非实体词集合进行分词,得到非实体分词结果,所述非实体分词结果包括多个短语;根据多个所述短语进行拼接处理,生成所述搜索文本对应的短句,每个所述短句为至少一个所述短语拼接后得到的文本;步骤A5,对于每个所述短句,根据所述短句与每个所述指标字段之间的第二相似度,确定目标指标。6.根据权利要求4所述的方法,其特征在于,对于每个...

【专利技术属性】
技术研发人员:黄明峰刘军王似巍杨云勇周万青王仕品饶梓立罗梦灵
申请(专利权)人:云上贵州大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1