一种基于深度学习的规章制度检索方法及系统技术方案

技术编号:30429913 阅读:10 留言:0更新日期:2021-10-24 17:20
本发明专利技术公开了一种基于深度学习的规章制度检索方法与系统,该方法包括:1.获取用户输入的查询文本;2.获取查询文本的目标分词以及目标分词的属性;3.构建规章制度数据库;4.根据目标分词及其属性,在规章制度数据库中进行检索,并计算基于分词的匹配度X

【技术实现步骤摘要】
一种基于深度学习的规章制度检索方法及系统


[0001]本专利技术涉及计算机
,尤其是涉及一种基于深度学习的规章制度检索方法与系统。

技术介绍

[0002]目前规章制度(国家方面的法律法规、省级方面的规章条例、企业方面的规章制度)繁多,使得一般人难以熟悉这些规章制度,进而在某些事情突发的情况下难以快速地根据相关的规章制度进行处理。现有通用的搜索引擎其在规章制度检索方面未进行针对性优化,其在语义解析上有一定的偏差,检索出的效果较差,具体表现为没有专业全面的规章制度数据库以及基于语义层次的检索匹配。因此,开发一种以现有规章制度库以及深度学习为基础,针对某一检索词或语句所进行的智能检索方法与系统,具有极高的现实意义和应用价值。

技术实现思路

[0003]鉴于以上内容,本专利技术提出一种基于深度学习的规章制度检索方法与系统,其目的在于解决人们难以通过一般的搜索引擎根据关键字准确得到对应的规章制度的具体内容以及检索出的相关性差等技术问题。
[0004]为了实现上述专利技术的目的,本申请提出一种基于深度学习的规章制度检索方法,包括如下步骤:
[0005]第一方面,本专利技术提供一种基于深度学习的规章制度检索方法,其具体步骤如下:
[0006]S1.获取用户提供的查询文本,并将所述的查询文本输入中文文本分词模型,得到查询文本中的各目标分词;再将各目标分词输入中文文本依存句法分析模型,得到各目标分词的词性和属性。根据各目标分词的词性和属性对目标分词进行筛选。
[0007]S2.在规章制度数据库中进行检索,得到多条检索结果,并计算各检索结果的基于分词的匹配度X
n
后,筛选出符合要求的N条检索结果。
[0008]2‑
1.根据原始查询文本和步骤S1筛选出的目标分词检索出多条初步检索结果。初步检索结果中均包含document

content部分和document

title部分。document

content部分为检索结果的具体内容部分。document

title为检索结果所属段落的标题或副标题。将各初步检索结果输入步骤S1所述的中文文本分词模型和中文文本依存句法分析模型。得到各初步检索结果中的目标分词以及目标分词的词性和属性。
[0009]2‑
2.将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document

content部分中提取出的目标分词,分别输入无监督匹配算法,得到查询文本与各初步检索结果之间的基本匹配度A
n

[0010]将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document

title部分中提取出的目标分词,分别输入Jaccard相似度匹配算法,得到查询文本与各初步检索结果之间的附加匹配度B
n

[0011]2‑
3.分别计算查询文本与各初步检索结果之间基于分词的匹配度X
n
=c
·
A
n
+(0.5

c)
·
B
n
;其中,c为第一权重系数,其取值范围为0~0.5。根据基于分词的匹配度X
n
筛选出多条基于分词的检索结果。
[0012]S3.利用Bert

ESIM模型分别计算查询文本与步骤S2筛选出的基于分词的各条检索结果之间的基于完整语义的匹配度Y
n
。所述的Bert

ESIM文本相似度计算模型中包括改进的ESIM网络。改进的ESIM网络中使用余弦相似计算器替代Softmax组件。使用Bert中文文本特征提取器替代输入编码器。
[0013]S4.分别计算N条检索结果与查询文本的复合匹配度Z
n
=d
·
X
n
+(0.5

d)
·
Y
n
;其中,d为第二权重系数,其取值范围为0~0.5。按照复合匹配度Z
n
从大到小对N条检索结果进行排序并输出。
[0014]作为优选,所述目标分词的属性包括主语、谓语、宾语、定语、状语和补语。所述目标分词的词性包括名词、动词、形容词、副词、连词、实体词、介词、数量词、人名、地名和时间;
[0015]作为优选,步骤S1中,保留属于主语、谓语、宾语、实体词、时间、地点或数量词的目标分词。
[0016]作为优选,所述的中文文本分词模型采用多层Bi

GRU网络与CRF网络的结合网络。中文文本分词模型通过包括cwb2

data、人民日报数据集、SIGHAN Bakeoff2005、MSRA微软亚洲研究院数据集在内的中文分词数据集进行训练得到。中文文本分词模型的输入为中文文本,输出为该中文文本中的各目标分词以及各目标分词的属性和词性。
[0017]作为优选,所述的中文文本依存句法分析模型采用双层Bi

LSTM网络与MLP网络的组合网络。中文文本依存句法分析模型通过包括SemEval

2016、CoNLL、Penn Treebank、百度开源数据集在内的中文依存句法分析数据集进行训练得到;中文文本依存句法分析模型的输入为目标分词,输出为该目标分词在查询文本中的词性和属性。
[0018]作为优选,步骤2

1中,将各初步检索结果提取出的目标分词中属于介词、虚词、代词的部分筛除。
[0019]作为优选,步骤S2中所述的规章制度数据库包括:通过扫描实体规章制度书籍得到的规章制度数据,以及通过网络爬虫获取的法律法规。本地实体规章制度书籍在扫描后得到非结构化的图片数据。非结构化的图片数据利用OCR文字识别模型转化为结构化的规章制度数据;OCR文字识别模型由文本检测模型以及文本识别模型两部分构成,其中文本检测模型的主干网络采用MobileNet

small

50。文本识别模型采用双层Bi

LSTM网络和CTC网络的结合网络。OCR文字识别模型以ICDAR2019

LSVT、ICDAR2017

RCTW

17、中文街景文字识别、中文文档文字识别、ICDAR2019

ArT作为训练集和测试集;OCR文字识别模型的输入为图片,输出为图片中的文字内容以及文字的坐标。
[0020]作为优选,所述的Bert

ESIM文本相似度计算模型采用包括CCKS2018、Chinese SNLI MultiNLI、LCQMC、OCNLI、XNLI在内的中文文本匹配数据集作为训练集和测试集。
[0021]作为优选,所述的Bert
‑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的规章制度检索方法,其特征在于:S1.获取用户提供的查询文本,并将所述的查询文本输入中文文本分词模型,得到查询文本中的各目标分词;再将各目标分词输入中文文本依存句法分析模型,得到各目标分词的词性和属性;根据各目标分词的词性和属性对目标分词进行筛选;S2.在规章制度数据库中进行检索,得到多条检索结果,并计算各检索结果的基于分词的匹配度X
n
后,筛选出符合要求的N条检索结果;2

1.根据原始查询文本和步骤S1筛选出的目标分词检索出多条初步检索结果;初步检索结果中均包含document

content部分和document

title部分;document

content部分为检索结果的具体内容部分;document

title为检索结果所属段落的标题或副标题;将各初步检索结果输入步骤S1所述的中文文本分词模型和中文文本依存句法分析模型;得到各初步检索结果中的目标分词以及目标分词的词性和属性;2

2.将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document

content部分中提取出的目标分词,分别输入无监督匹配算法,得到查询文本与各初步检索结果之间的基本匹配度A
n
;将步骤S1中筛选出的查询文本的目标分词与每条初步检索结果的document

title部分中提取出的目标分词,分别输入Jaccard相似度匹配算法,得到查询文本与各初步检索结果之间的附加匹配度B
n
;2

3.分别计算查询文本与各初步检索结果之间基于分词的匹配度X
n
=c
·
A
n
+(0.5

c)
·
B
n
;其中,c为第一权重系数,其取值范围为0~0.5;根据基于分词的匹配度X
n
筛选出多条基于分词的检索结果;S3.利用Bert

ESIM模型分别计算查询文本与步骤S2筛选出的基于分词的各条检索结果之间的基于完整语义的匹配度Y
n
;所述的Bert

ESIM文本相似度计算模型中包括改进的ESIM网络;改进的ESIM网络中使用余弦相似计算器替代Softmax组件;使用Bert中文文本特征提取器替代输入编码器;S4.分别计算N条检索结果与查询文本的复合匹配度Z
n
=d
·
X
n
+(0.5

d)
·
Y
n
;其中,d为第二权重系数,其取值范围为0~0.5;按照复合匹配度Z
n
从大到小对N条检索结果进行排序并输出。2.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述目标分词的属性包括主语、谓语、宾语、定语、状语和补语;所述目标分词的词性包括名词、动词、形容词、副词、连词、实体词、介词、数量词、人名、地名和时间。3.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:步骤S1中,保留属于主语、谓语、宾语、实体词、时间、地点或数量词的目标分词。4.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述的中文文本分词模型采用多层Bi

GRU网络与CRF网络的结合网络;中文文本分词模型通过包括cwb2

data、人民日报数据集、SIGHANBakeoff2005、MSRA微软亚洲研究院数据集在内的中文分词数据集进行训练得到;中文文本分词模型的输入为中文文本,输出为该中文文本中的各目标分词以及各目标分词的属性和词性。5.根据权利要求1所述的一种基于深度学习的规章制度检索方法,其特征在于:所述的中文文本依存句法分析模型采用双层Bi

LSTM网络与MLP网络的组合网络;中文文本依存句
法分析模型通过包...

【专利技术属性】
技术研发人员:彭艳宏杨攀柯旭
申请(专利权)人:杭州初灵数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1