基于自然语言处理的卫生监督执法数据检索系统及其方法技术方案

技术编号:26171081 阅读:28 留言:0更新日期:2020-10-31 13:41
本申请提供基于自然语言处理的卫生监督执法数据检索系统,包括输入模块、处理模块、检索模块、输出模块以及数据库;所述检索模块包括模糊检索模块和精确检索模块,其中,所述精确检索模块包括模糊字段和精确字段。本申请还包括一种基于自然语言处理的卫生监督执法数据检索系统的检索方法,步骤包括:将法律法规文本通过分词器分词;得到基于卫生监督执法的法律法规文本的深度学习算法模型;当用户选择模糊检索模式时,得到输入文本与数据库中卫生监督执法的法律法规每条文本之间的相似度;当选择精确检索模式时,根据得到的近义词和原词与卫生监督执法的法律法规文本进行匹配计数,找到相似度最高的文本内容。本申请提高了工作效率。

【技术实现步骤摘要】
基于自然语言处理的卫生监督执法数据检索系统及其方法
本申请涉及卫生监督执法数据检索领域,尤其是基于自然语言处理的卫生监督执法数据检索系统及其方法。
技术介绍
近年来,随着我国产业的多样化发展,每个产业领域的法律法规也在不断地补充完善。在越来越庞大的执法系统中,为了保证各个领域监督执法工作的有效进行,就要投入更多的人力资源,执法人员的培训成本也越来越高,另外如何在数量庞大的法律条例中准确找到产业领域相关的法律法规,提高执法效率,也是很大的问题。
技术实现思路
为解决上述问题,本申请提供一种基于自然语言处理的卫生监督执法数据检索系统,包括输入模块、处理模块、检索模块、输出模块以及数据库;所述数据库包括卫生监督执法的法律法规文本;所述处理模块包括分词器以及基于所述卫生监督执法的法律法规文本被分词器进行分词后建立的深度学习算法模型;所述检索模块包括模糊检索模块和精确检索模块,其中,所述精确检索模块包括模糊字段和精确字段。其中,优选的,基于自然语言处理的卫生监督执法数据检索系统还包括热词库模块。本文档来自技高网...

【技术保护点】
1.基于自然语言处理的卫生监督执法数据检索系统,包括输入模块、处理模块、检索模块、输出模块以及数据库;/n所述数据库包括卫生监督执法的法律法规文本;/n所述处理模块包括分词器以及基于所述卫生监督执法的法律法规文本被分词器进行分词后建立的深度学习算法模型;/n所述检索模块包括模糊检索模块和精确检索模块,其中,所述精确检索模块包括模糊字段和精确字段。/n

【技术特征摘要】
1.基于自然语言处理的卫生监督执法数据检索系统,包括输入模块、处理模块、检索模块、输出模块以及数据库;
所述数据库包括卫生监督执法的法律法规文本;
所述处理模块包括分词器以及基于所述卫生监督执法的法律法规文本被分词器进行分词后建立的深度学习算法模型;
所述检索模块包括模糊检索模块和精确检索模块,其中,所述精确检索模块包括模糊字段和精确字段。


2.如权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统,其中,基于自然语言处理的卫生监督执法数据检索系统还包括热词库模块。


3.如权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统,其中,所述输出模块包括检索结果以及法律法规文本详情。


4.一种使用权利要求1所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法,步骤包括:
S10,获取数据库中卫生监督执法的法律法规文本,将所述卫生监督执法的法律法规文本通过分词器分词,并将分词后的内容存入数据库中;
S20,利用中文语料库训练分词后的内容形成中文词向量,将所述中文词向量作为神经网络输入层的输入数据,根据word2vector模型算法,得到基于卫生监督执法的法律法规文本的深度学习算法模型;其中,神经网络的输出层的维度与输入层的维度相同,该模型定义的损失函数为交叉熵代价函数,使用梯度下降法更新权重矩阵,其中,损失函数的公式如下:



其中,y是输出层每一个词在字典中的one-hot编码表示,|V|为字典的总长度,yj为该词在输出层的输出结果。
S30,当用户选择模糊检索时,分词器将输入的文本进行分词,通过基于卫生监督执法的法律法规文本的深度学习算法模型,计算出输入文本与数据库中卫生监督执法的法律法规每条文本之间的相似度;
当选择精确检索时,将输入文本的精确字段的内容作为原词,获取模糊字段原词及其原词的近义词,根据得到的近义词和原词与
S40,找到相似度最高的法律法规文本内容。


5.如权利要求4所述的基于自然语言处理的卫生监督执法数据检索系统的检索方法,其中,S30步骤中,当用户选择模糊检索模式时,具体包括:
S301,判断用户输入的内容中是否有包括在数据库中法律法规文本中的罚款金额,若有,则把包括该罚款金额的法律法规文本作为第一候选集合;若没有;则还把数据库中所有法律法规文本作为第一候选集合;
S302,将用户输入的内容文本进行分词;
S303,通过gensim算法进行计算,...

【专利技术属性】
技术研发人员:徐宏伟丁学利王锡辉
申请(专利权)人:北京梦天门科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1