一种法律法规名称识别装置及方法制造方法及图纸

技术编号:28779304 阅读:16 留言:0更新日期:2021-06-09 11:10
本发明专利技术属于法律法规名称识别领域,尤其是一种法律法规名称识别装置及方法,针对现有的法律法规名称识别方法查全率低,通用性差问题,现提出如下方案,其装置包括依次连接的清洗模块、过滤模块、提取模块和识别模块,其方法包括以下步骤:S1:将长文本处理为标准短文本;S2:根据预设核心词库过滤标准短文本,获取核心短文本;S3:从核心短文本中分别提取显性法律法规名称和隐形法律法规名称对应的候选空间;S4:对候选空间进行依存句法分析,并结合分析结果识别满足预设条件的候选空间为法律法规名称,本发明专利技术查全率较高,具有较强的通用性,实用性和可操作性较强。实用性和可操作性较强。实用性和可操作性较强。

【技术实现步骤摘要】
一种法律法规名称识别装置及方法


[0001]本专利技术涉及法律法规名称识别
,尤其涉及一种法律法规名称识别装置及方法。

技术介绍

[0002]未登录词识别是自然语言处理领域的一项关键技术,对提升信息提取与检索、文本分类、文本推荐、智能问答、机器翻译等方面的应用效果具有重要作用。在对互联网信息、民众信访投诉内容、法律文书等文本进行分析挖掘时,常需要智能识别法律法规名称。法律法规名称属于未登录词,具有构成成分较为复杂、无法穷举、表述方式多样等特点。同时,由于目前国内较为常用的自然语言处理工具,如哈工大语言技术平台(LTP)、HanLP等,均未具备法律法规名称的识别功能,法律法规名称快速有效识别仍是政务、法律等领域的文本应用一个难题。
[0003]当前对于法律法规名称识别的通常采用文本匹配的方法,该方法的缺点较多,主要体现在:(1)法律法规识别的完整度与预设法律法规名称库的完整度成正比,而通常情况下难以获得全面、完整的法律法规名称库,因此本方法提取的法律法规名称查全率较低;(2)中文表述复杂多样,本方法无法识别出文本中简写、缩写的法律法规名称,通用性较差。
[0004]综上所述,当前法律法规名称识别方法查全率低,通用性差,因此我们提出了一种法律法规名称识别装置及方法,用来解决上述问题。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中存在当前法律法规名称识别方法查全率低,通用性差的缺点,而提出的一种法律法规名称识别装置及方法。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:
[0007]一种法律法规名称识别装置,包括依次连接的清洗模块、过滤模块、提取模块和识别模块,所述清洗模块,用于将长文本处理为标准化短文本;
[0008]过滤模块,用于根据预设核心词库过滤标准短文本,获取核心短文本;
[0009]提取模块,用于从核心短文本中分别提取显性法律法规名称和隐形法律法规名称对应的候选空间。
[0010]识别模块,对候选空间进行依存句法分析,并结合分析结果,识别满足预设条件的候选空间为法律法规名称。
[0011]本专利技术还提出了一种法律法规名称识别方法,包括以下步骤:
[0012]S1:将长文本处理为标准短文本;
[0013]S2:根据预设核心词库过滤标准短文本,获取核心短文本;
[0014]S3:从核心短文本中分别提取显性法律法规名称和隐形法律法规名称对应的候选空间;
[0015]S4:对候选空间进行依存句法分析,并结合分析结果识别满足预设条件的候选空
间为法律法规名称。
[0016]优选的,所述将长文本处理为标准短文本包括:根据中英文标点符号将长文本切割为短文本;去除短文本中无效字符,获得标准短文本,中英文标点符号通常包括句号、问号、感叹号,若长文本为群众投诉、互联网公开帖子或博文表述自由、较不规范的文本数据,还需考虑空格、逗号符号。
[0017]优选的,所述根据预设核心词库过滤标准短文本,获取核心短文本包括:利用正则表达式匹配各标准短文本,将包含任意一个预设核心词库中词汇或词组的短文本划分为核心短文本,预设核心词库由现有法律法规名称的结束词汇或结束词组构成。
[0018]优选的,所述S3中,所述显性法律法规名称指代在所述核心短文本中采用引号、括号、书名号标识的法律法规名称;所述隐形法律法规名称指代在所述核心短文本中未采用引号、括号、书名号标识的法律法规名称。
[0019]优选的,所述S3中,从核心短文本中提取显性法律法规名称的候选空间包括:截取核心短文中采用引号、括号、书名号标识的文本内容;判断文本内容是否满足以所述预设核心词库中任意一个词汇或词组结尾的条件,若满足条件,则文本内容作为显性法律法规名称的候选空间。
[0020]优选的,所述S3中,从核心短文本中提取隐性法律法规名称的候选空间包括:T1:根据预设句式模板库采用正则表达式提取核心短文本中非采用引号、括号、书名号标识的文本内容;T2:对上述文本内容分词并按照词汇在文本内容顺序存储分词结果;T3:预设候选空间包含词汇个数为N,分词结果中属于所述核心词库的最后一个词汇或词组的位置为M,截取分词结果中第M

N+1至第M位置的词汇并重新拼接,得到隐性法律法规名称的一个候选空间;T4:修改候选空间包含词汇个数的预设值N,重复上一过程获得隐性法律法规名称的若干候选空间。
[0021]优选的,所述S4中,对候选空间进行依存句法分析,得到各候选空间的句式结构;针对各核心短文本的显性法律法规名称的候选空间,若满足预设条件则识别为显性法律法规名称;针对各核心短文本的隐性法律法规名称的若干候选空间,选择满足预设条件且长度最大的候选空间为隐形法律法规名称,所述预设条件包括:法律法规名称的句式结构不包括主谓结构、主谓宾结构和动宾结构;法律法规名称的字数不超过某一预设值K;由于法律法规名称作为未登录词,是一个独立的词汇,因此不能出现主谓结构、主谓宾结构、动宾结构句子特有的结构,如候选空间[“国家颁布了新的继承法”]的句式结构为“主谓宾”,因此该候选空间不为独立的词汇,也不能构成法律法规名称;法律法规名称字数的界定可过滤许多缩写、简写后指代不明的候选空间,如[“相关条例”]、[“规定”];通常除“刑法”、“宪法”、“民法”、“水法”外,法律名称字数个数不少于3个,法律解释、行政法规、地方性法规、自治条例和单行条例、规章的名称字数不少于5个。
[0022]与现有技术相比,本专利技术的有益效果在于:
[0023](1)本专利技术同时针对显性法律法规名称和隐形法律法规名称进行识别,查全率较高;
[0024](2)本专利技术仅依赖少量法律法规名称样本用于生成预设句式模版库,对原始法律法规名称的依赖度不高,具有较强的通用性;
[0025](3)本专利技术最终识别的法律法规名称,以及显性法律法规名称所在的核心短文本
可进一步分别添加至预备法律法规库和文本语料库中,用于完善和补充预设模版库,即本专利技术所述方法可形成闭环,实用性和可操作性较强。
[0026]本专利技术查全率较高,具有较强的通用性,实用性和可操作性较强。
附图说明
[0027]图1为本专利技术提出的一种法律法规名称识别装置的结构示意图;
[0028]图2为本专利技术提出的一种法律法规名称识别方法的流程图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0030]图2是本专利技术实施例提供的一种法律法规名称识别方法的流程图,方法包括:
[0031]S1、将长文本处理为标准短文本;
[0032]其中,法律法规类型包括:法律、法律解释、行政法规、地方性法规、自治条例和单行条例、规章。
[0033]其中,将长文本处理为标准短文本包括:
[0034]根据中英文标点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种法律法规名称识别装置,包括依次连接的清洗模块、过滤模块、提取模块和识别模块,其特征在于,所述清洗模块,用于将长文本处理为标准化短文本;过滤模块,用于根据预设核心词库过滤标准短文本,获取核心短文本;提取模块,用于从核心短文本中分别提取显性法律法规名称和隐形法律法规名称对应的候选空间。识别模块,对候选空间进行依存句法分析,并结合分析结果,识别满足预设条件的候选空间为法律法规名称。2.一种法律法规名称识别方法,其特征在于,包括以下步骤:S1:将长文本处理为标准短文本;S2:根据预设核心词库过滤标准短文本,获取核心短文本;S3:从核心短文本中分别提取显性法律法规名称和隐形法律法规名称对应的候选空间;S4:对候选空间进行依存句法分析,并结合分析结果识别满足预设条件的候选空间为法律法规名称。3.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述将长文本处理为标准短文本包括:根据中英文标点符号将长文本切割为短文本;去除短文本中无效字符,获得标准短文本,中英文标点符号通常包括句号、问号、感叹号,若长文本为群众投诉、互联网公开帖子或博文表述自由、较不规范的文本数据,还需考虑空格、逗号符号。4.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述根据预设核心词库过滤标准短文本,获取核心短文本包括:利用正则表达式匹配各标准短文本,将包含任意一个预设核心词库中词汇或词组的短文本划分为核心短文本,预设核心词库由现有法律法规名称的结束词汇或结束词组构成。5.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述S3中,所述显性法律法规名称指代在所述核心短文本中采用引号、括号、书名号标识的法律法规名称;所述隐形法律法规名称指代在所述核心短文本中未采用引号、括号、书名号标识的法律法规名称。6.根据权利要求2所述的一种法律法规名称识别方法,其特征在于,所述S3中,从核心短文本中提取显性法律法规名称的候选空间包括:截取核心短文中采用引号、括...

【专利技术属性】
技术研发人员:张奥多张良均王宏刚施兴张玉虹张敏赵云龙刘名军莫济成周东平
申请(专利权)人:广东泰迪智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1