当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于深度学习的裁判文书文本纠错方法及系统技术方案

技术编号:24996872 阅读:57 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开了一种基于深度学习的裁判文书文本纠错方法,包括以下步骤:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果;根据关联词条处理文本错误检测结果得到纠错候选集;根据命名实体检测结果和纠错候选集进行纠错。本发明专利技术还公开了一种基于深度学习的裁判文书文本纠错系统。本发明专利技术对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致,并且避免了传统方法中过纠错和纠错不足的问题。

【技术实现步骤摘要】
一种基于深度学习的裁判文书文本纠错方法及系统
本专利技术涉及自然语言文本处理技术,具体涉及一种基于深度学习的裁判文书文本纠错方法及系统。
技术介绍
随着行业信息化建设的不断深入,大部分法院裁判文书都使用电子编辑,编辑过程中很容易造成文本编辑错误,包括但不限于:1、拼音拼写错误。2、字形相似导致错误。3、输入法提示导致错误。4、专业名次使用错误。5、多字错误。6、少字错误等常见错误类型。目前还没有专门针对裁判文书的文本纠错方法。目前其他领域文本纠错的主流方法均采用构建拼音音节、构建专业词典然后采用模糊匹配的方法纠错。这容易造成两个方面的问题,一是由于词典集太小,容易造成大部分错误不能准确找出,只能进行特定纠错;二是容易造成过度纠错,把本身正确的文本改成了错误的文本,这是由两方面造成的:1、模糊匹配,大量找到出的应该纠正的文本本身不存在错误。2、词典过大,包含的词太多,很容易命中原本没有错误的文本。
技术实现思路
本专利技术所要解决的技术问题是现有的法院裁判文书纠错技术中存在错误纠错不全或过度纠错,目的在于提供一种基于深度学习的裁判文书文本纠错方法及系统,解决上述问题。本专利技术通过下述技术方案实现:一种基于深度学习的裁判文书文本纠错方法,包括以下步骤:S1:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;S2:进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;S3:进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;S4:根据命名实体检测结果和纠错候选集进行纠错。本专利技术应用时,首先创造性的将裁判文书文本的错误分成了命名实体错误和文本错误(其他语言文字的错误)两类,这样可以有效降低过度纠错。对于命名实体错误,由于命名实体往往都是准确的可以确定的词汇,一般不存在同义词,所以检测后可以直接纠错,纠错可以通过自动纠错或提示人工进行纠错。对于文本错误,本专利技术采用错误检测模型的方式纠错,文本错误检测结果中的数据实际为存在错误的数据点,采用关联词条来生成纠错候选集的方式可以得到一批用于替换文本错误检测结果中的数据的词条,最终利用这些词条对可能存在错误的点纠错,可以提高纠错准确率和提高纠错效率。本专利技术对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致,并且避免了传统方法中过纠错和纠错不足的问题。进一步的,步骤S2包括以下子步骤:S21:定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;S22:标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;S23:采用实体识别模型对裁判文书文本进行命名实体检测得到命名实体检测结果。进一步的,步骤S3包括以下子步骤:按照句号分割裁判文书得到数据源;替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;标记替换内容得到替换数据源,利用替换数据源为样本训练,得到文本错误模型。进一步的,步骤S3还包括以下子步骤:根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。进一步的,步骤S4包括以下子步骤:提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;利用裁判文书样本集训练适用于裁判文书的语言模型;利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。一种基于深度学习的裁判文书文本纠错系统,包括:错误检测单元:用于将裁判文书文本中错误检测分为命名实体检测和文本错误检测;错误检测单元进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;错误检测单元进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;纠错单元:用于根据命名实体检测结果和纠错候选集进行纠错。进一步的,错误检测单元定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;采用实体识别模型对裁判文书文本进行命名实体检测得到命名实体检测结果。进一步的,错误检测单元按照句号分割裁判文书得到数据源;替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;标记替换内容得到替换数据源,利用替换数据源为样本训练得到文本错误模型。进一步的,错误检测单元根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。进一步的,纠错单元提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;利用裁判文书样本集训练适用于裁判文书的语言模型;利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。本专利技术与现有技术相比,具有如下的优点和有益效果:1、本专利技术一种基于深度学习的裁判文书文本纠错方法及系统专门针对裁判文书进行文本纠错,能有效减少法官裁判文书撰写中的文本错误及上下文不一致等问题;2、本专利技术一种基于深度学习的裁判文书文本纠错方法及系统根据已有的裁判文书得到的专业裁判文书词典;3、本专利技术一种基于深度学习的裁判文书文本纠错方法及系统对裁判文书全文做实体识别,进行进一步检测以避免上下文不一致;4、本专利技术一种基于深度学习的裁判文书文本纠错方法及系统利用深度学习模型进行错误检测,提升检测准确率,一定程度上的避免了传统方法中过纠错和纠错不足的问题。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:图1为本专利技术一种基于深度学习的裁判文书文本纠错方法流程示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例如图1所示,本专利技术一种基于深度学习的裁判文书文本纠错方法,包括以下步骤:S1:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;S2:进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;S3:进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;S4:根据命名实体检测结果和纠错候选集进行纠错。本实施例实施时,首先创造性的将裁判文书文本的错误分成了命名实体的错误和文本错误(其他的语言文字的错误)两类,这样可以有效降低过度纠错。对于命名实体错误,由于命名实体往往都是准确的可以确定的词汇,一般不存在同义词,所以检测后可以本文档来自技高网...

【技术保护点】
1.一种基于深度学习的裁判文书文本纠错方法,其特征在于,包括以下步骤:/nS1:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;/nS2:进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;/nS3:进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;/nS4:根据命名实体检测结果和纠错候选集进行纠错。/n

【技术特征摘要】
1.一种基于深度学习的裁判文书文本纠错方法,其特征在于,包括以下步骤:
S1:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;
S2:进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;
S3:进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;
S4:根据命名实体检测结果和纠错候选集进行纠错。


2.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S2包括以下子步骤:
S21:定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;
S22:标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;
S23:采用实体识别模型对所述裁判文书文本进行命名实体检测得到命名实体检测结果。


3.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S3包括以下子步骤:
按照句号分割裁判文书得到数据源;
替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;
标记替换内容得到替换数据源,利用替换数据源为样本训练;得到文本错误模型。


4.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S3还包括以下子步骤:
根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。


5.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S4包括以下子步骤:
提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;
利用裁判文书样本集训练适用于裁判文书的语言模型;
利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的...

【专利技术属性】
技术研发人员:李鑫王竹翁洋其他发明人请求不公开姓名
申请(专利权)人:四川大学成都数之联科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1