一种基于深度学习的裁判文书文本纠错方法及系统技术方案

技术编号：24996872 阅读：71 留言：0更新日期：2020-07-24 17:59

本发明专利技术公开了一种基于深度学习的裁判文书文本纠错方法，包括以下步骤：将裁判文书文本中错误检测分为命名实体检测和文本错误检测；进行命名实体检测时，定义专有名词，并检测裁判文书文本中的专有名词得到命名实体检测结果；进行文本错误检测时，利用文本错误模型检测裁判文书文本得到文本错误检测结果；根据关联词条处理文本错误检测结果得到纠错候选集；根据命名实体检测结果和纠错候选集进行纠错。本发明专利技术还公开了一种基于深度学习的裁判文书文本纠错系统。本发明专利技术对裁判文书全文做实体识别，进行进一步检测以避免上下文不一致，并且避免了传统方法中过纠错和纠错不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的裁判文书文本纠错方法及系统
本专利技术涉及自然语言文本处理技术，具体涉及一种基于深度学习的裁判文书文本纠错方法及系统。
技术介绍
随着行业信息化建设的不断深入，大部分法院裁判文书都使用电子编辑，编辑过程中很容易造成文本编辑错误，包括但不限于：1、拼音拼写错误。2、字形相似导致错误。3、输入法提示导致错误。4、专业名次使用错误。5、多字错误。6、少字错误等常见错误类型。目前还没有专门针对裁判文书的文本纠错方法。目前其他领域文本纠错的主流方法均采用构建拼音音节、构建专业词典然后采用模糊匹配的方法纠错。这容易造成两个方面的问题，一是由于词典集太小，容易造成大部分错误不能准确找出，只能进行特定纠错；二是容易造成过度纠错，把本身正确的文本改成了错误的文本，这是由两方面造成的：1、模糊匹配，大量找到出的应该纠正的文本本身不存在错误。2、词典过大，包含的词太多，很容易命中原本没有错误的文本。
技术实现思路
本专利技术所要解决的技术问题是现有的法院裁判文书纠错技术中存在错误纠错不全或过度纠错，目的在于提...

【技术保护点】
1.一种基于深度学习的裁判文书文本纠错方法，其特征在于，包括以下步骤：/nS1：将裁判文书文本中错误检测分为命名实体检测和文本错误检测；/nS2：进行命名实体检测时，定义专有名词，并检测裁判文书文本中的专有名词得到命名实体检测结果；/nS3：进行文本错误检测时，利用文本错误模型检测裁判文书文本得到文本错误检测结果，并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条；根据关联词条处理文本错误检测结果得到纠错候选集；/nS4：根据命名实体检测结果和纠错候选集进行纠错。/n

【技术特征摘要】
1.一种基于深度学习的裁判文书文本纠错方法，其特征在于，包括以下步骤：
S1：将裁判文书文本中错误检测分为命名实体检测和文本错误检测；
S2：进行命名实体检测时，定义专有名词，并检测裁判文书文本中的专有名词得到命名实体检测结果；
S3：进行文本错误检测时，利用文本错误模型检测裁判文书文本得到文本错误检测结果，并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条；根据关联词条处理文本错误检测结果得到纠错候选集；
S4：根据命名实体检测结果和纠错候选集进行纠错。

2.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法，其特征在于，步骤S2包括以下子步骤：
S21：定义专有名词，所述专有名词包括姓名，地名，机构名和/或法规法条；
S22：标注裁判文书文本中的专有名词，以标注后的裁判文书文本为样本训练实体识别模型；
S23：采用实体识别模型对所述裁判文书文本进行命名实体检测得到命名实体检测结果。

3.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法，其特征在于，步骤S3包括以下子步骤：
按照句号分割裁判文书得到数据源；
替换数据源中的词语；所述替换包括随机替换、同音字替换和/或形似字替换；
标记替换内容得到替换数据源，利用替换数据源为样本训练；得到文本错误模型。

4.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法，其特征在于，步骤S3还包括以下子步骤：
根据关联词条处理文本错误检测结果时，通过字音和/或字形得到纠错候选集。

5.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法，其特征在于，步骤S4包括以下子步骤：
提取命名实体检测结果中同类实体的编辑距离，并提示编辑距离超过阈值的实体；
利用裁判文书样本集训练适用于裁判文书的语言模型；
利用语言模型对纠错候选集中的文本评分，将评分最高的文本作为纠错后的...

【专利技术属性】
技术研发人员：李鑫，王竹，翁洋，其他发明人请求不公开姓名，
申请(专利权)人：四川大学，成都数之联科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人