一种面向电子卷宗笔录文本的案件要素识别方法技术

技术编号：21362602 阅读：66 留言：0更新日期：2019-06-15 09:35

本发明专利技术涉及自然语言处理技术领域，一种面向电子卷宗笔录文本的案件要素识别方法，包括以下步骤：(1)电子卷宗数据预处理，(2)结合自定义词典进行分词和词性标注，(3)识别时间、物品、重量、金额四类案件要素，(4)识别人物、地点、机构三类案件要素。本发明专利技术方法充分考虑了不同案件要素的特点，有针对性地采取不同的处理方法，对于电子卷宗笔录这种特殊的文本，能在缺少人工标注数据的情况下，准确地对重要案件要素进行识别和标注，可以使用本发明专利技术的案件要素识别结果迭代产生高质量的标注数据，从而训练更加可靠的案件要素识别模型。

A Case Element Recognition Method Oriented to Electronic Record Text

The invention relates to the field of natural language processing technology, a case element recognition method for electronic file transcript text, including the following steps: (1) electronic file data preprocessing, (2) word segmentation and part-of-speech tagging combined with a custom dictionary, (3) identifying four types of case elements of time, goods, weight and amount, (4) identifying three types of case elements of persons, places and institutions. The method of the invention fully considers the characteristics of different case elements and adopts different processing methods. For the special text of electronic file record, it can accurately identify and annotate the important case elements in the absence of manual annotated data. The case element identification result of the invention can be used to iterate to produce high-quality annotated data, thereby training. Practice more reliable case element identification model.

全部详细技术资料下载

【技术实现步骤摘要】
一种面向电子卷宗笔录文本的案件要素识别方法
本专利技术涉及一种面向电子卷宗笔录文本的案件要素识别方法，属于自然语言处理

技术介绍
电子卷宗以电子文档的形式记录和保存案件办理过程中产生的所有卷宗，电子卷宗以其卷宗保密性强、统计分析方便、信息共享率高等特点，在我国司法系统中得到深入而广泛的应用。随着我国“智慧司法”信息化建设的不断推进，电子卷宗系统逐步完善，相应的电子卷宗数据也急剧增加。检察机关的办案人员需要审阅大量的电子卷宗，对电子卷宗数据的处理方式仍然是人工分析处理的方式，方法和手段极度落后，特别是在数据量激增的情况下，该方式已经无法满足现代检察工作的要求。显然，从电子卷宗数据中分析出办案人员所关注的时间、物品、重量、金额、人物、地点、机构这些案件要素，能够为笔录差异性分析、证据体系完整性分析等业务工作提供重要的支持信息，可以辅助办案人员快速阅卷和厘清案情，能进一步促进和提升基层检察院司法工作的效率与信息化应用水平。这使得面向电子卷宗笔录文本的案件要素识别成为电子卷宗智能处理和分析中一项重要的核心技术。本专利技术中的案件要素不同于司法术语中的案件要素，指在电子卷宗笔录文本中出现的时间、物品、重量、金额、人物、地点、机构类的语义要素。案件要素识别可以为电子卷宗智能分析的上层应用提供支撑。对于时间、物品、重量、金额可以使用词典结合规则的方法进行识别，对于人物、地点、机构可以使用命名实体识别的方法进行识别。但目前的命名实体识别多是面向科技文档、新闻报道等规范化的文本，而电子卷宗笔录文本具有语言表达口语化、语法不规范、语句形式多样等特点，因此现有的命名实...

【技术保护点】
1.一种面向电子卷宗笔录文本的案件要素识别方法，其特征在于包括以下步骤：步骤1、电子卷宗数据预处理：电子卷宗的数据格式为PDF，经预处理将其转为纯文本格式，并从中筛选出笔录文本，再对笔录文本进行数据清洗，具体包括以下子步骤:子步骤(a)、电子卷宗数据OCR识别，使用OCR识别软件对电子卷宗数据进行识别，将其由PDF格式转为TXT纯文本格式；子步骤(b)、筛选笔录文本，电子卷宗中包含笔录文本和其他文本，笔录文本的特征在于文本内容是若干个问答对，问句开头包括“问”，答句开头包括“答”，通过判断一个文档是否同时含有“问”、“答”两个字符串，确定该文档是否属于笔录文本，以此将笔录文本筛选出来；子步骤(c)、对笔录文本数据进行清洗，通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符；步骤2、结合自定义词典进行分词和词性标注：通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注，得到词序列和对应的词性序列集合，具体包括以下子步骤：子步骤(a)、自定义词典，包括物品名称词典、货币单位词典、重量单位词典，词典的格式为“词‑空格符‑词性”集合；子步骤(b)、将子步骤(a...

【技术特征摘要】
1.一种面向电子卷宗笔录文本的案件要素识别方法，其特征在于包括以下步骤：步骤1、电子卷宗数据预处理：电子卷宗的数据格式为PDF，经预处理将其转为纯文本格式，并从中筛选出笔录文本，再对笔录文本进行数据清洗，具体包括以下子步骤:子步骤(a)、电子卷宗数据OCR识别，使用OCR识别软件对电子卷宗数据进行识别，将其由PDF格式转为TXT纯文本格式；子步骤(b)、筛选笔录文本，电子卷宗中包含笔录文本和其他文本，笔录文本的特征在于文本内容是若干个问答对，问句开头包括“问”，答句开头包括“答”，通过判断一个文档是否同时含有“问”、“答”两个字符串，确定该文档是否属于笔录文本，以此将笔录文本筛选出来；子步骤(c)、对笔录文本数据进行清洗，通过正则表达式过滤掉除了汉字、中文标点、数字、英文标点和英文字母以外的其他字符；步骤2、结合自定义词典进行分词和词性标注：通过中文分词和词性标注工具对笔录文本数据进行分词和词性标注，得到词序列和对应的词性序列集合，具体包括以下子步骤：子步骤(a)、自定义词典，包括物品名称词典、货币单位词典、重量单位词典，词典的格式为“词-空格符-词性”集合；子步骤(b)、将子步骤(a)中的自定义的词典载入外部分词器，对笔录文本进行分词和词性标注，将物品名称短语的词性、货币单位短语的词性、重量单位短语的词性、时间短语的词性、数字短语的词性分别标注为nth、nc、nw、nt、m；子步骤(c)、将由子步骤(b)得到的分词和词性标注结果保存到列表里，保存格式为“词-,-词性”；步骤3、识别时间、物品、重量、金额四类案件要素：这四类案件要素具有明显的语法结构特征，使用词典结合规则的方法对其进行识别，具体包括以下子步骤：子步骤(a)、识别时间，时间由一个或多个时间短语组成，其时间短语的词性为nt，对步骤2中得到的分词和词性列表进行遍历，将连续且相邻的一个或多个时间短语识别为时间；子步骤(b)、识别物品，物品由一个或多个物品名称短语组成，其物品名称短语的词...

【专利技术属性】
技术研发人员：孙媛媛，刘海顺，李春楠，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人