当前位置: 首页 > 专利查询>南京大学专利>正文

一种面向裁判文书的文本标注方法技术

技术编号:20485286 阅读:39 留言:0更新日期:2019-03-02 19:08
本发明专利技术公开了一种面向裁判文书的文本标注方法,包括以下步骤:从裁判文书文本中分段抽取与文本分割,形成Excel格式的待标注数据文件;管理员登录与待标注数据导入;管理员创建普通用户;管理员创建待标注项目与为普通用户分配待标注数据;普通用户登录与提交标注;管理员导出标注后的数据。本发明专利技术加强了对项目参与人员的管理,采用输入序号分配文本的设计,集成了标注任务分配、标注数据采集和导出的功能,提高了面向裁判文书的文本标注的工作效率。

【技术实现步骤摘要】
一种面向裁判文书的文本标注方法
本专利技术涉及一种面向裁判文书的文书标注方法,属于大数据挖掘

技术介绍
降低司法成本,提高司法效率一直是中国司法改革进程的主旋律。随着大数据时代的到来,如何利用大数据技术对司法审判中产生的海量数据进行采集、分析、整理、归类,充分利用好案件数据信息,挖掘数据价值,让信息技术为司法审判和经济社会发展服务成为一项值得研究的重要课题。在司法审判中,裁判文书作为法律审判活动记录的载体,完整反映了当事人主张、举证的客观构成,并全面阐述了裁判文书结果形成的法律依据、事实证据和推理过程。截止2018年7月,已有超过4800万份裁判文书被收录并公布于中国裁判文书网。如今大数据战略已成为我国的重要发展战略,我国开始全面实施促进大数据发展行动。与此同时,人民法院也在大力推进智慧法院建设,以充分利用案件数据信息,让大数据为司法审判和经济社会发展服务。研究裁判文书中事实和法条的关系是法院人工智能领域大有可为的课题。一方面可以为法官推荐案件可能适用的法条,提高法官的工作效率。另一方面法条推荐可以帮助当事人了解同类案件的诉讼结果和相关法条,形成最佳的诉讼策略,节约法律咨询和诉讼的成本。而由于该研究领域的特殊性,在学术界并没有相关的公开数据集,需要准备大量的人工标注数据集。传统的文书标注方法存在难于管理和统计的问题,本专利技术就是为解决这一问题而产生的。本专利技术不仅为法条推荐等相关工作提供了研究数据集,而且还便于管理和统计数据集。面向裁判文书的文书标注方法对于法条推荐等相关研究工作的价值体现在,一方面面向裁判文书的文书标注方法可以为法条推荐提供数据集,有利于法条推荐相关研究工作的展开。一方面与传统的文书标注相比,本文的面向裁判文书的文书标注方法可以更科学地统计和管理数据,节省了大量的时间和精力。
技术实现思路
本专利技术是一种面向裁判文书的文本标注方法,提供一种裁判文书文本预处理的方法,包括对裁判文书文本中抽取与文本分割,待标注数据导入,待标注项目分配,用户登录与提交标注,导出标注后的数据。该方法能为法条推荐等研究工作提供大量的文本标注数据集,并对得到数据集进行相关的统计和管理,节省大量时间和精力。1.一种面向裁判文书的文本标注方法,其特征在于包含以下步骤:步骤(1)从裁判文书文本中分段抽取与文本分割,形成Excel格式的待标注数据文件;步骤(2)登录与待标注数据导入;步骤(3)创建普通用户;步骤(4)创建待标注项目与为普通用户分配待标注数据;步骤(5)登录与提交标注;步骤(6)登录与标注后的数据导出;2.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(1)中从裁判文书文本中分段抽取与文本分割,形成Excel格式的待标注数据文件。具体子步骤包括:步骤(1.1)文书结构化;步骤(1.2)抽取文书的事实段与所引法条列表;步骤(1.3)建立文书事实集;步骤(1.4)建立引用法条正文集;步骤(1.5)创建文书标注表格。3.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(2)中登录与待标注数据导入。具体子步骤包括:步骤(2.1)打开登录页面,使用管理员账号登录,进入文本标注系统;步骤(2.2)进入导入Excel页面;步骤(2.3)选择本地保存的需要导入的Excel格式的待标注数据文件,进行导入。4.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(3)中创建普通用户。具体子步骤包括:步骤(3.1)在管理员账号登录情况下,进入查看用户页面;步骤(3.2)创建普通用户,设置该用户的用户名和密码。5.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(4)中创建待标注项目与为普通用户分配待标注数据。具体子步骤包括:步骤(4.1)在管理员账号登录情况下,进入查看项目页面;步骤(4.2)创建新项目,设置项目名称;步骤(43)进入该项目的任务分配界面;步骤(4.4)选择要参与此次任务的用户,为这些用户分配待标注数据。6.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(5)中登录与提交标注。具体子步骤包括:步骤(5.1)打开登录页面,使用普通用户账号登录,进入文本标注系统;步骤(5.2)根据分配的项目名称,进入该项目的文本列表页面;步骤(5.3)根据文本名称,进入标注页面,选择每个事实与法条的是否相关,提交标注,进入下一篇文本的标注页面,重复之前操作,直到所有文本标注完毕。7.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(6)中登录与标注后的数据导出。具体子步骤包括:步骤(6.1)打开登录页面,使用管理员账号登录,进入文本标注系统;步骤(6.2)根据项目名称,进入该项目判断结果页面,根据需要研究的法条,进入导出结果页面;步骤(6.3)预览导出结果,将结果导出为Excel格式文件并下载保存到本地。本专利技术与传统人工标注Excel技术相比,其显著优点是:使用Excel导入技术,将数据保存到数据库中,提升了数据的安全性;采用管理员创建用户,登录后才可标注的设计,避免了将Excel数据文件发给个人的情况,降低了裁判文书扩散的风险,同时加强了对项目参与人员的管理;采用输入序号分配文本的设计,提升了给用户分配需标注文本的效率;避免了传统方法需打开每个Excel文件并填入0、1效率低下的情况,只需要点击鼠标即可完成标注,大大节省了传统人工标注方法需要耗费的时间;采用根据法条集合相关联事实的导出设计,方便了后续的研究。附图说明图1一种面向裁判文书的文本标注方法流程图图2Excel格式的标注表格例图图3数据库中文书表等四个表字段信息图图4数据库中用户表等四个表字段信息图具体实施方式为使本专利技术的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本专利技术进行详细描述。本专利技术的目的在于解决裁判文书的文本标注问题,提出一种面向裁判文书的文本标注方法。使用Excel导入技术,将数据保存到数据库中,提升了数据的安全性;采用管理员创建用户,登录后才可标注的设计,避免了将Excel数据文件发给个人的情况,降低了裁判文书扩散的风险,同时加强了对项目参与人员的管理;采用输入序号分配文本的设计,提升了给用户分配需标注文本的效率;避免了传统方法需打开每个Excel文件并填入0、1效率低下的情况,只需要点击鼠标即可完成标注,大大节省了传统人工标注方法需要耗费的时间;采用根据法条集合相关联事实的导出设计,方便了后续的研究。本专利技术概括来说主要包括以下步骤:步骤(1)从裁判文书文本中分段抽取与文本分割,形成Excel格式的待标注数据文件;步骤(2)登录与待标注数据导入;步骤(3)创建普通用户;步骤(4)创建待标注项目与为普通用户分配待标注数据;步骤(5)登录与提交标注;步骤(6)登录与标注后的数据导出;上述一种面向裁判文书的文本标注方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。1.首先从裁判文书中分段抽取与文本分割,形成Excel格式的待标注数据文件。具体步骤是步骤(1.1)文书结构化。原始的裁判文书文件大部分都是doc、docx、rtf等格式的纯文本文件,我们无法直接从中获取信息,因此我们根据裁判文书的书写规律,定义了一个模板,按照模本文档来自技高网
...

【技术保护点】
1.一种面向裁判文书的文本标注方法,其特征在于包含以下步骤:步骤(1)从裁判文书文本中分段抽取与文本分割,形成Excel格式的待标注数据文件;步骤(2)管理员登录与待标注数据导入;步骤(3)管理员创建普通用户;步骤(4)管理员创建待标注项目与为普通用户分配待标注数据;步骤(5)普通用户登录与提交标注;步骤(6)管理员导出标注后的数据。

【技术特征摘要】
1.一种面向裁判文书的文本标注方法,其特征在于包含以下步骤:步骤(1)从裁判文书文本中分段抽取与文本分割,形成Excel格式的待标注数据文件;步骤(2)管理员登录与待标注数据导入;步骤(3)管理员创建普通用户;步骤(4)管理员创建待标注项目与为普通用户分配待标注数据;步骤(5)普通用户登录与提交标注;步骤(6)管理员导出标注后的数据。2.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(1)中从裁判文书文本中分段抽取与文本分割,形成Excel格式的待标注数据文件。具体子步骤包括:步骤(1.1)文书结构化;步骤(1.2)抽取文书的事实段与所引法条列表;步骤(1.3)建立文书事实集;步骤(1.4)建立引用法条正文集;步骤(1.5)创建文书标注表格。3.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(2)中管理员登录与待标注数据导入。具体子步骤包括:步骤(2.1)打开登录页面,使用管理员账号登录,进入文本标注系统;步骤(2.2)进入导入Excel页面;步骤(2.3)选择本地保存的需要导入的Excel格式的待标注数据文件,进行导入。4.根据权利要求1所述的一种面向裁判文书的文本标注方法,其特征在于步骤(3)中管理员创建普通用户。具体子步骤包括:步骤(3.1)在管理员账号登录情况下,进入查看用户页...

【专利技术属性】
技术研发人员:葛季栋李传艺杨翠蒋政陈震昊程芸菲周沁涵骆斌
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1