对法律数据完成多任务语义标注的可视化方法和装置制造方法及图纸

技术编号:25598392 阅读:22 留言:0更新日期:2020-09-11 23:56
本发明专利技术提供一种对法律数据完成多任务语义标注的可视化方法和装置,该方法包括:获取对法律数据进行标注的预设需求;获取待标注法律数据导入语料库;根据标注的预设需求对待标注法律数据进行任务的可视化配置和服务器硬件的可视化配置;根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据。本发明专利技术提供的相关联的多任务学习比单任务学习具有更好的泛化效果,且不需要依赖算法工程师完成选择预训练模型以及调整模型的参数,直接提高数据标注工作的效率和降低数据标注相关人员的学习成本。

【技术实现步骤摘要】
对法律数据完成多任务语义标注的可视化方法和装置
本专利技术涉及数据标记领域,尤其涉及一种对法律数据完成多任务语义标注的可视化方法和装置。
技术介绍
随着国家法治建设的完善,积累了大量的案例、法规、机构、律师、律所、法官及法院信息等法律数据。人工智能在法律活动中具有广阔的应用前景,加速推动国家的法律建设。法律人工智能的落地不仅取决于法律数据的数量,更依赖于法律数据的质量。大规模、高质量的语义标注数据直接影响人工智能的学习效果。现有法律数据是以非结构化、半结构化的数据为主,总体没有高质量的标注数据。而高质量的法律数据不仅需要大量的法律专业人士进行数据标注,还需要在同一份数据上进行多个任务的标注。目前,对于文本语料的标注方法有很多,但在面向法律数据自动化标注的专利却很少,同时无法保证标注的质量,无法要求标注者的专业性。现有的数据标记方式存在以下缺点:1.多数采用的是众包方式,这种方式对标注者的专业背景知识要求较低。因此,这种标注方式是无法保证标注的质量,如:视网膜眼底照片病变情况的标注需要专业的眼科医生去标注数据,普通标注者基本无法众包。2.数据标记的技术关注的相对单一的标注任务,预训练的标注模型也是针对单一任务来反复迭代训练模型,不考虑标注任务之间的关联性,预训练的标注模型的优化也是针对单一任务。对于有关联性的标记任务,这种分解成相对独立的子问题忽略了不同任务间的关联性。3.现有数据标记用到的预训练模型,是需要专业的机器学习算法工程师完成模型的选择、训练和优化,缺乏对于具体的模型的超参数的自定义可配置性。这样就容易造成维护成本的增加,同时不利于标注人员的自由选择所需要的模型。4.多数在模型训练过程中缺乏对模型参数调整和配置的可视化设置,不利于对标注信息的信息统计、模型的训练进度和结果等的可视化查看和跟进。
技术实现思路
为了解决目前在面向法律数据自动化标注时无法保证标注的质量,不能在同一份数据上进行多个任务的标注以及可视化显示出模型训练进度和结果的问题,本专利技术提供一种对法律数据完成多任务语义标注的可视化方法和装置。第一方面,本专利技术提供一种对法律数据完成多任务语义标注的可视化方法,该方法包括:获取对法律数据进行标注的预设需求;获取待标注法律数据导入语料库;根据标注的预设需求对待标注法律数据进行任务的可视化配置和服务器硬件的可视化配置;其中,任务配置包括:任务类型的划分以及模型参数的配置;服务器硬件配置包括:CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置;根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据。进一步地,根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据包括:确定待展示的语义标注后的法律数据和其对应的数据结构;利用预设的图标类型对待展示的语义标注后的法律数据和其对应的数据结构进行可视化显示。进一步地,根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据包括:若获取的语义标注后的法律数据与预设需求间的偏差超过阈值,则调整当前多任务学习模型内的模型参数;根据调整后的模型参数训练当前多任务学习模型,得到新的多任务学习模型;根据新的多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据。进一步地,预设需求包括:标注数据的质量、标注数据的数量、评价指标。进一步地,根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据之后包括:对语义标注后的法律数据进行审核和质检,并将审核和质检过程、结果进行可视化展示。进一步地,对语义标注后的法律数据进行审核和质检,并将审核和质检过程、结果进行可视化展示之后包括:根据评价指标对审核和质检后的可视化数据进行复核,判断当前审核和质检后的可视化数据是否满足预设需求;若满足,则将当前存储的数据进行输出;否则,调整当前多任务学习模型内的模型参数;根据调整后的模型参数训练当前多任务学习模型,得到新的多任务学习模型;根据新的多任务学习模型对待标注法律数据进行可视化标注。进一步地,多任务学习模型包括:基于多任务的聚类模型、基于多任务的多分类模型、基于多任务的多标签分类模型。第二方面,本专利技术提供一种对法律数据完成多任务语义标注的可视化装置,该装置包括:获取预设需求模块,用于获取对法律数据进行标注的预设需求;导入模块,用于获取待标注法律数据导入语料库;任务和服务器配置模块,用于根据标注的预设需求对待标注法律数据进行任务的可视化配置和服务器硬件的可视化配置;其中,任务配置包括:任务类型的划分以及模型参数的配置;服务器硬件配置包括:CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置;多任务学习模型构建模块,用于根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;标注处理模块,用于根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据。第三方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行程序时实现第一方面提供的对法律数据完成多任务语义标注的可视化方法的步骤。第四方面,本专利技术提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的对法律数据完成多任务语义标注的可视化方法的步骤。本专利技术通过确定标注需求,对待标注法律数据进行任务类型划分和模型参数的任务配置,同时在标记过程中人工标记一部分数据作为第一数据集,并将第一数据集与当前确定的任务类型以及配置的模型参数构建多任务下的预训练学习模型,再利用预训练模型进行数据标注学习,这种相关联的多任务学习比单任务学习能去的更好的泛化效果;且本专利技术对于处理具体类别的标注任务所需算法模型是可供用户选择,然后根据用户选择的模型自动推荐模型超参数,对于具体的模型的超参数用户也可自定义配置,这样不需要依赖算法工程师完成选择预训练模型以及调整模型的参数;可视化设置则可以方便不了解机器学习(深度学习)的标注人员、质检人员等清楚地了解所选择的模型种类、模型参数、模型的训练进度、模型的统计结果以及质检人员工作量等信息。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的对法律数据完成多任务语义标注的可视化方法流程示意图;图2为本专利技术实施例提供的语义标准整体本文档来自技高网
...

【技术保护点】
1.一种对法律数据完成多任务语义标注的可视化方法,其特征在于,所述方法包括:/n获取对法律数据进行标注的预设需求;/n获取待标注法律数据导入语料库;/n根据标注的预设需求对所述待标注法律数据进行任务的可视化配置和服务器硬件的可视化配置;其中,任务配置包括:任务类型的划分以及模型参数的配置;服务器硬件配置包括:CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置;/n根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;/n根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据。/n

【技术特征摘要】
1.一种对法律数据完成多任务语义标注的可视化方法,其特征在于,所述方法包括:
获取对法律数据进行标注的预设需求;
获取待标注法律数据导入语料库;
根据标注的预设需求对所述待标注法律数据进行任务的可视化配置和服务器硬件的可视化配置;其中,任务配置包括:任务类型的划分以及模型参数的配置;服务器硬件配置包括:CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置;
根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;
根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据。


2.根据权利要求1所述的方法,其特征在于,所述根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据包括:
确定待展示的语义标注后的法律数据和其对应的数据结构;
利用预设的图标类型对所述待展示的语义标注后的法律数据和其对应的数据结构进行可视化显示。


3.根据权利要求1所述的方法,其特征在于,所述根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据包括:
若获取的语义标注后的法律数据与预设需求间的偏差超过阈值,则调整当前多任务学习模型内的模型参数;
根据调整后的模型参数训练当前多任务学习模型,得到新的多任务学习模型;
根据新的多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据。


4.根据权利要求1所述的方法,其特征在于,所述预设需求包括:标注数据的质量、标注数据的数量、评价指标。


5.根据权利要求4所述的方法,其特征在于,所述根据多任务学习模型对待标注法律数据进行可视化标注,展示语义标注后的法律数据之后包括:
对语义标注后的法律数据进行审核和质检,并将审核和质检过程、结果进行可视化展示。


6.根据权利要求5所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:王义真杜向阳
申请(专利权)人:南京擎盾信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1