基于法律数据的多任务学习语义标注方法和装置制造方法及图纸

技术编号:25598394 阅读:63 留言:0更新日期:2020-09-11 23:56
本发明专利技术提供一种基于法律数据的多任务学习语义标注方法和装置,该方法包括:获取对法律数据进行标注的预设需求;获取待标注法律数据导入语料库;根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置;根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据。本发明专利技术提供的相关联的多任务学习比单任务学习具有更好的泛化效果,且不需要依赖算法工程师完成选择预训练模型以及调整模型的参数,直接提高数据标注工作的效率和降低数据标注相关人员的学习成本。

【技术实现步骤摘要】
基于法律数据的多任务学习语义标注方法和装置
本专利技术涉及数据标记领域,尤其涉及一种基于法律数据的多任务学习语义标注方法和装置。
技术介绍
随着国家法治建设的完善,积累了大量的案例、法规、机构、律师、律所、法官及法院信息等法律数据。人工智能在法律活动中具有广阔的应用前景,加速推动国家的法律建设。法律人工智能的落地不仅取决于法律数据的数量,更依赖于法律数据的质量。大规模、高质量的语义标注数据直接影响人工智能的学习效果。现有法律数据是以非结构化、半结构化的数据为主,总体没有高质量的标注数据。而高质量的法律数据不仅需要大量的法律专业人士进行数据标注,还需要在同一份数据上进行多个任务的标注。目前,对于文本语料的标注方法有很多,但在面向法律数据自动化标注的专利却很少,同时无法保证标注的质量,无法要求标注者的专业性。现有的数据标记方式存在以下缺点:1.多数采用的是众包方式,这种方式对标注者的专业背景知识要求较低。因此,这种标注方式是无法保证标注的质量,如:视网膜眼底照片病变情况的标注需要专业的眼科医生去标注数据,普通标注者基本无法众包。2.数据标记的技术关注的相对单一的标注任务,预训练的标注模型也是针对单一任务来反复迭代训练模型,不考虑标注任务之间的关联性,预训练的标注模型的优化也是针对单一任务。对于有关联性的标记任务,这种分解成相对独立的子问题忽略了不同任务间的关联性。3.现有数据标记用到的预训练模型,是需要专业的机器学习算法工程师完成模型的选择、训练和优化。这样就容易造成维护成本的增加,同时不利于标注人员的自由选择所需要的模型。
技术实现思路
为了解决目前在面向法律数据自动化标注时无法保证标注的质量,无法要求标注者的专业性,无法在同一份数据上进行多个任务的标注的问题,本专利技术提供一种基于法律数据的多任务学习语义标注方法和装置。第一方面,本专利技术提供一种基于法律数据的多任务学习语义标注方法,该方法包括:获取对法律数据进行标注的预设需求;获取待标注法律数据导入语料库;根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置;任务配置包括:任务类型的划分以及模型参数的配置;服务器硬件配置包括:CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置;根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据。进一步地,根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据包括:若获取的语义标注后的法律数据与预设需求间的偏差超过阈值,则调整当前多任务学习模型内的模型参数;根据调整后的模型参数训练当前多任务学习模型,得到新的多任务学习模型;根据新的多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据。进一步地,预设需求包括:标注数据的质量、标注数据的数量、评价指标。进一步地,根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据之后包括:对语义标注后的法律数据进行审核和质检,将质检后的数据进行存储。进一步地,对语义标注后的法律数据进行审核和质检,将质检后的数据进行存储之后包括:根据评价指标对存储的数据进行复核,判断当前存储的数据是否满足预设需求;若满足,则将当前存储的数据进行输出;否则,调整当前多任务学习模型内的模型参数;根据调整后的模型参数训练当前多任务学习模型,得到新的多任务学习模型;根据新的多任务学习模型对待标注法律数据进行标注。进一步地,多任务学习模型包括:基于多任务的聚类模型、基于多任务的多分类模型、基于多任务的多标签分类模型。第二方面,本专利技术提供一种基于法律数据的多任务学习语义标注装置,该装置包括:获取预设需求模块,用于获取对法律数据进行标注的预设需求;导入模块,用于获取待标注法律数据导入语料库;任务和服务器配置模块,用于根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置;任务配置包括:任务类型的划分以及模型参数的配置;服务器硬件配置包括:CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置;多任务学习模型构建模块,用于根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;标注处理模块,用于根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据。进一步地,标注处理模块包括:调整参数单元,用于若获取的语义标注后的法律数据与预设需求间的偏差超过阈值,则调整当前多任务学习模型内的模型参数;训练单元,用于根据调整后的模型参数训练当前多任务学习模型,得到新的多任务学习模型;语义标注单元,用于根据新的多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据。第三方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面提供的基于法律数据的多任务学习语义标注方法的步骤。第四方面,本专利技术提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的基于法律数据的多任务学习语义标注方法的步骤。本专利技术通过确定标注需求,对待标注法律数据进行任务类型划分和模型参数的任务配置,同时在标记过程中人工标记一部分数据作为第一数据集,并将第一数据集与当前确定的任务类型以及配置的模型参数构建多任务下的预训练学习模型,再利用预训练模型进行数据标注学习,这种相关联的多任务学习比单任务学习能去的更好的泛化效果,且不需要依赖算法工程师完成选择预训练模型以及调整模型的参数,直接提高数据标注工作的效率和降低数据标注相关人员的学习成本。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的基于法律数据的多任务学习语义标注方法流程示意图;图2为本专利技术实施例提供的语义标准整体流程示意图;图3为本专利技术实施例提供的基于法律数据的多任务学习语义标注装置框图;图4为本专利技术实施例提供的电子设备框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请本文档来自技高网
...

【技术保护点】
1.一种基于法律数据的多任务学习语义标注方法,其特征在于,所述方法包括:/n获取对法律数据进行标注的预设需求;/n获取待标注法律数据导入语料库;/n根据标注的预设需求对所述待标注法律数据进行任务配置和服务器硬件配置;所述任务配置包括:任务类型的划分以及模型参数的配置;所述服务器硬件配置包括:CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置;/n根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;/n根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据。/n

【技术特征摘要】
1.一种基于法律数据的多任务学习语义标注方法,其特征在于,所述方法包括:
获取对法律数据进行标注的预设需求;
获取待标注法律数据导入语料库;
根据标注的预设需求对所述待标注法律数据进行任务配置和服务器硬件配置;所述任务配置包括:任务类型的划分以及模型参数的配置;所述服务器硬件配置包括:CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置;
根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据,构建对应的多任务学习模型;
根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据。


2.根据权利要求1所述的方法,其特征在于,所述根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据包括:
若获取的语义标注后的法律数据与预设需求间的偏差超过阈值,则调整当前多任务学习模型内的模型参数;
根据调整后的模型参数训练当前多任务学习模型,得到新的多任务学习模型;
根据新的多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据。


3.根据权利要求1所述的方法,其特征在于,所述预设需求包括:标注数据的质量、标注数据的数量、评价指标。


4.根据权利要求3所述的方法,其特征在于,所述根据多任务学习模型对待标注法律数据进行标注,确定语义标注后的法律数据之后包括:
对语义标注后的法律数据进行审核和质检,将质检后的数据进行存储。


5.根据权利要求4所述的方法,其特征在于,所述对语义标注后的法律数据进行审核和质检,将质检后的数据进行存储之后包括:
根据所述评价指标对存储的数据进行复核,判断当前存储的数据是否满足所述预设需求;
若满足,则将当前存储的数据进行输出;
否则,调整当前多任务学习模型内的模型参数;
根据调整后的模型参数训练当前多任务学习模型,得到新的多任务学习模型;
根据...

【专利技术属性】
技术研发人员:王义真杜向阳
申请(专利权)人:南京擎盾信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1