基于法律数据的多任务学习语义标注方法和装置制造方法及图纸

技术编号：25598394 阅读：63 留言：0更新日期：2020-09-11 23:56

本发明专利技术提供一种基于法律数据的多任务学习语义标注方法和装置，该方法包括：获取对法律数据进行标注的预设需求；获取待标注法律数据导入语料库；根据标注的预设需求对待标注法律数据进行任务配置和服务器硬件配置；根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。本发明专利技术提供的相关联的多任务学习比单任务学习具有更好的泛化效果，且不需要依赖算法工程师完成选择预训练模型以及调整模型的参数，直接提高数据标注工作的效率和降低数据标注相关人员的学习成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于法律数据的多任务学习语义标注方法和装置
本专利技术涉及数据标记领域，尤其涉及一种基于法律数据的多任务学习语义标注方法和装置。
技术介绍
随着国家法治建设的完善，积累了大量的案例、法规、机构、律师、律所、法官及法院信息等法律数据。人工智能在法律活动中具有广阔的应用前景，加速推动国家的法律建设。法律人工智能的落地不仅取决于法律数据的数量，更依赖于法律数据的质量。大规模、高质量的语义标注数据直接影响人工智能的学习效果。现有法律数据是以非结构化、半结构化的数据为主，总体没有高质量的标注数据。而高质量的法律数据不仅需要大量的法律专业人士进行数据标注，还需要在同一份数据上进行多个任务的标注。目前，对于文本语料的标注方法有很多，但在面向法律数据自动化标注的专利却很少，同时无法保证标注的质量，无法要求标注者的专业性。现有的数据标记方式存在以下缺点：1.多数采用的是众包方式，这种方式对标注者的专业背景知识要求较低。因此，这种标注方式是无法保证标注的质量，如：视网膜眼底照片病变情况的标注需要专业的眼科医生去标注数据，普通标注者基本无法众包。2.数据标记的技术关注的相对单一的标注任务，预训练的标注模型也是针对单一任务来反复迭代训练模型，不考虑标注任务之间的关联性，预训练的标注模型的优化也是针对单一任务。对于有关联性的标记任务，这种分解成相对独立的子问题忽略了不同任务间的关联性。3.现有数据标记用到的预训练模型，是需要专业的机器学习算法工程师完成模型的选择、训练和优化。这样就容易造成维护成本的增加，同时不利于标注人员的自由选择所...

【技术保护点】
1.一种基于法律数据的多任务学习语义标注方法，其特征在于，所述方法包括：/n获取对法律数据进行标注的预设需求；/n获取待标注法律数据导入语料库；/n根据标注的预设需求对所述待标注法律数据进行任务配置和服务器硬件配置；所述任务配置包括：任务类型的划分以及模型参数的配置；所述服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；/n根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；/n根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。/n

【技术特征摘要】
1.一种基于法律数据的多任务学习语义标注方法，其特征在于，所述方法包括：
获取对法律数据进行标注的预设需求；
获取待标注法律数据导入语料库；
根据标注的预设需求对所述待标注法律数据进行任务配置和服务器硬件配置；所述任务配置包括：任务类型的划分以及模型参数的配置；所述服务器硬件配置包括：CPU服务器对应的数量和硬件编号配置或GPU服务器对应的数量和硬件编号配置；
根据确定的任务类型、各任务类型对应配置的模型参数和获取的人工标注中的数据，构建对应的多任务学习模型；
根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

2.根据权利要求1所述的方法，其特征在于，所述根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据包括：
若获取的语义标注后的法律数据与预设需求间的偏差超过阈值，则调整当前多任务学习模型内的模型参数；
根据调整后的模型参数训练当前多任务学习模型，得到新的多任务学习模型；
根据新的多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据。

3.根据权利要求1所述的方法，其特征在于，所述预设需求包括：标注数据的质量、标注数据的数量、评价指标。

4.根据权利要求3所述的方法，其特征在于，所述根据多任务学习模型对待标注法律数据进行标注，确定语义标注后的法律数据之后包括：
对语义标注后的法律数据进行审核和质检，将质检后的数据进行存储。

5.根据权利要求4所述的方法，其特征在于，所述对语义标注后的法律数据进行审核和质检，将质检后的数据进行存储之后包括：
根据所述评价指标对存储的数据进行复核，判断当前存储的数据是否满足所述预设需求；
若满足，则将当前存储的数据进行输出；
否则，调整当前多任务学习模型内的模型参数；
根据调整后的模型参数训练当前多任务学习模型，得到新的多任务学习模型；
根据...

【专利技术属性】
技术研发人员：王义真，杜向阳，
申请(专利权)人：南京擎盾信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人