一种领域迁移学习的实体识别方法、系统和设备技术方案

技术编号:29490635 阅读:66 留言:0更新日期:2021-07-30 19:02
本申请涉及一种领域迁移学习的实体识别方法、系统和设备,其中,该方法包括:用训练好的序列标注模型提取源语料和目标语料中实体的文本特征,建立训练样本,对训练样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间,进而计算得到测地线流核函数,通过测地线流核函数将语料进行映射,得到新的特征空间,根据新的特征空间对分类模型进行训练,用训练好的分类模型对无标注的目标语料进行实体识别。通过本申请,解决了实体识别中对标注样本依赖性强和开发效率低的问题,实现了在特征空间上重新映射的领域适应方法,将在映射后的特征空间上训练的分类模型直接应用在无标注的目标语料上,达到了迁移学习的技术效果。

【技术实现步骤摘要】
一种领域迁移学习的实体识别方法、系统和设备
本申请涉及实体识别领域,特别是涉及一种领域迁移学习的实体识别方法、系统和设备。
技术介绍
在文本信息抽取的应用场景中,由于场景多样、细化,样本标注成为文本信息抽取过程中重要的一环,工业应用上面临着缺少标注样本,样本标注成本高的现状,目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获取到标注样本前,无法开展工作,这样的过程还是相当于将开发成本转嫁到样本标注上,整体开发效率仍然低下。目前针对相关技术中对标注样本依赖性强和开发效率低的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种领域迁移学习的实体识别方法、系统和设备,以至少解决相关技术中对标注样本依赖性强和开发效率低的问题。第一方面,本申请实施例提供了一种领域迁移学习的实体识别方法,所述方法包括:根据源语料对序列标注模型进行训练,通过训练好的所述序列标注模本文档来自技高网...

【技术保护点】
1.一种领域迁移学习的实体识别方法,其特征在于,所述方法包括:/n根据源语料对序列标注模型进行训练,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征,建立训练样本,其中,所述训练样本包含源域样本和目标域样本;/n对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间;/n对所述源域特征空间进行处理得到新源域特征空间,将所述新源域特征空间与所述目标域特征空间进行点积,对所述点积的结果进行奇异值分解;/n根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数;/n通过所述测地线流核函数对所述源域样本进行映射,得到训...

【技术特征摘要】
1.一种领域迁移学习的实体识别方法,其特征在于,所述方法包括:
根据源语料对序列标注模型进行训练,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征,建立训练样本,其中,所述训练样本包含源域样本和目标域样本;
对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间;
对所述源域特征空间进行处理得到新源域特征空间,将所述新源域特征空间与所述目标域特征空间进行点积,对所述点积的结果进行奇异值分解;
根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数;
通过所述测地线流核函数对所述源域样本进行映射,得到训练特征空间,根据所述训练特征空间对分类模型进行训练;
通过所述测地线流核函数对所述目标域样本进行映射,得到识别特征空间,通过训练好的所述分类模型对所述识别特征空间进行预测,得到所述目标语料的实体识别结果。


2.根据权利要求1所述的方法,其特征在于,根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数包括:
根据所述奇异值分解的结果U1、U2、V、Γ和Σ,构建得到的测地线流为φ(t)=PsU1Γ(t)-RsU2Σ(t),其中,U1和U2为标准正交矩阵,Γ和Σ为d*d的对角矩阵,Ps为所述新源域特征空间,Rs为根据所述源域特征空间取得的零空间特征,tϵ[0,1];
根据所述测地线流φ(t)进行积分,即


进而得到测地线流核函数为


其中,Λ1、Λ2和Λ3为对角矩阵,Λ1、Λ2和Λ3对角元素分别为




3.根据权利要求1所述的方法,其特征在于,对所述点积的结果进行奇异值分解包括:
对点积结果的前d维矩阵和后n-d维矩阵进行广义奇异值分解,得到U1、U2、V、Γ和Σ,其中,U1和U2为标准正交矩阵,Γ和Σ为d*d的对角矩阵,Γ和Σ的对角元素分别为cos(θi)和sin(θi)。


4.根据权利要求1所述的方法,其特征在于,对所述源域特征空间进行处理得到新源域特征空间包括:
根据所述源域特征空间取得零空间特征Rs,将所述源域特征空间与所述零空间特征Rs连接,得到新源域特征空间Ps。


5.根据权利要求1所述的方法,其特征在于,对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间包括:
对所述源域样本中N个样本的n维文本特征进行主成分分析,取所述主成分分析的结果中方差最大的d个维度作为源域特征空间;
对所述目标域样本中N个样本的n维文本特征进行主成分分析,取所述主成分分析的结果中方差最大的d个维度作为目标域特征空间。


6.根据权利要求1所述的方法,其特征在于,通过训练好的所述序列标注模型提取所述源...

【专利技术属性】
技术研发人员:韩瑞峰杨红飞金霞程东
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1