一种基于无标注语料的实体匹配方法和系统技术方案

技术编号:29940271 阅读:21 留言:0更新日期:2021-09-04 19:24
本申请涉及一种基于无标注语料的实体匹配方法和系统,其中,该方法包括:通过对目标语料进行分割,得到若干候选实体,并计算得出候选实体的统计信息,获取种子实体集,根据种子实体集和候选实体的统计信息,从候选实体中判断选取出与种子实体最接近的实体,得到若干最优候选实体,将最优候选实体加入种子实体集中,重复上述判断选取,直到没有最优候选实体产生,基于产生的最优候选实体和种子实体的词向量,判断最优候选实体是否为实体,得到实体识别的结果。通过本申请,解决了实体识别中对标注样本依赖性强和识别准确率低的问题,实现了利用领域实体词列表,得到无标签的目标语料的实体识别结果,同时也达到了对领域实体词列表进行扩充的效果。表进行扩充的效果。表进行扩充的效果。

【技术实现步骤摘要】
一种基于无标注语料的实体匹配方法和系统


[0001]本申请涉及数据识别领域,特别是涉及一种基于无标注语料的实体匹配方法和系统。

技术介绍

[0002]在文本信息抽取的应用场景中,由于场景多样、细化,样本标注成为文本信息抽取过程中重要的一环,工业应用上面临着缺少标注样本,样本标注成本高的现状,目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获取到标注样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本标注上,整体开发效率仍然低下。
[0003]目前针对相关技术中对标注样本依赖性强和识别准确率低的问题,尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种基于无标注语料的实体匹配方法和系统,以至少解决相关技术中对标注样本依赖性强和识别准确率低的问题。
[0005]第一方面,本申请实施例提供了一种基于无标注语料的实体匹配方法,所述方法包括:通过预设实体分割方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于无标注语料的实体匹配方法,其特征在于,所述方法包括:通过预设实体分割方法对目标语料进行分割,得到若干候选实体,并计算得出所述候选实体的统计信息,所述统计信息包含实体到模板的映射、模板到实体的映射、实体和模板的相关度和实体到向量的映射;从领域实体词列表中获取种子实体集,其中,所述种子实体集中包含若干种子实体;根据所述种子实体集和所述候选实体的统计信息,从所述候选实体中判断选取出与所述种子实体最接近的实体,得到若干最优候选实体;将所述最优候选实体加入所述种子实体集中,重复执行所述判断选取,直到没有所述最优候选实体产生;基于产生的所述最优候选实体和所述种子实体的词向量,判断所述最优候选实体是否为实体,得到实体识别的结果。2.根据权利要求1所述的方法,其特征在于,计算得出所述候选实体的统计信息包括:统计每个所述候选实体对应的上下文模板,以及所述上下文模板在所述目标语料中出现的次数信息,将所述上下文模板和所述次数信息保存在实体到模板的映射中;统计每个所述上下文模板对应的候选实体和候选实体个数,将所述候选实体和所述候选实体个数保存在模板到实体的映射中;统计所述候选实体和所述上下文模板之间的结合度信息,将所述结合度信息保存在实体和模板的相关度中;计算所述候选实体的词向量,将所述词向量保存在实体到向量的映射中。3.根据权利要求2所述的方法,其特征在于,统计所述候选实体和所述上下文模板之间的结合度信息,将所述结合度信息保存在实体和模板的相关度中包括:根据候选实体总数、候选实体和上下文模板在所述目标语料中共同出现的次数,以及所述上下文模板与所有候选实体在所述目标语料中共同出现的次数统计所述候选实体和所述上下文模板的结合度信息,将所述结合度信息保存在实体和模板的相关度中。4.根据权利要求2所述的方法,其特征在于,计算所述候选实体的词向量,将所述词向量保存在实体到向量的映射中包括:根据包含候选实体的句子,来对word2vec模型或bert模型进行训练,得到训练好的词向量模型,通过所述词向量模型得到候选实体的词向量,将所述词向量保存在实体到向量的映射中。5.根据权利要求1所述的方法,其特征在于,根据所述种子实体集和所述候选实体的统计信息,从所述候选实体中判断选取出与所述种子实体最接近的实体,得到若干最优候选实体包括:通过所述统计信息中的实体和模板的相关度,选取出与所述种子实体结合度最高的若干核心上下文模板,其中,实体和模板的相关度中保存着候选实体和上下文模板之间的结合度信息;根据所述统计信息中的模板到实体的映射,通过所述核心上下文模板,选取出若干核心候选实体,其中,模板到实体的映射中保存着上下文模板对应的候选实体和候选实体个数;通过所述统计信息中的实体和模板的相关度,计算出核心候选实体和每个种子实体之
间的相似度并求和,得到所述核心候选实体的第一分值,根据所述第一分值选出若干第一核心候选实体;通过所述统计信息中的实体到向量的映射,计算出核心候选实体和每个种子实体之间的相似度并求和,得到所述核心候选实体的第二分值,根据所述第二分值选出若干第二核心候选实体,其中,实体到向量的映射中保存着候选实体的词向量;将所述第一核心候选实体与所述第二核心候选...

【专利技术属性】
技术研发人员:韩瑞峰杨红飞金霞
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1