一种基于实体扩展的实体识别方法和系统技术方案

技术编号:29490632 阅读:30 留言:0更新日期:2021-07-30 19:02
本申请涉及一种基于实体扩展的实体识别方法和系统,其中,该方法包括:通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,概念词候选集包含若干概念词,通过词嵌入算法对概念词进行训练,得到概念词的词向量,根据词向量计算概念词的文本特征,根据领域实体词列表将概念词设置为正负样本,根据正负样本和文本特征来训练分类模型,得到概念词的置信度,根据置信度进行重新分割,得到基于实体扩展的实体词。通过本申请,解决了实体识别中对标注样本依赖性强和识别准确率低的问题。实现了利用领域实体词列表进行监督学习,得到无标签语料的实体识别结果,同时达到了对领域实体词列表进行扩充的效果。

【技术实现步骤摘要】
一种基于实体扩展的实体识别方法和系统
本申请涉及数据识别领域,特别是涉及一种基于实体扩展的实体识别方法和系统。
技术介绍
在文本信息抽取的应用场景中,由于场景多样、细化,样本标注成为文本信息抽取过程中重要的一环,工业应用上面临着缺少标注样本,样本标注成本高的现状,目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获取到标注样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本标注上,整体开发效率仍然低下。目前针对相关技术中对标注样本依赖性强和识别准确率低的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种基于实体扩展的实体识别方法和系统,以至少解决相关技术中标注样本依赖性强和识别准确率低的问题。第一方面,本申请实施例提供了一种基于实体扩展的实体识别方法,所述方法包括:通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念本文档来自技高网...

【技术保护点】
1.一种基于实体扩展的实体识别方法,其特征在于,所述方法包括:/n通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念词候选集包含若干概念词;/n通过词嵌入算法对所述概念词候选集中的概念词进行训练,得到所述概念词的词向量;/n根据所述概念词的词向量计算所述概念词的文本特征,根据领域实体词列表将所述概念词设置为正负样本;/n根据所述正负样本和所述文本特征来训练分类模型,得到所述概念词的置信度,其中,所述分类模型包括随机森林、支持向量机和DNN;/n根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词。/n

【技术特征摘要】
1.一种基于实体扩展的实体识别方法,其特征在于,所述方法包括:
通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念词候选集包含若干概念词;
通过词嵌入算法对所述概念词候选集中的概念词进行训练,得到所述概念词的词向量;
根据所述概念词的词向量计算所述概念词的文本特征,根据领域实体词列表将所述概念词设置为正负样本;
根据所述正负样本和所述文本特征来训练分类模型,得到所述概念词的置信度,其中,所述分类模型包括随机森林、支持向量机和DNN;
根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词。


2.根据权利要求1所述的方法,其特征在于,根据所述概念词的词向量计算所述概念词的文本特征包括:
计算所述概念词的上下文一致度,若概念词的词向量间的距离小于第一距离阈值,则以所述概念词的数量,来表示所述上下文一致度;
计算所述概念词的上下文纯度,若概念词的词向量间的距离小于第二距离阈值,则以所述词向量之间的相似度的平均值,来表示所述上下文纯度;
计算所述概念词的上下文知识连接性,若概念词的词向量间的距离小于第三距离阈值,且包含在预设高质量实体集中,则以所述概念词的数量,来表示所述上下文一致度,其中,所述预设高质量实体集存在于领域实体词列表中;
计算所述概念词的上下文泛用性,若概念词的词向量间的距离小于第四距离阈值,且所述概念词包含相同的组成词,则以所述概念词的数量,来表示所述上下文一致度。


3.根据权利要求1所述的方法,其特征在于,根据领域实体词列表将所述概念词设置为正负样本包括:
根据领域实体词列表,若概念词出现在所述领域实体词列表中,则将所述概念词设置为正样本;
若概念词未现在所述领域实体词列表中,则将所述概念词设置为负样本。


4.根据权利要求1所述的方法,其特征在于,通过词嵌入算法对所述概念词候选集中的概念词进行训练,得到所述概念词的词向量包括:
以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;
通过所述word2vec模型进行训练,根据随机梯度下降的方式,在所述概念词上循环计算反向梯度,并对所述word2vec模型的参数进行调整,得到所述概念词的词向量,使得词义相近的概念词的词向量距离相对接近。


5.根据权利要求1所述的方法,其特征在于,根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词包括:
所述无标签语料包含若干句子,按照每个句子重新分割得到的概念词的置信度之和为最大的规则,通过动态规划方法来进行重新分割得到基于实体扩展的实体词。


6.一种基于实体扩展的实体识别系统,其特征在于,所述系统包括预分割模块、词向量模块、特征样本模块、置信度模块和再分割模块;
所述预分...

【专利技术属性】
技术研发人员:韩瑞峰金霞杨红飞程东
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1