一种识别未知实体的方法及装置制造方法及图纸

技术编号:24354678 阅读:36 留言:0更新日期:2020-06-03 02:18
一种识别未知实体的方法,包括对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。本申请能够比较准确的识别未知实体,提高信息获取效率,并且本申请能够及时更新知识库。

A method and device for identifying unknown entities

【技术实现步骤摘要】
一种识别未知实体的方法及装置
本文涉及计算机领域,尤指一种识别未知实体的方法及装置。
技术介绍
随着互联网的飞速进步和全球金融的高速发展,金融信息呈现爆炸式增长,每天都有新的公司,组织以及机构产生。投资者和决策者在面对浩瀚的互联网金融信息时常常苦于如何高效的获取需要关注的内容。针对这一问题,本专利提出了一种基于神经网络和知识库的新词发现方法,建立金融实体识别方案,从而提高金融信息获取效率,更好的为金融领域相关机构和个人提供信息支撑。现有一般采用:n-gram模型加词频、基于凝固度和自由度、人工方式等方法。n-gram模型加词频方法,简单来说就是,从大量语料中抽取连续的字的组合片段,这些字组合片段最多包含n个字,同时统计每个字组合的频率,按照词频并设置一个阈值来判断一个字组合片段是否为词汇。该方法简单处理速度快,它的缺点也很明显,就是会把一些不是词汇但出现频率很高的字组合也当成词。基于凝固度和自由度方法,凝固度用来衡量两个字之间的相关性,即在一个字组合片段里,自由度就是一个字组合片段能够独立自由运用的程度。但是会涉及到两个本文档来自技高网...

【技术保护点】
1.一种识别未知实体的方法,其特征在于,所述方法包括:/n对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;/n将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;/n将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;/n根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;/n将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。/n

【技术特征摘要】
1.一种识别未知实体的方法,其特征在于,所述方法包括:
对目标文本的每个文本单元分别进行映射,获取所述目标文本的向量;
将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵;
将所得到所述目标文本的编码特征矩阵输入预选训练好的条件随机场模型,确定所述目标文本的标签序列;
根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体;
将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体。


2.根据权利要求1所述的方法,其特征在于,所述对目标文本的每个文本单元进行映射,获取所述目标文本的向量,包括:
获取所述目标文本的每个文本单元的文本单元ID,根据所获取的每个文本单元的文本单元ID和所述目标文本的每个文本单元的初始化向量,得到所述目标文本的文本单元向量;
获取所述目标文本的每个文本单元的位置ID,根据所获取的每个文本单元的位置ID和预设的位置向量得到所述目标文本的位置向量;
将所述得到的目标文本的文本单元向量和位置向量进行合并得到所述目标文本的向量。


3.根据权利要求1所述的方法,其特征在于,所述将所获取的目标文本的向量输入循环神经网络,得到所述目标文本的编码特征矩阵,包括:
将所获取的目标文本的向量输入双向LSTM网络,将得到两个方向的输出结果进行合并,得到所述目标文本的编码特征矩阵。


4.根据权利要求1所述的方法,其特征在于,所述根据所得到所述目标文本的编码特征矩阵和预选训练好的条件随机场模型,确定所述目标文本的标签序列,包括:
根据预设标签的数量,对所得到的编码特征矩阵进行维度转换,得到转换后的编码特征;
将所得到的转换后的编码特征输入预选训练好的条件随机场模型,得到所述目标文本的标签序列。


5.根据权利要求1所述的方法,其特征在于,所述根据所确定的目标文本的标签序列,确定所述目标文本中的所有实体,包括:
遍历所述目标文本的标签序列,每当所述目标文本的标签序列中,其中一个标签或者相邻标签组合满足预设条件,则确定所述标签或者所述相邻标签的组合对应的文本单元为一个实体。


6.根据权利要求1所述的方法,其特征在于,所述将所确定的所述目标文本中的每个实体分别与预设的知识库中的实体进行匹配,确定所述目标文本中的未知实体,包括:

【专利技术属性】
技术研发人员:徐猛付骁弈
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1