实体信息处理方法、装置、计算机设备、存储介质制造方法及图纸

技术编号:32459523 阅读:19 留言:0更新日期:2022-02-26 08:45
本申请涉及人工智能领域,特别是涉及一种实体信息处理方法、装置、计算机设备、存储介质和计算机程序产品,可以用于金融科技领域,也可以用于除金融科技领域之外的任意领域。方法包括:获取待处理语料;以待处理语料中的每个词汇为节点,任两个词汇间的共现关系为节点的边,构建词汇共现图;边具有对应的权重;权重用于表征与边相连接节点对应的词汇在待处理语料中的共现次数;将词汇共现图输入至目标图卷积神经网络,得到各词汇对应的目标词向量;根据各词汇对应的目标词向量,确定属于同一实体的目标词汇;目标词汇对应的目标词向量间的相似度大于预设的相似度阈值。采用本方法能够准确确定属于同一实体的目标词汇。确确定属于同一实体的目标词汇。确确定属于同一实体的目标词汇。

【技术实现步骤摘要】
实体信息处理方法、装置、计算机设备、存储介质


[0001]本申请涉及人工智能领域,特别是涉及一种实体信息处理方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]近年来,人工智能技术发展迅速,在教育、医疗、农业、交通等领域均具有十分广泛的应用前景。
[0003]而人工智能技术也可以应用到自然语言处理领域,可以利用人工智能技术来分析、理解和处理自然语言,使得人与计算机之间可以用自然语言进行有效通信。例如,在实际生活中,针对同一客观实体,在不同场景下往往有不同的名称或表达方式,如“中国工商银行”、“工行”、“工商银行”、“ICBC”都指向中国工商银行这一个客观实体,这种多样性表达往往会使计算机对自然语言理解造成歧义。在传统技术中,往往依赖于人工数据标注的方法对机器进行训练,然而标注数据往往非常少,导致了无法准确判断不同词汇是否属于同一实体的问题。
[0004]因此,传统技术中,存在着实体统一效果不理想的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够准确判断属于同一实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体信息处理方法,其特征在于,所述方法包括:获取待处理语料;以所述待处理语料中的每个词汇为节点,任两个所述词汇间的共现关系为所述节点的边,构建词汇共现图;所述边具有对应的权重;所述权重用于表征与所述边相连接节点对应的词汇在所述待处理语料中的共现次数;将所述词汇共现图输入至目标图卷积神经网络,得到各所述词汇对应的目标词向量;所述目标词向量为所述目标图卷积神经网络对所述词汇共现图进行编码处理得到的;根据各所述词汇对应的目标词向量,确定属于同一实体的目标词汇;所述目标词汇对应的目标词向量间的相似度大于预设的相似度阈值。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:以待处理样本语料中的每个样本词汇为节点,任两个所述样本词汇间的共现关系为所述节点的边,构建样本共现图;所述边具有对应的权重;所述权重用于表征与所述边相连接节点对应的样本词汇在所述待处理样本语料中的共现次数;所述边相连接节点所对应的样本词汇在所述待处理样本语料的同一句子中同时出现;将所述样本共现图输入至初始图卷积神经网络,得到各所述样本词汇对应的初始词向量;所述初始词向量为所述初始图卷积神经网络对所述样本共现图进行编码处理得到的;根据各所述样本词汇对应的初始词向量,对所述初始图卷积神经网络进行训练,得到所述目标图卷积神经网络。3.根据权利要求2所述的方法,其特征在于,所述根据各所述样本词汇对应的初始词向量,对所述初始图卷积神经网络进行训练,得到所述目标图卷积神经网络,包括:在各所述样本词汇中确定待预测词汇;确定所述待预测词汇的邻接样本词汇;其中,在所述样本共现图中,所述邻接样本词汇对应的节点与所述待预测词汇对应的节点相连接;根据所述邻接样本词汇对应的初始词向量,得到所述待预测词汇的初始词向量的预测分布结果;根据所述待预测词汇的初始词向量的预测分布结果和先验分布结果之间的差异,对所述初始图卷积神经网络进行训练,得到所述目标图卷积神经网络。4.根据权利要求3所述的方法,其特征在于,所述根据所述待预测词汇的初始词向量的预测分布结果和先验分布结果之间的差异,对所述初始图卷积神经网络进行训练,得到所述目标图卷积神经网络,包括:获取所述待预测词汇的初始词向量的先验分布结果;将所述预测...

【专利技术属性】
技术研发人员:乔达石业明李会凯孔雀
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1