一种实体名称匹配方法、装置及设备制造方法及图纸

技术编号:24576487 阅读:64 留言:0更新日期:2020-06-21 00:27
本说明书实施例提供一种实体名称匹配方法、装置及设备。方案包括:获取待匹配实体名称;对待匹配实体名称进行分词,并将分词映射为向量,得到待匹配实体名称的词向量;采用基于自注意力机制的特征抽取器对每个词向量进行特征抽取,得到第一特征向量;再采用训练完成的条件随机场模型对第一特征向量进行序列标注,得到携带有域标签的第二特征向量,将第二特征向量输入到实体匹配模型中,得到匹配结果。

An entity name matching method, device and equipment

【技术实现步骤摘要】
一种实体名称匹配方法、装置及设备
本说明书一个或多个实施例涉及计算机
,尤其涉及一种实体名称匹配方法、装置及设备。
技术介绍
目前,命名实体识别(NamedEntitiesRecognition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。命名实体识别技术是信息抽取、信息检索、机器翻译等多种自然语言处理技术必不可少的组成部分。现有技术中,在进行命名实体识别时,一般采用全词对齐匹配的方法,比如:直接基于字符串匹配算法。但是现有技术中的方法,并没有考虑到实体文本中各个字词之间的语义关联,比如公司名作为文本的语义关联。也无法区分企业/机构名中的各部分在实体文本匹配中的重要程度,在面向大量企业业务时,会因为着重匹配非关键部分(如后缀,地区等)、简称部分等而导致匹配到错误的实体对象,难以保证匹配准确性,对于含有非常见词、非登录词的文本泛化能力也较差,导致系统打扰率升高。因此,需要提供一种更可靠的实体名称匹配方案。
技术实现思路
有鉴于此,本说明书一个或多个实施例提供了一种实体名称匹配方法、装置及设备,用于提高实体名称匹配的准确率。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种实体名称匹配方法,包括:获取待匹配实体名称;对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,所述词向量携带有语义信息;采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,所述第一特征向量为权重向量,所述权重表示所述词向量之间的上下文联系;采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,所述第二特征向量为携带有域标签的特征向量;将所述第二特征向量输入到实体匹配模型中,得到匹配结果。本说明书实施例提供的一种实体名称匹配装置,包括:待匹配实体名称获取模块,用于获取待匹配实体名称;词向量确定模块,用于对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,所述词向量携带有语义信息;特征抽取模块,用于采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,所述第一特征向量为权重向量,所述权重表示所述词向量之间的上下文联系;序列标注模块,用于采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,所述第二特征向量为携带有域标签的特征向量;匹配模块,用于将所述第二特征向量输入到实体匹配模型中,得到匹配结果。本说明书实施例提供的一种实体名称匹配设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取待匹配实体名称;对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,所述词向量携带有语义信息;采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,所述第一特征向量为权重向量,所述权重表示所述词向量之间的上下文联系;采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,所述第二特征向量为携带有域标签的特征向量;将所述第二特征向量输入到实体匹配模型中,得到匹配结果。本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现一种实体名称匹配方法。本说明书一个实施例实现了能够达到以下有益效果:通过获取待匹配实体名称;对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到携带有域标签第二特征向量,能够捕捉字词的上下文依赖关系以及标签序列的概率转移关系,降低实体名称的匹配失误率,提高实体名称的匹配效率。附图说明此处所说明的附图用来提供对本说明书一个或多个实施例的进一步理解,构成本说明书一个或多个实施例的一部分,本说明书的示意性实施例及其说明用于解释本说明书一个或多个实施例,并不构成对本说明书一个或多个实施例的不当限定。在附图中:图1为本说明书实施例中一种实体名称匹配方法的模型结构示意图;图2为本说明书实施例提供的一种实体名称匹配方法的流程示意图;图3为本说明书实施例提供的对应于图2的一种实体名称匹配装置的结构示意图;图4为本说明书实施例提供的对应于图2的一种实体名称匹配设备的结构示意图。具体实施方式为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。以下结合附图,详细说明本说明书各实施例提供的技术方案。随着线上交易的发展,对线上交易的安全性要求越来越高,比如:在反洗钱领域中,通常会通过管控网上交易的用户账户的安全性来保证交易的安全性,此时,可以通过判断交易的账户双方的安全性来管控交易行为,具体地,在金融领域,通常可以根据一些历史交易数据得到一些风险账户(比如:失信账户或者其他存在风险的账户),在风险管控系统中可以将存在风险的账户相关信息进行存储,作为判断交易账户安全性的参考。比如:交易平台接收到一条交易请求,此时,交易平台可以从交易请求对应的交易数据中提取出交易双方的账户实体名称,将交易双方的账户实体名称与数据库中保存的存在风险的账户实体名称进行匹配,如果匹配成功,可以认为该交易请求对应的至少一个账户实体属于存在风险的账户实体,此时,可以停止对于该交易数据的处理过程。并且再此基础上还可以向交易双发发送交易失败的提示信息。以交易制裁名单匹配为例,存在一份公司制裁名单,该公司制裁名单中包括至少一个公司实体名称。此时,在进行交易制裁名单匹配时,交易方可以包含至少一个公司实体账户。因此,首先可以从交易请求对应的交易数据中提取出公司实体名称,将提取得到的公司实体名称与交易制裁名单中的公司实体名称进行匹配,如果匹配成功,可以认为该交易本文档来自技高网...

【技术保护点】
1.一种实体名称匹配方法,包括:/n获取待匹配实体名称;/n对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,所述词向量携带有语义信息;/n采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,所述第一特征向量为权重向量,所述权重表示所述词向量之间的上下文联系;/n采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,所述第二特征向量为携带有域标签的特征向量;/n将所述第二特征向量输入到实体匹配模型中,得到匹配结果。/n

【技术特征摘要】
1.一种实体名称匹配方法,包括:
获取待匹配实体名称;
对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,所述词向量携带有语义信息;
采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,所述第一特征向量为权重向量,所述权重表示所述词向量之间的上下文联系;
采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,所述第二特征向量为携带有域标签的特征向量;
将所述第二特征向量输入到实体匹配模型中,得到匹配结果。


2.如权利要求1所述的方法,所述获取待匹配实体名称,具体包括:
获取待匹配交易数据;
从所述待匹配交易数据中提取出交易双方的账户实体名称,所述账户实体名称包括公司实体名称。


3.如权利要求1所述的方法,所述采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,具体包括:
根据所述词向量的上下文信息采用自注意力机制计算每个词向量的权重值;
根据所述权重值对每个所述词向量进行注意力权重赋值,得到第一特征向量。


4.如权利要求3所述的方法,所述根据所述词向量的上下文信息采用自注意力机制计算每个词向量的权重值,具体包括:
对于任意一个所述词向量,根据所述词向量之间的语义信息,确定所述实体名称中的其他词向量对该词向量的影响权重;
对所述任意一个所述词向量的影响权重进行归一化;
将进行归一化后的权重进行加权求和,得到每个词向量的权重值。


5.如权利要求1所述的方法,所述采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,具体包括:
确定每个所述第一特征向量对应的域标签概率;
根据所述域标签概率确定所述第一特征向量的标签转移关系;
根据所述标签转移关系对所述第一特征向量进行序列组合排序,得到组合排序后的特征向量;
对所述组合排序后的特征向量标注域标签,得到第二特征向量。


6.如权利要求5所述的方法,所述域标签包括:名称标签、地址标签、领域标签、后缀标签和/或其他标签。


7.如权利要求1所述的方法,所述采用训练完成的条件随机场模型对所述第一特征向量进行序列标注之前,还包括:
获取域标签已知的实体名称样本;
提取所述实体名称样本对应的第三特征向量;
将所述第三特征向量输入待训练的条件随机场模型进行训练,得到所述待训练的条件随机场模型输出的所述第三特征向量所述域标签的概率;
根据转移概率表和所述第三特征向量对应的各个域标签的概率,得到第三特征向量对应的最大联合概率对应的标注结果;
将所述标注结果与所述实体名称样本的已知域标签进行比对,得到比对结果;
当所述比对结...

【专利技术属性】
技术研发人员:郑行陈永环孙清清沈淑张天翼
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1