【技术实现步骤摘要】
一种实体名称匹配方法、装置及设备
本说明书一个或多个实施例涉及计算机
,尤其涉及一种实体名称匹配方法、装置及设备。
技术介绍
目前,命名实体识别(NamedEntitiesRecognition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。命名实体识别技术是信息抽取、信息检索、机器翻译等多种自然语言处理技术必不可少的组成部分。现有技术中,在进行命名实体识别时,一般采用全词对齐匹配的方法,比如:直接基于字符串匹配算法。但是现有技术中的方法,并没有考虑到实体文本中各个字词之间的语义关联,比如公司名作为文本的语义关联。也无法区分企业/机构名中的各部分在实体文本匹配中的重要程度,在面向大量企业业务时,会因为着重匹配非关键部分(如后缀,地区等)、简称部分等而导致匹配到错误的实体对象,难以保证匹配准确性,对于含有非常见词、非登录词的文本泛化能力也较差,导致系统打扰率升高。因此,需要提供一种更可靠的实体名称匹配方案。
技术实现思路
有鉴于此,本说明书一个或多个实施例提供了一种实体名称匹配方法、装置及设备,用于提高实体名称匹配的准确率。为解决上述技术问题,本说明书实施例是这样实现的:本 ...
【技术保护点】
1.一种实体名称匹配方法,包括:/n获取待匹配实体名称;/n对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,所述词向量携带有语义信息;/n采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,所述第一特征向量为权重向量,所述权重表示所述词向量之间的上下文联系;/n采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,所述第二特征向量为携带有域标签的特征向量;/n将所述第二特征向量输入到实体匹配模型中,得到匹配结果。/n
【技术特征摘要】
1.一种实体名称匹配方法,包括:
获取待匹配实体名称;
对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,所述词向量携带有语义信息;
采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,所述第一特征向量为权重向量,所述权重表示所述词向量之间的上下文联系;
采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,所述第二特征向量为携带有域标签的特征向量;
将所述第二特征向量输入到实体匹配模型中,得到匹配结果。
2.如权利要求1所述的方法,所述获取待匹配实体名称,具体包括:
获取待匹配交易数据;
从所述待匹配交易数据中提取出交易双方的账户实体名称,所述账户实体名称包括公司实体名称。
3.如权利要求1所述的方法,所述采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,具体包括:
根据所述词向量的上下文信息采用自注意力机制计算每个词向量的权重值;
根据所述权重值对每个所述词向量进行注意力权重赋值,得到第一特征向量。
4.如权利要求3所述的方法,所述根据所述词向量的上下文信息采用自注意力机制计算每个词向量的权重值,具体包括:
对于任意一个所述词向量,根据所述词向量之间的语义信息,确定所述实体名称中的其他词向量对该词向量的影响权重;
对所述任意一个所述词向量的影响权重进行归一化;
将进行归一化后的权重进行加权求和,得到每个词向量的权重值。
5.如权利要求1所述的方法,所述采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,具体包括:
确定每个所述第一特征向量对应的域标签概率;
根据所述域标签概率确定所述第一特征向量的标签转移关系;
根据所述标签转移关系对所述第一特征向量进行序列组合排序,得到组合排序后的特征向量;
对所述组合排序后的特征向量标注域标签,得到第二特征向量。
6.如权利要求5所述的方法,所述域标签包括:名称标签、地址标签、领域标签、后缀标签和/或其他标签。
7.如权利要求1所述的方法,所述采用训练完成的条件随机场模型对所述第一特征向量进行序列标注之前,还包括:
获取域标签已知的实体名称样本;
提取所述实体名称样本对应的第三特征向量;
将所述第三特征向量输入待训练的条件随机场模型进行训练,得到所述待训练的条件随机场模型输出的所述第三特征向量所述域标签的概率;
根据转移概率表和所述第三特征向量对应的各个域标签的概率,得到第三特征向量对应的最大联合概率对应的标注结果;
将所述标注结果与所述实体名称样本的已知域标签进行比对,得到比对结果;
当所述比对结...
【专利技术属性】
技术研发人员:郑行,陈永环,孙清清,沈淑,张天翼,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。