一种实体链接方法和系统技术方案

技术编号:38860639 阅读:13 留言:0更新日期:2023-09-17 10:03
本说明书涉及信息技术领域,特别涉及一种实体链接方法和系统,该方法包括:获取自由文本;基于自由文本提取出关键字;基于关键字得到包含中文信息的关键字表征向量;中文信息包括以下一种或者多种的组合:关键字的拼音信息、关键字的字形信息、前后关键字的关联信息、自由文本的上下文信息;基于关键字表征向量在实体库中确定多个候选实体召回对象;对多个候选实体召回对象进行排序,确定自由文本对应的实体链接项。实体链接项。实体链接项。

【技术实现步骤摘要】
一种实体链接方法和系统


[0001]本说明书涉及信息
,特别涉及一种实体链接方法和系统。

技术介绍

[0002]实体链接任务是指将待识别文本中对象(例如:人名、地名、机构名等),无歧义地正确地指向知识库中已经存在的条目过程。在实现实体链接后,可以便与后续的操作和服务等。
[0003]但自然语言本身具有高度的歧义性,例如每个名称有可能对应多个同名实体;又或是由于输入过程中的不确定性(如错别字、生僻字、同音字等),导致无法确定关联条目,因此,需要一种实体链接方法,能够保证实体链接任务的效果和成功率。

技术实现思路

[0004]本说明书实施例之一提供一种实体链接方法,所述方法包括:获取自由文本;基于所述自由文本提取出关键字;基于所述关键字得到包含中文信息的关键字表征向量;所述中文信息包括以下一种或者多种的组合:所述关键字的拼音信息、所述关键字的字形信息、前后关键字关联信息、所述自由文本的上下文信息;基于所述关键字表征向量在实体库中确定多个候选实体召回对象;对所述多个候选实体召回对象进行排序,确定所述自由文本对应的实体链接项。
[0005]本说明书实施例之一提供一种实体链接系统,包括:信息获取模块,用于获取自由文本;关键字提取模块,用于基于所述自由文本提取出关键字;表征向量确定模块,用于基于所述关键字得到包含中文信息的关键字表征向量;所述中文信息包括以下一种或者多种的组合:所述关键字的拼音信息、所述关键字的字形信息、前后关键字的关联信息、所述自由文本的上下文信息;实体召回模块,用于基于所述关键字表征向量在实体库中确定多个候选实体召回对象;排序确定模型,用于对所述多个候选实体召回对象进行排序,确定所述自由文本对应的实体链接项。
[0006]本说明书实施例之一提供一种实体链接装置,包括处理器,所述处理器用于执行上述实体链接方法。
[0007]本说明书实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行上述实体链接方法。
附图说明
[0008]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书的一些实施例所示的实体链接系统应用场景的示意图;图2是根据本说明书一些实施例所示的实体链接方法的示例性流程图;
图3是根据本说明书一些实施例所示的汉字“贫”的拆分示意图;图4是根据本说明书一些实施例所示的基于召回模型确定候选实体召回对象的示例性流程图;图5是根据本说明书一些实施例所示的召回模型的示例性结构图;图6是根据本说明书一些实施例所示的实体链接系统的示例性模块图。
具体实施方式
[0009]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0010]应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0011]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0012]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0013]在一些实施例中,利用余弦相似度等其他维度的特征来进行实体链接任务,但是常见方式并不完全适应中文环境,缺乏了对汉字字形方面的考虑,当实体链接任务中存在形近字、同音字、偏僻字等情况时,实体链接的准确度不够。例如,“身份证”与“身份证明”间的字符相似度高于“身份证”与“二代证”间的字符相似度,但是在实际语义上“身份证”与“二代证”语义更为接近,又例如,在股票场景中,当用户的输入为“中国中兔”,则应该将其链接到“中国中铁”还是“中国中免”关系到后续展示的页面,可见,实体链接的结果大大关系到用户的使用体验以及后续的服务。
[0014]有鉴于此,本说明书提供了一种实体链接,充分考虑拼音、字形(如结构、笔画)等因素,能够很好的适应中文环境,将用户的输入准确链接至其真实意图对应的实体。
[0015]图1是根据本说明书一些实施例所示的实体链接的应用场景示意图。
[0016]图1是根据本说明书的一些实施例所示的实体链接系统应用场景的示意图。实体链接系统100可以包括服务器110、网络120、终端130和存储设备140。服务器110可以包括处理器112。实体链接系统100中各部件间的连接方式可以是多种的。例如,实体链接系统100中的一个部件可以通过网络120与其他部件进行信息通信。例如,服务器110可以通过网络120从终端130获取信息和/或数据。又例如,服务器可以通过网络120向终端130发送信息和/或数据。
[0017]在一些实施例中,服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如:服务器110可以是分布系统)。在一些实施例中该服务器110可以是区域的或者远程的。例如,服务器110可通过网络120访问存储于终端130、和/或存储设备140的信息和/或资料。在一些实施例中,服务器110可直接与终端130、和/或存储设备140连接以访问存储于其中的信息和/或资料。在一些实施例中,服务器110可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
[0018]在一些实施例中,服务器110可包含处理器112。该处理器112可处理与服务请求有关的数据和/或信息以执行一个或多个本说明书中描述的功能。例如处理器112可基于从终端130获取文本并提取出关键字。在一些实施例中,处理器112可包含一个或多个子处理设备(如:单芯处理设备或多核多芯处理设备)。仅仅作为范例,处理器112可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
[0019]网络120可以是单个网络或不同网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体链接方法,其特征在于,所述方法包括:获取自由文本;基于所述自由文本提取出关键字;基于所述关键字得到包含中文信息的关键字表征向量;所述中文信息包括以下一种或者多种的组合:所述关键字的拼音信息、所述关键字的字形信息、前后关键字的关联信息、所述自由文本的上下文信息;基于所述关键字表征向量在实体库中确定多个候选实体召回对象;对所述多个候选实体召回对象进行排序,确定所述自由文本对应的实体链接项。2.如权利要求1所述的方法,其特征在于,基于所述关键字得到包含中文信息的关键字表征向量,包括:基于所述训练后的召回模型对所述关键字进行处理,得到所述关键字表征向量;所述基于所述关键字表征向量在实体库中确定多个候选实体召回对象,包括:基于训练后的召回模型,对所述实体库中的多个实体对象进行处理,得到所述多个实体对象对应的包含实体中文信息的表征向量;基于所述关键字表征向量和所述实体表征向量对实体对象进行向量检索,得到所述多个候选实体召回对象。3.如权利要求2所述的方法,其特征在于,所述召回模型包括第一嵌入层、第二嵌入层、融合层和文本召回层;所述第一嵌入层用于对拼音信息进行编码;所述第二嵌入层用于对字形信息进行编码;所述融合层用于对所述第一嵌入层和所述第二嵌入层的输出进行融合,并输入至所述文本召回层。4.如权利要求1所述的方法,其特征在于,所述对所述多个候选实体召回对象进行排序,确定目标中文对象,包括:基于排序得分确定目标中文对象;其中,所述排序得分基于字形相似度、拼音相似度和向量余弦...

【专利技术属性】
技术研发人员:谭守东华能威谌明
申请(专利权)人:杭州同花顺数据开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1