同义名称词的确定方法和同义名称词的知识库的建立方法技术

技术编号:25397981 阅读:35 留言:0更新日期:2020-08-25 23:02
本说明书提供了同义名称词的确定方法和同义名称词的知识库的建立方法。在一个实施例中,同义名称词的确定方法通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,来挖掘确定出目标对象的同义名称词。从而能够有效地避免遗漏,较为准确、全面地挖掘出目标对象的同义名称词。

【技术实现步骤摘要】
同义名称词的确定方法和同义名称词的知识库的建立方法
本说明书属于互联网
,尤其涉及同义名称词的确定方法和同义名称词的知识库的建立方法。
技术介绍
在对数据对象进行风险检测时,常常需要根据该数据对象当前使用的名称,通过检索匹配风险名单中记录的风险对象的名称,来判断该数据对象是否存风险。但是一个数据对象往往可能会同时拥有或使用多个不同的名称。因此,亟需一种能够较为准确、全面地挖掘出目标对象的同义名称词的方法。
技术实现思路
本说明书提供了一种同义名称词的确定方法和同义名称词的知识库的建立方法,以便能够有效避免遗漏,准确、全面地挖掘出目标对象的同义名称词。本说明书提供的一种同义名称词的确定方法和同义名称词的知识库的建立方法是这样实现的:一种同义名称词的确定方法,包括:获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。一种同义名称词的知识库的建立方法,包括:获取多个数据对象中各个数据对象的第一名称词,以及第一语料数据和第二语料数据,其中,所述第一语料数据为包含有数据对象的第一名称词的数据,所述第二语料数据为与第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与各个数据对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与各个数据对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据挖掘出各个数据对象的同义名称词;根据所述各个数据对象的同义名称词,建立同义名称词的知识库。一种同义名称词的确定装置,包括:获取模块,用于获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;预处理模块,用于根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;第一确定模块,用于根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;第二确定模块,用于根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。本说明书提供的同义名称词的确定方法和同义名称词的知识库的建立方法,通过先获取包含有目标对象的第一名称词的第一语料数据,以及与第一语料数据关联的第二语料数据;再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理,得到处理后的语料数据;进而可以利用上述处理后的语料数据,通过确定并综合利用文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据,来挖掘确定出目标对象的同义名称词。从而能够有效地避免出现遗漏,较为准确、全面地挖掘出目标对象的同义名称词。附图说明为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是应用本说明书实施例提供的同义名称词的确定方法的系统结构组成的一个实施例的示意图;图2是在一个场景示例中,应用本说明书实施例提供的同义名称词的确定方法的一种实施例的示意图;图3是在一个场景示例中,应用本说明书实施例提供的同义名称词的确定方法的一种实施例的示意图;图4是在一个场景示例中,应用本说明书实施例提供的同义名称词的确定方法的一种实施例的示意图;图5是本说明书的一个实施例提供的同义名称词的确定方法的流程示意图;图6是本说明书的一个实施例提供的同义名称词的知识库的建立方法的流程示意图;图7是本说明书的一个实施例提供的服务器的结构组成示意图;图8是本说明书的一个实施例提供的同义名称词的确定装置的结构组成示意图。具体实施方式为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。本说明书实施例提供一种同义名称词的确定方法,所述同义名称词的本文档来自技高网
...

【技术保护点】
1.一种同义名称词的确定方法,包括:/n获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;/n根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;/n根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;/n根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。/n

【技术特征摘要】
1.一种同义名称词的确定方法,包括:
获取目标对象的第一名称词、第一语料数据,以及第二语料数据,其中,所述第一语料数据为包含有目标对象的第一名称词的数据,所述第二语料数据为与所述第一语料数据关联的数据;
根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据;
根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据的正则表达式,以及文本数据与目标对象的第一名称词之间的关系参数;
根据所述文本数据的正则表达式,以及所述文本数据与目标对象的第一名称词之间的关系参数,从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。


2.根据权利要求1所述的方法,获取第一语料数据,以及第二语料数据,包括:
检索预设的网络数据源,将包含有目标对象第一名称词的网页数据,确定为所述第一语料数据,其中,所述预设的网络数据源包括多个基于不同语种语言的子数据源;
根据所述第一语料数据的网页数据中携带有的超链接数据,确定出与所述第一语料数据关联的网页数据作为所述第二语料数据。


3.根据权利要求2所述的方法,在获取第一语料数据,以及第二语料数据后,所述方法还包括:
对所述第一语料数据,以及所述第二语料数据进行数据过滤,以去除非文本数据类的数据,得到过滤后的第一语料数据,以及过滤后的第二语料数据。


4.根据权利要求2所述的方法,在获取第一语料数据,以及第二语料数据后,所述方法还包括:
确定第一语料数据的网页数据中超链接数据的链接类型,其中,所述链接类型包括以下至少之一:不同语种语言之间的链接、分类与子类之间的链接、分类与解释页面之间的链接、重定向页面与解释页面之间的链接;
根据所述超链接数据的链接类型,确定出所述超链接数据所指向的第二语料数据与所述第一语料数据之间的关联类型。


5.根据权利要求4所述的方法,所述根据预设的处理规则,对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理,得到处理后的第一语料数据和处理后的第二语料数据,包括:
对所述第一语料数据和所述第二语料数据分别进行词性识别,并根据词性识别结果对所述第一语料数据和所述第二语料数据中的文本数据设置对应的词性标签,得到第一预设处理后的第一语料数据和第一预设处理后的第二语料数据;
对所述第一预设处理处理后的第一语料数据和第一预设处理后的第二语料数据分别进行命名实体对象检测,并对检测结果为命名实体对象的文本数据设置命名实体对象标签,得到第二预设处理后的第一语料数据和第二预设处理后的第二语料数据;
对所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据分别进行句法依存分析,并根据分析结果在所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据中标注出文本数据之间的句法依存关系,得到第三预设处理后的第一语料数据和第三预设处理后的第二语料数据,作为所述处理后的第一语料数据和处理后的第二语料数据。


6.根据权利要求5所述的方法,所述关系参数包括相关度,和/或,同义关系参数。


7.根据权利要求6所述的方法,根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据与目标对象的第一名称词之间的相关度,包括:
根据所述第二语料数据与所述第一语料数据之间的关联类型,确定所述第二语料数据中的文本数据与目标对象的第一名称词之间的相关度。


8.根据权利要求6所述的方法,根据所述处理后的第一语料数据和所述处理后的第二语料数据,确定文本数据与目标对象的第一名称词之间的同义关系参数,包括:
将所述处理后的第一语料数据和所述处理后的第二语料数据,拆分成多个句子数据;
利用预设的关系预测模型对所述多个句子数据进行预测,得到句子数据中的文本数据之间的关系预测结果;
根据所述关系预测结果,确定出文本数据与目标对象的第一名称词之间的同义关系参数。


9.根据权利要求8所述的方法,所述预设的关系预测模型按照以下方式获取:
获取样本句子数据,并对所述样本句子数据进行句法依存分析,得到分析结果;
根据所述分析结果,建立针对所述样本句子数据的样本句法依存关系树;
根据所述样本句法依存关系树,进行模型训练,以得到所述预设的关系预...

【专利技术属性】
技术研发人员:孙清清邹泊滔吴潇丽张天翼赵云王嘉浩沈淑钱堃王爱凌
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1