同义名称词的确定方法和同义名称词的知识库的建立方法技术

技术编号：25397981 阅读：35 留言：0更新日期：2020-08-25 23:02

本说明书提供了同义名称词的确定方法和同义名称词的知识库的建立方法。在一个实施例中，同义名称词的确定方法通过先获取包含有目标对象的第一名称词的第一语料数据，以及与第一语料数据关联的第二语料数据；再通过根据预设的处理规则对上述语料数据进行基于自然语言理解的多组预设处理，得到处理后的语料数据；进而可以利用上述处理后的语料数据，通过确定并利用文本数据的正则表达式，以及文本数据与目标对象的第一名称词之间的关系参数这两种不同维度的参数数据，来挖掘确定出目标对象的同义名称词。从而能够有效地避免遗漏，较为准确、全面地挖掘出目标对象的同义名称词。

全部详细技术资料下载

【技术实现步骤摘要】
同义名称词的确定方法和同义名称词的知识库的建立方法
本说明书属于互联网
，尤其涉及同义名称词的确定方法和同义名称词的知识库的建立方法。
技术介绍
在对数据对象进行风险检测时，常常需要根据该数据对象当前使用的名称，通过检索匹配风险名单中记录的风险对象的名称，来判断该数据对象是否存风险。但是一个数据对象往往可能会同时拥有或使用多个不同的名称。因此，亟需一种能够较为准确、全面地挖掘出目标对象的同义名称词的方法。
技术实现思路
本说明书提供了一种同义名称词的确定方法和同义名称词的知识库的建立方法，以便能够有效避免遗漏，准确、全面地挖掘出目标对象的同义名称词。本说明书提供的一种同义名称词的确定方法和同义名称词的知识库的建立方法是这样实现的：一种同义名称词的确定方法，包括：获取目标对象的第一名称词、第一语料数据，以及第二语料数据，其中，所述第一语料数据为包含有目标对象的第一名称词的数据，所述第二语料数据为与所述第一语料数据关联的数据；根据预设的处理规则，对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理，得到处理后的第一语料数据和处理后的第二语料数据；根据所述处理后的第一语料数据和所述处理后的第二语料数据，确定文本数据的正则表达式，以及文本数据与目标对象的第一名称词之间的关系参数；根据所述文本数据的正则表达式，以及所述文本数据与目标对象的第一名称词之间的关系参数，从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。一种同义名称词的知识...

【技术保护点】
1.一种同义名称词的确定方法，包括：/n获取目标对象的第一名称词、第一语料数据，以及第二语料数据，其中，所述第一语料数据为包含有目标对象的第一名称词的数据，所述第二语料数据为与所述第一语料数据关联的数据；/n根据预设的处理规则，对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理，得到处理后的第一语料数据和处理后的第二语料数据；/n根据所述处理后的第一语料数据和所述处理后的第二语料数据，确定文本数据的正则表达式，以及文本数据与目标对象的第一名称词之间的关系参数；/n根据所述文本数据的正则表达式，以及所述文本数据与目标对象的第一名称词之间的关系参数，从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。/n

【技术特征摘要】
1.一种同义名称词的确定方法，包括：
获取目标对象的第一名称词、第一语料数据，以及第二语料数据，其中，所述第一语料数据为包含有目标对象的第一名称词的数据，所述第二语料数据为与所述第一语料数据关联的数据；
根据预设的处理规则，对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理，得到处理后的第一语料数据和处理后的第二语料数据；
根据所述处理后的第一语料数据和所述处理后的第二语料数据，确定文本数据的正则表达式，以及文本数据与目标对象的第一名称词之间的关系参数；
根据所述文本数据的正则表达式，以及所述文本数据与目标对象的第一名称词之间的关系参数，从所述第一语料数据和所述第二语料数据中确定出目标对象的同义名称词。

2.根据权利要求1所述的方法，获取第一语料数据，以及第二语料数据，包括：
检索预设的网络数据源，将包含有目标对象第一名称词的网页数据，确定为所述第一语料数据，其中，所述预设的网络数据源包括多个基于不同语种语言的子数据源；
根据所述第一语料数据的网页数据中携带有的超链接数据，确定出与所述第一语料数据关联的网页数据作为所述第二语料数据。

3.根据权利要求2所述的方法，在获取第一语料数据，以及第二语料数据后，所述方法还包括：
对所述第一语料数据，以及所述第二语料数据进行数据过滤，以去除非文本数据类的数据，得到过滤后的第一语料数据，以及过滤后的第二语料数据。

4.根据权利要求2所述的方法，在获取第一语料数据，以及第二语料数据后，所述方法还包括：
确定第一语料数据的网页数据中超链接数据的链接类型，其中，所述链接类型包括以下至少之一：不同语种语言之间的链接、分类与子类之间的链接、分类与解释页面之间的链接、重定向页面与解释页面之间的链接；
根据所述超链接数据的链接类型，确定出所述超链接数据所指向的第二语料数据与所述第一语料数据之间的关联类型。

5.根据权利要求4所述的方法，所述根据预设的处理规则，对所述第一语料数据和所述第二语料数据分别进行基于自然语言理解的多组预设处理，得到处理后的第一语料数据和处理后的第二语料数据，包括：
对所述第一语料数据和所述第二语料数据分别进行词性识别，并根据词性识别结果对所述第一语料数据和所述第二语料数据中的文本数据设置对应的词性标签，得到第一预设处理后的第一语料数据和第一预设处理后的第二语料数据；
对所述第一预设处理处理后的第一语料数据和第一预设处理后的第二语料数据分别进行命名实体对象检测，并对检测结果为命名实体对象的文本数据设置命名实体对象标签，得到第二预设处理后的第一语料数据和第二预设处理后的第二语料数据；
对所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据分别进行句法依存分析，并根据分析结果在所述第二预设处理后的第一语料数据和所述第二预设处理后的第二语料数据中标注出文本数据之间的句法依存关系，得到第三预设处理后的第一语料数据和第三预设处理后的第二语料数据，作为所述处理后的第一语料数据和处理后的第二语料数据。

6.根据权利要求5所述的方法，所述关系参数包括相关度，和/或，同义关系参数。

7.根据权利要求6所述的方法，根据所述处理后的第一语料数据和所述处理后的第二语料数据，确定文本数据与目标对象的第一名称词之间的相关度，包括：
根据所述第二语料数据与所述第一语料数据之间的关联类型，确定所述第二语料数据中的文本数据与目标对象的第一名称词之间的相关度。

8.根据权利要求6所述的方法，根据所述处理后的第一语料数据和所述处理后的第二语料数据，确定文本数据与目标对象的第一名称词之间的同义关系参数，包括：
将所述处理后的第一语料数据和所述处理后的第二语料数据，拆分成多个句子数据；
利用预设的关系预测模型对所述多个句子数据进行预测，得到句子数据中的文本数据之间的关系预测结果；
根据所述关系预测结果，确定出文本数据与目标对象的第一名称词之间的同义关系参数。

9.根据权利要求8所述的方法，所述预设的关系预测模型按照以下方式获取：
获取样本句子数据，并对所述样本句子数据进行句法依存分析，得到分析结果；
根据所述分析结果，建立针对所述样本句子数据的样本句法依存关系树；
根据所述样本句法依存关系树，进行模型训练，以得到所述预设的关系预...

【专利技术属性】
技术研发人员：孙清清，邹泊滔，吴潇丽，张天翼，赵云，王嘉浩，沈淑，钱堃，王爱凌，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人