相似词集合的确定方法、装置和电子设备制造方法及图纸

技术编号:20448884 阅读:35 留言:0更新日期:2019-02-27 02:58
本申请实施例公开了一种相似词集合的确定方法、装置和电子设备,该方法包括:对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。

The Method, Device and Electronic Equipment for Determining the Set of Similar Words

The embodiment of this application discloses a method, device and electronic device for determining a set of similar words. The method includes: word segmentation and text cleaning for batch text corpus and part-of-speech tagging to obtain the part-of-speech tagged text corresponding to the batch text corpus; word vector model training based on the part-of-speech constituted by the part-of-speech tagged text; The set of dependent words is determined by the syntactic dependency relation of the specified part of speech in the part of speech annotated text, and each element of the set of dependent words includes the word segmentation and the corresponding dependent words; the set of similar words is determined based on the similarity of the target participle in the set of dependent words and the corresponding dependent words of the target participle in the word vector model, and the element package in the set of similar words is determined. It includes the target participle and the similar words corresponding to the target participle.

【技术实现步骤摘要】
相似词集合的确定方法、装置和电子设备
本申请涉及计算机软件
,尤其涉及一种相似词集合的确定方法、装置和电子设备。
技术介绍
相似词,乃至跨语种的相似词在反洗钱、跨境禁限售、反洗钱、舆情控制、文本垃圾、内容安全等依赖关键词或者名单进行文本防控的领域,有至关重要的作用。但是由于语言文化等方面的差异,由于多语言翻译、本地语言风俗化、本地语言社会化等诸多因素,导致对不同国家的语言无法很好的识别和挖掘,从而带了一定的合规监管风险,同时面临不能满足用户体验等多方面的挑战。传统方式通过人工去挖掘夸语种多语种的翻译、以及本地语言风俗化、社会化的挖掘等,一方面挖掘的过程较多的利用了语言专家的专家经验,同时浪费了较多的人力以及带来了国家化成本的增加,另一方面人工挖掘的时效性不能满足风险变化速度,从而导致了一部分风险的漏过,人工经验挖掘的准确度受到经验知识和专家身体状态等各方面的影响,也会带来一些人工误判的风险。如何提高数据挖掘效率及准确率,成为亟待解决的问题
技术实现思路
本申请实施例的目的是提供一种相似词集合的确定方法、装置和电子设备,以提高对相似词的挖掘效率。为解决上述技术问题,本申请实施例是这样实现的:第一方面,提出了一种相似词集合的确定方法,该方法包括:对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。第二方面,提出了一种相似词集合确定装置,该装置包括:分词模块,对批量文本语料进行分词及文本清洗,得到处理后的批量文本语料;词性标注模块,对所述处理后的批量文本语料进行词性标注,得到批量文本语料对应的词性标注文本;词向量模型训练模块,基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;第一确定模块,基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;第二确定模块,基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。第三方面,提出了一种电子设备,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。由以上本申请实施例提供的技术方案可见,本申请实施例方案至少具备如下一种技术效果:本申请实施例中,通过基于指定词性的分词进行词向量模型训练和句法依存分析,并对指定词性的目标分词的句法分析结果进行词向量模型筛选,以得到目标分词的相似词集合,从而能够实现相似词的自动化挖掘,并使得挖掘的相似词集合具有较高的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请的一个实施例相似词集合的确定方法流程图。图2是本申请的一个实施例相似词集合的确定方法的交互流程图。图3是本申请的一个实施例电子设备的结构示意图。图4是本申请的一个实施例相似词集合确定装置的结构示意图。具体实施方式本申请实施例提供一种相似词集合的确定方法、装置和电子设备。为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图1是本申请的一个实施例相似词集合的确定方法流程图。图1的方法可由相似词集合确定装置执行。应理解,相似词集合确定装置,可以是一个计算机系统,或者是一个计算机集群,或者是部署在云端的一个应用,本申请实施例对此不作限制。如图1所示,该方法可包括:S110,对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本。应理解,本申请实施例的批量文本语料,可来源于互联网的网页文本数据。例如,维基百科、百度百科、搜狗百科等百科网站,或者是论坛、贴吧、购物网站、门户网站等。该网页文本数据,也不限于网站上发布的内容数据,还可包括用户对发布内容的评论数据,等等。当然,应理解,网页文本数据不限于上述提到的数据;本申请实施例的批量文本语料,也不限于来自互联网的网页文本数据,例如还可以来源于电子字词典、论文期刊数据库,等等。可选地,本申请实施例的批量文本语料中可包括多语言混合的文本语料,所述多语言混合的文本语料中包括一个分词的多种语言的表述分词。例如,在维基百科英文版的“BanKi-moon”(潘基文的英文名称)词条中,包括如下内容:“BanKi-moon(Hangul:Hanja:潘基文;Koreanpronunciation:[pan.ɡi.mun];born13June1944)isaSouthKoreandiplomat”。其中,“BanKi-moon”、“潘基文”、“pan.ɡi.mun”分别是潘基文的英文名称、英文缩写、韩文、汉语、韩文发音。应理解,本申请实施例的方法,不仅适用于同种语言的相似词挖掘中,还可应用于不同语言的相似词挖掘。可选地,步骤S110具体可实现为:对批量文本语料进行分词处理及文本清洗得到内容文本;对所述内容文本进行词性标注,得到所述内容文本对应的词性标注文本。应理解,在进行分词时,对于英文等语言本文档来自技高网
...

【技术保护点】
1.一种相似词集合的确定方法,包括:对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。

【技术特征摘要】
1.一种相似词集合的确定方法,包括:对批量文本语料进行分词及文本清洗,并进行词性标注,得到所述批量文本语料对应的词性标注文本;基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练;基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合,所述依存词集合的每个元素包括分词及对应的依存词;基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。2.如权利要求1所述的方法,所述批量文本语料中包括多语言混合的文本语料,所述多语言混合的文本语料中包括一个分词的多种语言的表述分词。3.如权利要求2所述的方法,所述相似词集合包括目标分词和所述目标分词在其他语言的表述分词。4.如权利要求1所述的方法,对批量文本语料进行分词处理及文本清洗得到内容文本;对所述内容文本进行词性标注,得到所述内容文本对应的词性标注文本。5.如权利要求4所述的方法,对所述内容文本进行词性标注包括:基于预先训练的词性标注模型对所述内容文本进行词性标注。6.如权利要求1所述的方法,基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练,包括:提取所述词性标注文本中标记为所述指定词性的分词构成指定词性内容文本;将所述指定词性内容文本输入词向量模型中进行训练,得到基于指定词性的词向量模型。7.如权利要求6所述的方法,基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合包括:基于目标分词在所述词性标注文本中的句法依存关系,选择第一依存词加入所述目标分词的依存词子集,所述第一依存词为与所述目标分词存在指定依存关系的依存词;基于所述词性标注文本中的句法依存关系,选择第二依存词加入所述依存词子集,直至所述词性标注文本中不存在未加入所述依存词子集的第二依存词,所述第二依存词为与所述依存词子集的依存词存在指定依存关系的依存词;将所述目标分词及所述目标分词对应的依存词子集作为所述依存词集合的元素,加入所述依存词集合。8.如权利要求1所述的方法,基于依存词集合中目标分词及目标分词对应的依存词在词向量模型中的相似度,确定相似词集合,包括:确定依存词集合中目标分词及目标分词对应的依存词在词向量模型中的向量差值,所述向量差值用于表示所述目标分词与依存词的相似度;确定与所述目标分词的向量差值小于第一阈值的依存词为所述目标分词的候选相似词;基于所述目标分词及所述目标分词的候选相似...

【专利技术属性】
技术研发人员:陈永环孙清清赵云钱宣统顾曦
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1