相似词集合的确定方法、装置和电子设备制造方法及图纸

技术编号：20448884 阅读：35 留言：0更新日期：2019-02-27 02:58

本申请实施例公开了一种相似词集合的确定方法、装置和电子设备，该方法包括：对批量文本语料进行分词及文本清洗，并进行词性标注，得到所述批量文本语料对应的词性标注文本；基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练；基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合，所述依存词集合的每个元素包括分词及对应的依存词；基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度，确定相似词集合，所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。

The Method, Device and Electronic Equipment for Determining the Set of Similar Words

The embodiment of this application discloses a method, device and electronic device for determining a set of similar words. The method includes: word segmentation and text cleaning for batch text corpus and part-of-speech tagging to obtain the part-of-speech tagged text corresponding to the batch text corpus; word vector model training based on the part-of-speech constituted by the part-of-speech tagged text; The set of dependent words is determined by the syntactic dependency relation of the specified part of speech in the part of speech annotated text, and each element of the set of dependent words includes the word segmentation and the corresponding dependent words; the set of similar words is determined based on the similarity of the target participle in the set of dependent words and the corresponding dependent words of the target participle in the word vector model, and the element package in the set of similar words is determined. It includes the target participle and the similar words corresponding to the target participle.

全部详细技术资料下载

【技术实现步骤摘要】
相似词集合的确定方法、装置和电子设备
本申请涉及计算机软件
，尤其涉及一种相似词集合的确定方法、装置和电子设备。
技术介绍
相似词，乃至跨语种的相似词在反洗钱、跨境禁限售、反洗钱、舆情控制、文本垃圾、内容安全等依赖关键词或者名单进行文本防控的领域，有至关重要的作用。但是由于语言文化等方面的差异，由于多语言翻译、本地语言风俗化、本地语言社会化等诸多因素，导致对不同国家的语言无法很好的识别和挖掘，从而带了一定的合规监管风险，同时面临不能满足用户体验等多方面的挑战。传统方式通过人工去挖掘夸语种多语种的翻译、以及本地语言风俗化、社会化的挖掘等，一方面挖掘的过程较多的利用了语言专家的专家经验，同时浪费了较多的人力以及带来了国家化成本的增加，另一方面人工挖掘的时效性不能满足风险变化速度，从而导致了一部分风险的漏过，人工经验挖掘的准确度受到经验知识和专家身体状态等各方面的影响，也会带来一些人工误判的风险。如何提高数据挖掘效率及准确率，成为亟待解决的问题
技术实现思路
本申请实施例的目的是提供一种相似词集合的确定方法、装置和电子设备，以提高对相似词的挖掘效率。为解决上述技术问题，本申请实施例是这样实现的：第一方面，提出了一种相似词集合的确定方法，该方法包括：对批量文本语料进行分词及文本清洗，并进行词性标注，得到所述批量文本语料对应的词性标注文本；基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练；基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合，所述依存词集合的每个元素包括分词及对应的依存词；基于依存词集合中目标分词及所述目标分词对...

【技术保护点】
1.一种相似词集合的确定方法，包括：对批量文本语料进行分词及文本清洗，并进行词性标注，得到所述批量文本语料对应的词性标注文本；基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练；基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合，所述依存词集合的每个元素包括分词及对应的依存词；基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度，确定相似词集合，所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。

【技术特征摘要】
1.一种相似词集合的确定方法，包括：对批量文本语料进行分词及文本清洗，并进行词性标注，得到所述批量文本语料对应的词性标注文本；基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练；基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合，所述依存词集合的每个元素包括分词及对应的依存词；基于依存词集合中目标分词及所述目标分词对应的依存词在词向量模型中的相似度，确定相似词集合，所述相似词集合中的元素包括目标分词和所述目标分词对应的相似词。2.如权利要求1所述的方法，所述批量文本语料中包括多语言混合的文本语料，所述多语言混合的文本语料中包括一个分词的多种语言的表述分词。3.如权利要求2所述的方法，所述相似词集合包括目标分词和所述目标分词在其他语言的表述分词。4.如权利要求1所述的方法，对批量文本语料进行分词处理及文本清洗得到内容文本；对所述内容文本进行词性标注，得到所述内容文本对应的词性标注文本。5.如权利要求4所述的方法，对所述内容文本进行词性标注包括：基于预先训练的词性标注模型对所述内容文本进行词性标注。6.如权利要求1所述的方法，基于所述词性标注文本中指定词性构成的指定词性文本进行词向量模型训练，包括：提取所述词性标注文本中标记为所述指定词性的分词构成指定词性内容文本；将所述指定词性内容文本输入词向量模型中进行训练，得到基于指定词性的词向量模型。7.如权利要求6所述的方法，基于所述指定词性的分词在所述词性标注文本中的句法依存关系确定依存词集合包括：基于目标分词在所述词性标注文本中的句法依存关系，选择第一依存词加入所述目标分词的依存词子集，所述第一依存词为与所述目标分词存在指定依存关系的依存词；基于所述词性标注文本中的句法依存关系，选择第二依存词加入所述依存词子集，直至所述词性标注文本中不存在未加入所述依存词子集的第二依存词，所述第二依存词为与所述依存词子集的依存词存在指定依存关系的依存词；将所述目标分词及所述目标分词对应的依存词子集作为所述依存词集合的元素，加入所述依存词集合。8.如权利要求1所述的方法，基于依存词集合中目标分词及目标分词对应的依存词在词向量模型中的相似度，确定相似词集合，包括:确定依存词集合中目标分词及目标分词对应的依存词在词向量模型中的向量差值，所述向量差值用于表示所述目标分词与依存词的相似度；确定与所述目标分词的向量差值小于第一阈值的依存词为所述目标分词的候选相似词；基于所述目标分词及所述目标分词的候选相似...

【专利技术属性】
技术研发人员：陈永环，孙清清，赵云，钱宣统，顾曦，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人