一种近义词筛选方法及系统技术方案

技术编号:16755568 阅读:27 留言:0更新日期:2017-12-09 02:05
本发明专利技术提供一种近义词筛选方法,包括以下步骤:训练大语料词语的词向量;挖掘大语料词语的近义词,具体包括:获取候选近义词集合;更新近义词相似度;筛选获得近义词列表。相比于现有技术,本发明专利技术的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。将本发明专利技术应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。

A method and system for the screening of synonyms

The invention provides a method for selecting synonyms, including the following steps: training word vectors of large corpus words, mining near synonyms of large corpus words, including obtaining candidate synonyms set, updating synonyms similarity, and selecting synonyms list. Compared with the prior art, the invention of the synonyms in screening methods, after a large corpus trained synonym coverage, add a new large corpus can find synonyms for good timeliness, quality through near synonyms synonyms between synonyms principle screened more, Natural Language Processing added a very powerful semantic understanding the tool. The application of the invention to chat robot can better identify users' sentences expressing the same meaning with different words, and improve the level of robot understanding of sentences.

【技术实现步骤摘要】
一种近义词筛选方法及系统
本专利技术涉及人工智能领域,特别是一种近义词筛选方法及系统。
技术介绍
在聊天机器人设计中,经常需要让计算机理解用户的同一句话,用不同的表达形式,以提高机器人对句子的识别水平,其中近义词的变换是最常用办法。近义词在信息抽取、问答系统、数据挖掘等基础应用中发挥重要的作用。现有的近义词挖掘方法要么词语的覆盖面窄,要么获取的近义词较陈旧,要么近义词的质量不高,这些问题都影响近义词在自然语言处理领域的应用。现有技术在进行近义词挖掘时所采用的方法主要包括:1、依靠本体词典或知识库的规则方法。例如用同义词词林,查找同义词来获取。2、基于搜索日志对用户行为的同义词自动挖掘的方法。例如,根据大量用户的不同输入词和相同页面的点击操作,及网页开发者对页面的关键词描述等。来挖掘用户之间用不同输入词表达出来的同义关系。3、利用神经网络语言模型学习词向量化表示,通过计算词向量的余弦相似度来衡量词汇语义上相似的方法。然而,现有技术中仍然存在以下的缺点和不足:1、对于依靠本体词典或知识库的规则方法,由于词典和知识库大多依赖人工构建,其时效性和覆盖面都比较差。2、基于搜索日志行为的方法需要利用同义词集的结构模板,可拓展性和覆盖面都不好。3、通过神经网络语言模型的词向量化表示的余弦相似度来衡量词汇语义上的相似度,这类方法有一定效果,但是现有的方法不能获取较高质量的近义词。神经网络语言模型的词向量能一定程度反映语义的相似性,但是获取的相似词中有一些词语在语义上并不相近,这些方法都不能把非近义词有效去除从而得到质量较高的近义词。综上,现有技术的近义词获取方法在获取的近义词时,不能同时达到覆盖面广,时效性好,质量较高的要求,还不能满足自然语言处理的需求,也难以提高聊天机器人理解句子的水平。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供了一种近义词筛选方法及系统。本专利技术通过以下的方案实现:一种近义词筛选方法,包括以下步骤:训练大语料词语的词向量;挖掘大语料词语的近义词,具体包括:获取候选近义词集合;更新近义词相似度;筛选获得近义词列表。作为本专利技术的进一步改进,所述步骤:训练大语料词语的词向量中,具体包括:抓取原始数据,具体为:抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据;预处理大语料,具体为去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;训练词向量模型,具体为:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。作为本专利技术的进一步改进,所述步骤:获取候选近义词集合中,具体包括:计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。作为本专利技术的进一步改进,所述步骤:更新近义词相似度,具体为:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。作为本专利技术的进一步改进,所述步骤:筛选获得近义词列表,具体为:对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。本专利技术还提供了一种近义词筛选系统,其包括:词向量训练模块,用于训练大语料词语的词向量;近义词挖掘模块,用于挖掘大语料词语的近义词;所述近义词挖掘模块具体包括:候选集合获取模块,用于获取候选近义词集合;更新模块,用于更新近义词相似度;筛选模块,用于筛选获得近义词列表。作为本专利技术的进一步改进,所述词向量训练模块具体包括:抓取模块,用于通过抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据;预处理模块,用于去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;训练模块,用于使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。作为本专利技术的进一步改进,所述候选集合获取模块具体包括:计算模块,用于计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;过滤模块,用于对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。作为本专利技术的进一步改进,所述更新模块具体通过分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。作为本专利技术的进一步改进,所述筛选模块具体通过对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。相比于现有技术,本专利技术的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。将本专利技术应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。为了更好地理解和实施,下面结合附图详细说明本专利技术。附图说明图1是本专利技术的近义词筛选方法的步骤流程图。图2是本专利技术的近义词筛选系统的模块框图。具体实施方式以下结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。请同时参阅图1,其为本专利技术的近义词筛选方法的步骤流程图。本专利技术提供了一种近义词筛选方法,包括以下步骤:S1:训练大语料词语的词向量。进一步,所述步骤S1中具体包括:S11:抓取原始数据。具体的,S11具体为:抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据,例如:各种类型的新闻文本,各种题材的小说文本,全部条目的百科文本。S12:预处理大语料。所述步骤S12中具体为:去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词,从而避免错过同一个语义的词语的不同表述。S13:训练词向量模型。所述步骤S13中,具体为:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。S2:挖掘大语料词语的近义词。所述步骤S2中,具体包括:S21:获取候选近义词集合。具体的所述步骤S21中包括:S211:计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数。比如,可以将余弦相似度前10个作为候选词。S212:对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。比如:对前10个候选词进行过滤,将相似度低于0.5的过滤等等,具体可以根据实际情况设置不同的阈值。S22:更新近义词相似度。具体的,所述步骤S22具体为:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。S23:筛选获得近义词列表。具体的,所述步骤S23具体为本文档来自技高网
...
一种近义词筛选方法及系统

【技术保护点】
一种近义词筛选方法,其特征在于:包括以下步骤:训练大语料词语的词向量;挖掘大语料词语的近义词,具体包括:获取候选近义词集合;更新近义词相似度;筛选获得近义词列表。

【技术特征摘要】
1.一种近义词筛选方法,其特征在于:包括以下步骤:训练大语料词语的词向量;挖掘大语料词语的近义词,具体包括:获取候选近义词集合;更新近义词相似度;筛选获得近义词列表。2.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:训练大语料词语的词向量中,具体包括:抓取原始数据,具体为抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据;预处理大语料,具体为去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;训练词向量模型,具体为使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。3.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:获取候选近义词集合中,具体包括:计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。4.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:更新近义词相似度,具体为:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。5.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:筛选获得近义词列表,具体为:对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。6.一种近义词筛选系统,其特...

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广州多益网络股份有限公司多益网络有限公司广东利为网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1