一种近义词筛选方法及系统技术方案

技术编号：16755568 阅读：27 留言：0更新日期：2017-12-09 02:05

本发明专利技术提供一种近义词筛选方法，包括以下步骤：训练大语料词语的词向量；挖掘大语料词语的近义词，具体包括：获取候选近义词集合；更新近义词相似度；筛选获得近义词列表。相比于现有技术，本发明专利技术的近义词筛选方法中，经过大语料训练得到的近义词覆盖面广，增添较新的大语料则能找到时效性好的近义词，经过近义词相互之间需要近义的原则筛选得到的近义词质量更高，为自然语言处理的语义理解增添非常有力的工具。将本发明专利技术应用于聊天机器人中，能够更好的识别用户用不同词语表达相同意思的句子，提高了机器人理解句子的水平。

A method and system for the screening of synonyms

The invention provides a method for selecting synonyms, including the following steps: training word vectors of large corpus words, mining near synonyms of large corpus words, including obtaining candidate synonyms set, updating synonyms similarity, and selecting synonyms list. Compared with the prior art, the invention of the synonyms in screening methods, after a large corpus trained synonym coverage, add a new large corpus can find synonyms for good timeliness, quality through near synonyms synonyms between synonyms principle screened more, Natural Language Processing added a very powerful semantic understanding the tool. The application of the invention to chat robot can better identify users' sentences expressing the same meaning with different words, and improve the level of robot understanding of sentences.

全部详细技术资料下载

【技术实现步骤摘要】
一种近义词筛选方法及系统
本专利技术涉及人工智能领域，特别是一种近义词筛选方法及系统。
技术介绍
在聊天机器人设计中，经常需要让计算机理解用户的同一句话，用不同的表达形式，以提高机器人对句子的识别水平，其中近义词的变换是最常用办法。近义词在信息抽取、问答系统、数据挖掘等基础应用中发挥重要的作用。现有的近义词挖掘方法要么词语的覆盖面窄，要么获取的近义词较陈旧，要么近义词的质量不高，这些问题都影响近义词在自然语言处理领域的应用。现有技术在进行近义词挖掘时所采用的方法主要包括：1、依靠本体词典或知识库的规则方法。例如用同义词词林，查找同义词来获取。2、基于搜索日志对用户行为的同义词自动挖掘的方法。例如，根据大量用户的不同输入词和相同页面的点击操作，及网页开发者对页面的关键词描述等。来挖掘用户之间用不同输入词表达出来的同义关系。3、利用神经网络语言模型学习词向量化表示，通过计算词向量的余弦相似度来衡量词汇语义上相似的方法。然而，现有技术中仍然存在以下的缺点和不足：1、对于依靠本体词典或知识库的规则方法，由于词典和知识库大多依赖人工构建，其时效性和覆盖面都比较差。2、基于搜索日志行为的方法需要利用同义词集的结构模板，可拓展性和覆盖面都不好。3、通过神经网络语言模型的词向量化表示的余弦相似度来衡量词汇语义上的相似度，这类方法有一定效果，但是现有的方法不能获取较高质量的近义词。神经网络语言模型的词向量能一定程度反映语义的相似性，但是获取的相似词中有一些词语在语义上并不相近，这些方法都不能把非近义词有效去除从而得到质量较高的近义词。综上，现有技术的近义词获取方法在获取的近...
一种近义词筛选方法及系统

【技术保护点】
一种近义词筛选方法，其特征在于：包括以下步骤：训练大语料词语的词向量；挖掘大语料词语的近义词，具体包括：获取候选近义词集合；更新近义词相似度；筛选获得近义词列表。

【技术特征摘要】
1.一种近义词筛选方法，其特征在于：包括以下步骤：训练大语料词语的词向量；挖掘大语料词语的近义词，具体包括：获取候选近义词集合；更新近义词相似度；筛选获得近义词列表。2.根据权利要求1所述近义词筛选方法，其特征在于：所述步骤：训练大语料词语的词向量中，具体包括：抓取原始数据，具体为抓取各种题材文本数据作为大语料，包括各个领域的各种类型的数据；预处理大语料，具体为去除非中文字符，通过jieba分词的搜索引擎分词模式进行分词；训练词向量模型，具体为使用预处理后的大语料训练神经网络语言模型的词向量，设置参数，并获取大语料中每个词的词向量。3.根据权利要求1所述近义词筛选方法，其特征在于：所述步骤：获取候选近义词集合中，具体包括：计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度，将余弦相似度降序排序，并输出余弦相似度在前N个词语组成候选近义词集合，所述N为正整数；对所述候选近义词集合进行相似度阈值过滤和词性过滤，保留跟输入的目标词词性相同的词，作为候选近义词集。4.根据权利要求1所述近义词筛选方法，其特征在于：所述步骤：更新近义词相似度，具体为：分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度，取余弦相似度的平均值来更新目标词与该候选近义词的相似度。5.根据权利要求1所述近义词筛选方法，其特征在于：所述步骤：筛选获得近义词列表，具体为：对候选近义词集合以更新后的余弦相似度降序排序，取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表，所述N为正整数。6.一种近义词筛选系统，其特...

【专利技术属性】
技术研发人员：徐波，
申请(专利权)人：广州多益网络股份有限公司，多益网络有限公司，广东利为网络科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人