一种自动生成语义相近句子样本的方法技术

技术编号：18894495 阅读：28 留言：0更新日期：2018-09-08 10:57

本发明专利技术公开了一种自动生成语义相近句子样本的方法，属于语言处理技术领域；方法包括：获取句子样本并进行分词处理；采用词向量模型得到与每个词语的语义相近的相近词的集合；分别从集合中选取一个相近词并替换词语，以形成语义相近句子样本；采用语言模型，分别针对每个语义相近句子样本生成用于表示语义可能性的可能值，并按照可能值由高至低对所有语义相近句子样本排序；选取并保留前N个语义相近句子样本，以根据被保留的语义相近句子样本进行后续处理步骤。上述技术方案的有益效果是：能够在不需要海量的后续句子集合的情况下自动生成大批量的语义相近的句子样本，省去了大量的人力工作。

A method for automatically generating samples of semantically similar sentences

The invention discloses a method for automatically generating sentence samples with similar semantics, which belongs to the field of language processing technology. The method comprises: acquiring sentence samples and segmenting words; using word vector model to obtain a set of similar words with similar semantics of each word; selecting a similar word from the set and replacing words respectively. In order to form semantic similarity sentence samples, a language model is used to generate the possible values for each semantic similarity sentence sample to represent the semantic possibility, and all semantic similarity sentence samples are sorted according to the possible values from high to low. The first N semantic similarity sentence samples are selected and retained to represent the retained semantics. Similar sentence samples are followed up. The beneficial effect of the above technical scheme is that it can automatically generate a large number of sentence samples with similar semantics without a large number of subsequent sentence sets, thus saving a lot of manpower work.

全部详细技术资料下载

【技术实现步骤摘要】
一种自动生成语义相近句子样本的方法
本专利技术涉及自然语言处理
，尤其涉及一种自动生成语义相近句子样本的方法。
技术介绍
现有技术中，在自然语言的处理过程中，很多处理任务都需要大量语义相近的句子或句式集合，这些语义相近的句子或句式的集合通常需要人工来编写，因此会耗费大量的人力和时间。随着自动化技术的发展，越来越多的语义相近句子的编写过程可以由自动化的方式实现。目前大批量获得语义相近的句子集合的方式主要有以下几种：1)采用检索式的方式获取大批量的语义相近句子。所谓检索式方式，是指在海量的候选句子中通过一定的检索式找到语义相近的句子集合。这种方法应用的前提首先是需要有海量的候选句子集合，并且在采用检索式查找并生成语义相近句子的过程中对于语义相似度查找模块的性能要求非常高，即语义相似度查找模块的性能决定了采用检索式方式获取的语义相近句子的精确程度。2)采用sequencetosequence的方式获取大批量的语义相近句子。这种方式目前在学术科研领域的研究非常活跃，但是采用这种方式在实际应用中生成的很多句子并不合理，其性能并不是很好，因此缺乏一定的实用性。
技术实现思路
根据现有技术中存在的上述问题，现提供一种自动生成语义相近句子样本的方法的技术方案，旨在有效地自动生成大批量的语义相近的句子样本，省去了大量的人力工作。上述技术方案具体包括：一种自动生成语义相近句子样本的方法，适用于自然语言处理的过程中；其中，预先训练并形成用于处理得到语义相近的词语的词向量模型，以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型，还包括：步骤S1，获取外部输入的句子样本...

【技术保护点】
1.一种自动生成语义相近句子样本的方法，适用于自然语言处理的过程中；其特征在于，预先训练并形成用于处理得到语义相近的词语的词向量模型，以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型，还包括：步骤S1，获取外部输入的句子样本；步骤S2，对所述句子样本进行分词处理，以将所述句子样本分解为包括多个依序排列的词语的组合；步骤S3，采用所述词向量模型，分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合；步骤S4，分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语，以形成关联于所述句子样本的所述语义相近句子样本；步骤S5，判断所述集合中是否还有尚未被选取的所述相近词：若有，则返回所述步骤S4；步骤S6，采用所述语言模型，分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值，并按照所述可能值由高至低对所有所述语义相近句子样本排序；步骤S7，选取并保留前N个所述语义相近句子样本，以根据被保留的所述语义相近句子样本进行后续处理步骤。

【技术特征摘要】
1.一种自动生成语义相近句子样本的方法，适用于自然语言处理的过程中；其特征在于，预先训练并形成用于处理得到语义相近的词语的词向量模型，以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型，还包括：步骤S1，获取外部输入的句子样本；步骤S2，对所述句子样本进行分词处理，以将所述句子样本分解为包括多个依序排列的词语的组合；步骤S3，采用所述词向量模型，分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合；步骤S4，分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语，以形成关联于所述句子样本的所述语义相近句子样本；步骤S5，判断所述集合中是否还有尚未被选取的所述相近词：若有，则返回所述步骤S4；步骤S6，采用所述语言模型，分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值，并按照所述可能值由高至低对所有所述语义相近句子样本排序；步骤S7，选取并保留前N个所述语义相近句子样本，以根据被保留的所述语义相近句子样本进行后续处理步骤。2.如权利要求1所述的自动生成语义相近句子样本的方法，其特征在于，所述句子样本的类型包括：句子类型，所述句子类型的所述句子样本中包括依序排列的多个所述词语；句式类型，所述句式类型的所述句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签，或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签；所述步骤S1具体包括：步骤S11，获取外部输入的所述句子样本；步骤S12，判断所述句子样本的类型：若所述句子样本为所述句式类型，则转向步骤S13；若所述句子样本为所述句子类型，则直接转向所述步骤S2；步骤S13，将所述句子样本中的每个所述词类标签分别替换成对应于所述词类标签的一高...

【专利技术属性】
技术研发人员：王昊，陈见耸，高鹏，
申请(专利权)人：芋头科技杭州有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人