一种自动生成语义相近句子样本的方法技术

技术编号:18894495 阅读:28 留言:0更新日期:2018-09-08 10:57
本发明专利技术公开了一种自动生成语义相近句子样本的方法,属于语言处理技术领域;方法包括:获取句子样本并进行分词处理;采用词向量模型得到与每个词语的语义相近的相近词的集合;分别从集合中选取一个相近词并替换词语,以形成语义相近句子样本;采用语言模型,分别针对每个语义相近句子样本生成用于表示语义可能性的可能值,并按照可能值由高至低对所有语义相近句子样本排序;选取并保留前N个语义相近句子样本,以根据被保留的语义相近句子样本进行后续处理步骤。上述技术方案的有益效果是:能够在不需要海量的后续句子集合的情况下自动生成大批量的语义相近的句子样本,省去了大量的人力工作。

A method for automatically generating samples of semantically similar sentences

The invention discloses a method for automatically generating sentence samples with similar semantics, which belongs to the field of language processing technology. The method comprises: acquiring sentence samples and segmenting words; using word vector model to obtain a set of similar words with similar semantics of each word; selecting a similar word from the set and replacing words respectively. In order to form semantic similarity sentence samples, a language model is used to generate the possible values for each semantic similarity sentence sample to represent the semantic possibility, and all semantic similarity sentence samples are sorted according to the possible values from high to low. The first N semantic similarity sentence samples are selected and retained to represent the retained semantics. Similar sentence samples are followed up. The beneficial effect of the above technical scheme is that it can automatically generate a large number of sentence samples with similar semantics without a large number of subsequent sentence sets, thus saving a lot of manpower work.

【技术实现步骤摘要】
一种自动生成语义相近句子样本的方法
本专利技术涉及自然语言处理
,尤其涉及一种自动生成语义相近句子样本的方法。
技术介绍
现有技术中,在自然语言的处理过程中,很多处理任务都需要大量语义相近的句子或句式集合,这些语义相近的句子或句式的集合通常需要人工来编写,因此会耗费大量的人力和时间。随着自动化技术的发展,越来越多的语义相近句子的编写过程可以由自动化的方式实现。目前大批量获得语义相近的句子集合的方式主要有以下几种:1)采用检索式的方式获取大批量的语义相近句子。所谓检索式方式,是指在海量的候选句子中通过一定的检索式找到语义相近的句子集合。这种方法应用的前提首先是需要有海量的候选句子集合,并且在采用检索式查找并生成语义相近句子的过程中对于语义相似度查找模块的性能要求非常高,即语义相似度查找模块的性能决定了采用检索式方式获取的语义相近句子的精确程度。2)采用sequencetosequence的方式获取大批量的语义相近句子。这种方式目前在学术科研领域的研究非常活跃,但是采用这种方式在实际应用中生成的很多句子并不合理,其性能并不是很好,因此缺乏一定的实用性。
技术实现思路
根据现有技术中存在的上述问题,现提供一种自动生成语义相近句子样本的方法的技术方案,旨在有效地自动生成大批量的语义相近的句子样本,省去了大量的人力工作。上述技术方案具体包括:一种自动生成语义相近句子样本的方法,适用于自然语言处理的过程中;其中,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型,还包括:步骤S1,获取外部输入的句子样本;步骤S2,对所述句子样本进行分词处理,以将所述句子样本分解为包括多个依序排列的词语的组合;步骤S3,采用所述词向量模型,分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合;步骤S4,分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语,以形成关联于所述句子样本的所述语义相近句子样本;步骤S5,判断所述集合中是否还有尚未被选取的所述相近词:若有,则返回所述步骤S4;步骤S6,采用所述语言模型,分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值,并按照所述可能值由高至低对所有所述语义相近句子样本排序;步骤S7,选取并保留前N个所述语义相近句子样本,以根据被保留的所述语义相近句子样本进行后续处理步骤。优选的,该自动生成语义相近句子样本的方法,其中,所述句子样本的类型包括:句子类型,所述句子类型的所述句子样本中包括依序排列的多个所述词语;句式类型,所述句式类型的所述句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;所述步骤S1具体包括:步骤S11,获取外部输入的所述句子样本;步骤S12,判断所述句子样本的类型:若所述句子样本为所述句式类型,则转向步骤S13;若所述句子样本为所述句子类型,则直接转向所述步骤S2;步骤S13,将所述句子样本中的每个所述词类标签分别替换成对应于所述词类标签的一高频词,以形成完整的所述句子样本,随后转向所述步骤S2。优选的,该自动生成语义相近句子样本的方法,其中,采用一预设的分词方法预先训练并形成所述词向量模型;则所述步骤S2中,采用所述预设的分词方法对所述句子样本进行分词处理。优选的,该自动生成语义相近句子样本的方法,其中,所述步骤S4中,被选取并用于替换的所述相近词与被替换的所述词语之间具有相同的词性。优选的,该自动生成语义相近句子样本的方法,其中,所述步骤S6中,每个所述语义相近句子样本的所述可能值为用于表示每个所述语义相近句子样本作为一个完整的句子成立的可能性的语义学评分。优选的,该自动生成语义相近句子样本的方法,其中,所述语义相近句子样本的类型包括:句子类型,所述句子类型的所述语义相近句子样本中包括依序排列的多个所述词语;句式类型,所述句式类型的所述语义相近句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;则所述步骤S7具体包括:步骤S71,选取并保留前N个所述语义相近句子样本;步骤S72,判断是否需要输出所述句式类型的所述语义相近句子样本:若是,则转向步骤S73;若否,则转向步骤S74;步骤S73,将所述语义相近句子样本中包括的词语替换成对应的所述词类标签,以形成完整的所述语义相近句子样本,随后进行后续处理步骤;步骤S74,根据被保留的所述语义相近句子样本进行后续处理步骤。上述技术方案的有益效果是:提供一种自动生成语义相近句子样本的方法,能够在不需要海量的后续句子集合的情况下自动生成大批量的语义相近的句子样本,省去了大量的人力工作。附图说明图1是本专利技术的较佳的实施例中,一种自动生成语义相近句子样本的方法的总体流程示意图;图2是本专利技术的较佳的实施例中,于图1的基础上,获取外部输入的句子样本并进行处理的流程示意图;图3是本专利技术的较佳的实施例中,于图1的基础上,选取并保留语义相近句子样本的同时对输出的语义相近句子样本进行处理的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。基于现有技术中存在的上述问题,现提供一种自动生成语义相近句子样本的方法,该方法适用于自然语言处理的过程中。上述方法中,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的语义相近句子样本的语义可能性的语言模型。上述方法具体如图1所示,包括:步骤S1,获取外部输入的句子样本;步骤S2,对句子样本进行分词处理,以将句子样本分解为包括多个依序排列的词语的组合;步骤S3,采用词向量模型,分别得到与句子样本中包括的每个词语的语义相近的相近词的集合;步骤S4,分别从与每个词语相对应的集合中选取一个相近词并替换词语,以形成关联于句子样本的语义相近句子样本;步骤S5,判断集合中是否还有尚未被选取的相近词:若有,则返回步骤S4;步骤S6,采用语言模型,分别针对每个语义相近句子样本生成用于表示语义可能性的可能值,并按照可能值由高至低对所有语义相近句子样本排序;步骤S7,选取并保留前N个语义相近句子样本,以根据被保留的语义相近句子样本进行后续处理步骤。本实施例中,上述词向量模型可以采用一些将词表征为实数值向量的工具形成,例如Word2vec,该工具可以利用深度学习的思想,通过训练把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。上述词向量是指采用神经网络对语言模型进行建模,同时获得一种单词在向量空间上的表示,采用词向量对词语进行处理就能根据词语之间的相似度获得该词语的相近词。具体地,本实施例中,训练形成上述词向量模型的训练本文档来自技高网...

【技术保护点】
1.一种自动生成语义相近句子样本的方法,适用于自然语言处理的过程中;其特征在于,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型,还包括:步骤S1,获取外部输入的句子样本;步骤S2,对所述句子样本进行分词处理,以将所述句子样本分解为包括多个依序排列的词语的组合;步骤S3,采用所述词向量模型,分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合;步骤S4,分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语,以形成关联于所述句子样本的所述语义相近句子样本;步骤S5,判断所述集合中是否还有尚未被选取的所述相近词:若有,则返回所述步骤S4;步骤S6,采用所述语言模型,分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值,并按照所述可能值由高至低对所有所述语义相近句子样本排序;步骤S7,选取并保留前N个所述语义相近句子样本,以根据被保留的所述语义相近句子样本进行后续处理步骤。

【技术特征摘要】
1.一种自动生成语义相近句子样本的方法,适用于自然语言处理的过程中;其特征在于,预先训练并形成用于处理得到语义相近的词语的词向量模型,以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型,还包括:步骤S1,获取外部输入的句子样本;步骤S2,对所述句子样本进行分词处理,以将所述句子样本分解为包括多个依序排列的词语的组合;步骤S3,采用所述词向量模型,分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合;步骤S4,分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语,以形成关联于所述句子样本的所述语义相近句子样本;步骤S5,判断所述集合中是否还有尚未被选取的所述相近词:若有,则返回所述步骤S4;步骤S6,采用所述语言模型,分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值,并按照所述可能值由高至低对所有所述语义相近句子样本排序;步骤S7,选取并保留前N个所述语义相近句子样本,以根据被保留的所述语义相近句子样本进行后续处理步骤。2.如权利要求1所述的自动生成语义相近句子样本的方法,其特征在于,所述句子样本的类型包括:句子类型,所述句子类型的所述句子样本中包括依序排列的多个所述词语;句式类型,所述句式类型的所述句子样本中包括依序排列的多个所述词语和多个所述词语的词类标签,或者所述句式类型的所述句子样本中包括依序排列的多个所述词类标签;所述步骤S1具体包括:步骤S11,获取外部输入的所述句子样本;步骤S12,判断所述句子样本的类型:若所述句子样本为所述句式类型,则转向步骤S13;若所述句子样本为所述句子类型,则直接转向所述步骤S2;步骤S13,将所述句子样本中的每个所述词类标签分别替换成对应于所述词类标签的一高...

【专利技术属性】
技术研发人员:王昊陈见耸高鹏
申请(专利权)人:芋头科技杭州有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1