分词方法及装置、建立句子向量生成模型方法及装置制造方法及图纸

技术编号:17346200 阅读:49 留言:0更新日期:2018-02-25 11:20
本发明专利技术公开了一种分词方法,包括:通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;将若干初步分词结果中的词语转化为词向量;将每一初步分词结果的词向量输入句子向量生成模型,以得到每一初步分词结果的第一句子向量;根据预设算法计算待分词句子的标准句子向量;将与标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为待分词句子的最终分词结果;其中,句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。本发明专利技术得到的分词结果能够有效表达语义,提高了分词的效率与准确率。

【技术实现步骤摘要】
分词方法及装置、建立句子向量生成模型方法及装置
本专利技术涉及人工智能领域,尤其涉及一种分词方法及装置、建立句子向量生成模型方法及装置。
技术介绍
在自然语言处理中,文本分词是其他语义分析处理的前提和基础。对英文文本,词自然地以空格为划分标志,而对中文文本,词的划分并没有固定的标志或规则,因为中文词语的构成往往包含了人的主观意志与应用语境。也因此,对同一个中文文本,可以有多种不同的分词结果,其中有一个分词结果,它的语义通常更为接近句子的“真实”语义。而现今常见的分词系统有中科院的NLPIR汉语分词系统以及结巴分词系统等,本专利技术人在实施过程中发现,现有技术中存在以下技术问题:现有技术通常都是通用型的分词工具,对特定领域的中文文本,其默认的分词结果,往往效果欠佳,难以较好地表达真实的语义。
技术实现思路
本专利技术实施例提供一种分词方法及装置、建立句子向量生成模型方法及装置,能有效解决现有技术中分词结果无法表达真实语义的问题,得到的分词结果能够有效表达语义,提高了分词的效率与准确率。本专利技术实施例提供一种分词方法,包括:通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;将所述若干初步分词结果中的词语转化为词向量;将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;根据预设算法计算所述待分词句子的标准句子向量;将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。本专利技术实施例所提供的一种分词方法,通过对待分词句子通过分词技术得到若干初步分词结果后,将每一初步分词结果的词语转化为词向量后输入到句子向量生成模型中,获取与每一初步分词结果对应的句子向量,另一方面,通过预设算法直接获取待分词句子的句子向量作为标准句子向量,然后将每一初步分词结果对应的句子向量与标准句子向量进行相似度比较,将相似度最高的初步分词结果做为最终分词结果。本实施例使用了循环神经网络来生成句子向量,生成的句子向量包含了词与词之间的语义依赖关系,基于分词结果与句子的语义相似度的,得到的分词结果能够有效表达语义,提高了分词结果优选的效率与准确率。进一步的,所述将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果包括:计算每一所述第一句子向量与所述标准句子向量之间的距离;其中,所述距离为余弦距离或欧式距离;比较每一所述第一句子向量与所述标准句子向量之间的距离的数值大小关系,确定所述距离的数值最小的所述第一句子向量所对应的初步分词结果为最终分词结果。进一步的,所述根据预设算法计算所述待分词句子的标准句子向量包括:根据sentence2vec算法计算所述待分词句子的标准句子向量。进一步的,所述将所述若干初步分词结果中的词语转化为词向量包括:获取词向量模型,并通过词向量模型将所述初步分词结果中的词语转化为词向量;所述获取词向量模型的过程包括:获取所述目标领域的文本语料库;对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。进一步的,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的句子向量作为输出训练循环神经网络所生成的生成过程包括:获取目标领域的所述句子语料库,并对于所述句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;根据预设选取标准从所述若干分词结果中选取标准分词结果;将所述标准分词结果中的词语转化为词向量;根据所述预设算法计算所述句子语料库中的每一句子的标准句子向量;搭建循环神经网络,并通过所述句子语料库的每一句子的词向量作为输入以及对应的所述句子的标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。相应的,本专利技术实施例还提供一种建立句子向量生成模型方法,包括:获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;根据预设选取方式从所述若干分词结果中选取标准分词结果;将所述标准分词结果中的词语转化为词向量;根据预设算法计算所述句子语料库中的每一句子的标准句子向量;搭建循环神经网络,并通过所述每一句子的词向量作为输入以及对应的所述标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。本专利技术实施例所提供的句子向量生成模型,通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的句子向量生成模型,使用了循环神经网络来生成句子向量,使得生成的句子向量包含了词与词之间的语义依赖关系。进一步的,所述将所述标准分词结果中的词语转化为词向量包括:获取词向量模型,并通过词向量模型将所述标准分词结果中的词语转化为词向量;所述获取词向量模型的过程包括:获取所述目标领域的文本语料库;对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。进一步的,所述根据预设算法计算所述句子语料库中的每一句子的标准句子向量包括:根据sentence2vec算法计算所述句子语料库中的每一句子的标准句子向量。进一步的,所述搭建循环神经网络包括:以长短时记忆网络LSTM作为基本算法,搭建所述循环神经网络。相应的,本专利技术实施例还提供一种分词装置,包括:第一初步分词单元,用于通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;词向量转化单元,用于将所述若干初步分词结果中的词语转化为词向量;第一句子向量转化单元,用于将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;其中,所述向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的句子向量作为输出训练循环神经网络所生成的。标准句子向量转化单元,用于根据预设算法计算所述待分词句子的标准句子向量;最终分词结果确定单元,用于将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果。相应的,本专利技术实施例还提供一种建立句子向量生成模型装置,包括:第二初步分词单元,用于获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;标准分词结果选定单元,用于根据预设选取方式从所述若干分词结果中选取标准分词结果;第二词向量转化单元,用于将所述最终分词结果中的词语转化为词向量;第二标准句子向量单元,用于根据预设算法计算所述句子语料库中的每一句子的句子向量;句子向量生成模型单元,用于搭建循环神经网络,并通过所述每一句子的词向量作为输入以及对应的所述句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。附图说明图1是本专利技术实施例1提供的一种分词方法的步骤示意图;图2是本专利技术实施例1提供的一种分词方法的整体的流程本文档来自技高网...
分词方法及装置、建立句子向量生成模型方法及装置

【技术保护点】
一种分词方法,其特征在于,包括:通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;将所述若干初步分词结果中的词语转化为词向量;将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;根据预设算法计算所述待分词句子的标准句子向量;将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。

【技术特征摘要】
1.一种分词方法,其特征在于,包括:通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;将所述若干初步分词结果中的词语转化为词向量;将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;根据预设算法计算所述待分词句子的标准句子向量;将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。2.如权利要求1所述的一种分词方法,其特征在于,所述将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果包括:计算每一所述第一句子向量与所述标准句子向量之间的距离;其中,所述距离为余弦距离或欧式距离;比较每一所述第一句子向量与所述标准句子向量之间的距离的数值大小关系,确定所述距离的数值最小的所述第一句子向量所对应的初步分词结果为最终分词结果。3.如权利要求1所述的一种分词方法,其特征在于,所述根据预设算法计算所述待分词句子的标准句子向量包括:根据sentence2vec算法计算所述待分词句子的标准句子向量。4.如权利要求1所述的一种分词方法,其特征在于,所述将所述若干初步分词结果中的词语转化为词向量包括:获取词向量模型,并通过词向量模型将所述初步分词结果中的词语转化为词向量;所述获取词向量模型的过程包括:获取所述目标领域的文本语料库;对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。5.如权利要求1所述的一种分词方法,其特征在于,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的句子向量作为输出训练循环神经网络所生成的生成过程包括:获取目标领域的所述句子语料库,并对于所述句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;根据预设选取标准从所述若干分词结果中选取标准分词结果;将所述标准分词结果中的词语转化为词向量;根据所述预设算法计算所述句子语料库中的每一句子的标准句子向量;搭建循环神经网络,并通过所述句子语料库的每一句子的词向量作为输入以及对应的所述句子的标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。6.一种建立句子向量生成模型方法,其特征在于,包括:获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;根...

【专利技术属性】
技术研发人员:英高海林载辉赵舒阳朱德明李坤李冬梅
申请(专利权)人:广州杰赛科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1