【技术实现步骤摘要】
分词方法及装置、建立句子向量生成模型方法及装置
本专利技术涉及人工智能领域,尤其涉及一种分词方法及装置、建立句子向量生成模型方法及装置。
技术介绍
在自然语言处理中,文本分词是其他语义分析处理的前提和基础。对英文文本,词自然地以空格为划分标志,而对中文文本,词的划分并没有固定的标志或规则,因为中文词语的构成往往包含了人的主观意志与应用语境。也因此,对同一个中文文本,可以有多种不同的分词结果,其中有一个分词结果,它的语义通常更为接近句子的“真实”语义。而现今常见的分词系统有中科院的NLPIR汉语分词系统以及结巴分词系统等,本专利技术人在实施过程中发现,现有技术中存在以下技术问题:现有技术通常都是通用型的分词工具,对特定领域的中文文本,其默认的分词结果,往往效果欠佳,难以较好地表达真实的语义。
技术实现思路
本专利技术实施例提供一种分词方法及装置、建立句子向量生成模型方法及装置,能有效解决现有技术中分词结果无法表达真实语义的问题,得到的分词结果能够有效表达语义,提高了分词的效率与准确率。本专利技术实施例提供一种分词方法,包括:通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;将所述若干初步分词结果中的词语转化为词向量;将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;根据预设算法计算所述待分词句子的标准句子向量;将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对 ...
【技术保护点】
一种分词方法,其特征在于,包括:通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;将所述若干初步分词结果中的词语转化为词向量;将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;根据预设算法计算所述待分词句子的标准句子向量;将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。
【技术特征摘要】
1.一种分词方法,其特征在于,包括:通过分词技术对待分词句子进行初步分词处理,以得到若干初步分词结果;将所述若干初步分词结果中的词语转化为词向量;将每一所述初步分词结果的所述词向量输入句子向量生成模型,以得到每一所述初步分词结果的第一句子向量;根据预设算法计算所述待分词句子的标准句子向量;将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果;其中,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的标准句子向量作为输出训练循环神经网络所生成的。2.如权利要求1所述的一种分词方法,其特征在于,所述将与所述标准句子向量的相似度最高的第一句子向量所对应的初步分词结果确定为所述待分词句子的最终分词结果包括:计算每一所述第一句子向量与所述标准句子向量之间的距离;其中,所述距离为余弦距离或欧式距离;比较每一所述第一句子向量与所述标准句子向量之间的距离的数值大小关系,确定所述距离的数值最小的所述第一句子向量所对应的初步分词结果为最终分词结果。3.如权利要求1所述的一种分词方法,其特征在于,所述根据预设算法计算所述待分词句子的标准句子向量包括:根据sentence2vec算法计算所述待分词句子的标准句子向量。4.如权利要求1所述的一种分词方法,其特征在于,所述将所述若干初步分词结果中的词语转化为词向量包括:获取词向量模型,并通过词向量模型将所述初步分词结果中的词语转化为词向量;所述获取词向量模型的过程包括:获取所述目标领域的文本语料库;对所述文本语料库进行预处理,其中,所述预处理包括分词处理和去停用词处理;通过word2vec算法对预处理后的所述文本语料库的数据进行训练,以得到所述词向量模型。5.如权利要求1所述的一种分词方法,其特征在于,所述句子向量生成模型为通过句子语料库中的每一句子的标准分词结果的词向量作为输入以及对应的句子的句子向量作为输出训练循环神经网络所生成的生成过程包括:获取目标领域的所述句子语料库,并对于所述句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;根据预设选取标准从所述若干分词结果中选取标准分词结果;将所述标准分词结果中的词语转化为词向量;根据所述预设算法计算所述句子语料库中的每一句子的标准句子向量;搭建循环神经网络,并通过所述句子语料库的每一句子的词向量作为输入以及对应的所述句子的标准句子向量作为输出训练所述循环神经网络,以得到句子向量生成模型。6.一种建立句子向量生成模型方法,其特征在于,包括:获取目标领域的句子语料库,对于句子语料库中的每一句子,通过分词技术进行分词以得到若干分词结果;根...
【专利技术属性】
技术研发人员:英高海,林载辉,赵舒阳,朱德明,李坤,李冬梅,
申请(专利权)人:广州杰赛科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。