【技术实现步骤摘要】
添加分隔符的方法及终端设备
本专利技术属于人工智能领域,尤其涉及一种添加分隔符的方法及终端设备。
技术介绍
近年来,越来越多的语音识别软件可以将语音转换为文字,但是当语音转换为文字之后,往往由于语音识别无法为生成的文字添加诸如标点符号等分割符,导致用户难以很顺畅的阅读这些文字。尤其是当停顿时间极短的大段语音一次性转换为文字时,会给用户造成更大的阅读困难。
技术实现思路
有鉴于此,本专利技术实施例提供了一种添加分隔符的方法及终端设备,以解决现有技术存在的由于难以为文字自动添加分隔符导致的用户阅读困难的问题。本专利技术实施例的第一方面提供了一种添加分隔符的方法,包括:获取待添加分隔符的目标语句,并对所述目标语句进行分词处理,生成多个目标词;根据预设的词语集合,生成所述目标词对应的用于表征所述目标词在所述词语集合中的位置的位置矩阵,并通过预设的Word2Vec模型将所述目标词的位置矩阵转换为该目标词的词向量;分别按照各个所述目标词在所述目标语句中由前到后的顺序以及由后到前的顺序,将各个所述目标词的词向量输入到预设的神经网络模型,生成所述目标语句对应的前向矩阵以及后向矩阵,并将所述前向矩阵以及所述后向矩阵进行拼接,生成所述目标语句对应的混合矩阵;将所述混合矩阵输入预设的分类器模型,输出各个所述目标词对应各个分隔符的概率,并将所述目标词对应的概率最高的分隔符添加在该目标词之后,以为所述目标语句添加分隔符。本专利技术实施例的第二方面提供了一种添加分隔符的装置,包括:获取模块,用于获取待添加分隔符的目标语句,并对所述目标语句进行分词处理,生成多个目标词;转换模块,用于根据预 ...
【技术保护点】
1.一种添加分隔符的方法,其特征在于,包括:获取待添加分隔符的目标语句,并对所述目标语句进行分词处理,生成多个目标词;根据预设的词语集合,生成所述目标词对应的用于表征所述目标词在所述词语集合中的位置的位置矩阵,并通过预设的Word2Vec模型将所述目标词的位置矩阵转换为该目标词的词向量;分别按照各个所述目标词在所述目标语句中由前到后的顺序以及由后到前的顺序,将各个所述目标词的词向量输入到预设的神经网络模型,生成所述目标语句对应的前向矩阵以及后向矩阵,并将所述前向矩阵以及所述后向矩阵进行拼接,生成所述目标语句对应的混合矩阵;将所述混合矩阵输入预设的分类器模型,输出各个所述目标词对应各个分隔符的概率,并将所述目标词对应的概率最高的分隔符添加在该目标词之后,以为所述目标语句添加分隔符。
【技术特征摘要】
1.一种添加分隔符的方法,其特征在于,包括:获取待添加分隔符的目标语句,并对所述目标语句进行分词处理,生成多个目标词;根据预设的词语集合,生成所述目标词对应的用于表征所述目标词在所述词语集合中的位置的位置矩阵,并通过预设的Word2Vec模型将所述目标词的位置矩阵转换为该目标词的词向量;分别按照各个所述目标词在所述目标语句中由前到后的顺序以及由后到前的顺序,将各个所述目标词的词向量输入到预设的神经网络模型,生成所述目标语句对应的前向矩阵以及后向矩阵,并将所述前向矩阵以及所述后向矩阵进行拼接,生成所述目标语句对应的混合矩阵;将所述混合矩阵输入预设的分类器模型,输出各个所述目标词对应各个分隔符的概率,并将所述目标词对应的概率最高的分隔符添加在该目标词之后,以为所述目标语句添加分隔符。2.如权利要求1所述的添加分隔符的方法,其特征在于,所述神经网络模型为包含注意力机制的长短期记忆网络;在所述获取待添加分隔符的目标语句之前,所述方法还包括:获取多个训练语句矩阵以及所述训练语句矩阵对应的训练混合矩阵;反复执行以下步骤直至调整后的长短期记忆网络满足预设的收敛条件:将所述训练语句矩阵作为长短期记忆网络的输入,将所述训练混合矩阵作为所述长短期记忆网络的输出,通过反向传播法对所述长短期记忆网络中的各神经单元对应的权重进行更新;输出调整后的长短期记忆网络作为所述预设的神经网络模型。3.如权利要求1所述的添加分隔符的方法,其特征在于,所述将所述混合矩阵输入预设的分类器模型,输出各个所述目标词对应各个分隔符的概率,包括:通过公式:计算所述混合矩阵对应的概率矩阵;所述σ(j)为所述概率矩阵中第j个元素对应的概率值;zj为预设的参数矩阵中第j个元素对应的参数;所述M为所述参数矩阵中元素的个数,所述xi为所述混合矩阵中第i个元素,所述e为自然常数;根据所述目标词在所述目标语句中的位置,从所述概率矩阵中读取各个目标词对应各个分隔符的概率。4.如权利要求1所述的添加分隔符的方法,其特征在于,所述将所述混合矩阵输入预设的分类器模型,输出各个所述目标词对应各个分隔符的概率,包括:将所述混合矩阵输入预设的条件随机场模型,输出各个所述目标词对应各个分隔符的分数值;根据预设的指数函数计算各个分数值对应的指数值,并对所述指数值进行归一化处理,作为各个目标词对应各个分隔符的概率。5.如权利要求4所述的添加分隔符的方法,其特征在于,在所述获取待添加分隔符的目标语句之前,还包括:获取多个随机场训练语句,所述随机场训练语句包含多个训练词,且每个训练词均对应一个以上分隔符的分数值;通过最大似然估计法,根据所述多个随机场训练语句拟合出所述预设的条件随机场模型。6.一种添加分隔符的装置,其特征在于,所述装置包括:获取模块,用于获取待添加分隔符的目标语句,并对所述目标语句进行分词处理,生成多个目标词;转换模块,用于根据预设的词语集合,生...
【专利技术属性】
技术研发人员:占小杰,马骏,王少军,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。