一种路径解码方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20448243 阅读:47 留言:0更新日期:2019-02-27 02:42
本发明专利技术公开了一种路径解码方法、装置、计算机设备及存储介质。所述方法包括:根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列;在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。可以提高通过HMM模型获取最优路径的准确度,解决了HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。

A Path Decoding Method, Device, Computer Equipment and Storage Media

The invention discloses a path decoding method, device, computer equipment and storage medium. The method includes: determining N state matrices corresponding to the short text to be decoded; where N is the natural number greater than or equal to 1; obtaining the optimal state sequence corresponding to each state matrix in the N state matrices by fractional addition; determining M optimal paths corresponding to the short text to be decoded in the N optimal state sequences; where M is greater than or equal to 1; A natural number less than or equal to N. It can improve the accuracy of obtaining the optimal path through HMM model, and solve the problem that the path score of HMM model is too small to be trusted when it is applied to text path decoding.

【技术实现步骤摘要】
一种路径解码方法、装置、计算机设备及存储介质
本专利技术实施例涉及文本处理
,尤其涉及一种路径解码方法、装置、计算机设备及存储介质。
技术介绍
随着互联网技术的不断发展,出现了大量的短信息流,这些信息的数量巨大,但是长度一般都很短,此类信息多被称为短文本。具体地,短文本是指长度非常短,一般在140个字符以内的文本,例如常见的通过移动通信网络发出的手机短消息,通过及时通信软件发出的即时消息,网络日志的评论、互联网新闻的评论等等。在现有的路径解码方法中,通常通过分词先将原始短文本划分为若干个词;确定出原始短文本对应的至少一个原始文本路径;然后对各个词进行标记;再通过隐马尔可夫模型(HiddenMarkovModel,HMM)进行建模,通过维特比算法对HMM模型进行求解,确定出原始短文本对应的最优路径;将若干N个最优路径进行排序,取前M个最优路径。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行。然而在计算机实际计算过程中路径概率往往远小于1,而计算机存储数据的精度有限无法保证路径概率可靠。以C++语言为例,用double类型存储路径概率,根据编译器的不同有效数字位是15位~16位,例如路径概率为3.24X10-17则无法用double类型存储;此外,实际应用过程当中,由于很多词不会打上标签,因此转移概率的组合非常多;而考虑到性能问题,转移概率的文件不可能无限增大,很多转移概率并未收录,则路径概率在不断累乘过程中很容易碰到没有转移概率的情况,此时只能以极小的概率来表示无转移概率的情况,因此路径概率会变得更小,使得double类型难以存储。例如,并非所有词均有其对应的标签,因此许多短文本词语未打上标签便要参与路径计算,因此状态转移概率无法通过词典完整收录,遇此情况,在HMM算法背景下只能将未收录的转移概率以接近于零的正实数表示,最终会导致路径分数过小而不可信。因此,需要通过一定的方式来尽可能地克服这一问题,但是在现有技术中还没有一种有效的解决方式。
技术实现思路
本专利技术提供一种路径解码方法、装置、计算机设备及存储介质,可以提高通过HMM模型获取最优路径的准确度,解决了HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。第一方面,本专利技术实施例提供了一种路径解码方法,所述方法包括:根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列;在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。在上述实施例中,所述采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列,包括:根据预先确定的所述各个状态矩阵中当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数,计算所述下一列的各个隐变量对应的路径分数;根据所述下一列的各个隐变量对应的路径分数确定所述下一列的目标隐变量;将所述下一列设置为所述当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。在上述实施例中,在所述计算所述下一列的各个隐变量对应的路径分数之前,所述方法还包括:在预先确定的词典库中查找所述下一列的各个隐变量对应的Tri-gram词组;若在所述预先确定的词典库中查找到所述Tri-gram词组,将预先设置的第一预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;若在所述预先确定的词典库中未查找到所述Tri-gram词组,将预先设置的第二预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;其中,所述第二预设分数大于所述第一预设分数100倍以上。在上述实施例中,所述在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径,包括:根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序;根据排序结果在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径。第二方面,本专利技术实施例还提供了一种路径解码装置,所述装置包括:确定模块和计算模块;其中,所述确定模块,根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;所述计算模块,用于采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列;所述确定模块,还用于在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。在上述实施例中,所述计算模块,具体用于根据预先确定的所述各个状态矩阵中当前列的各个隐变量对应的路径分数确定所述当前列的目标隐变量;根据所述当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数,计算所述下一列的各个隐变量对应的路径分数;根据所述下一列的各个隐变量对应的路径分数确定所述下一列的目标隐变量;将所述下一列设置为所述当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。在上述实施例中,所述计算模块包括:查找子模块和确定子模块;其中,所述查找子模块,用于在预先确定的词典库中查找所述下一列的各个隐变量对应的Tri-gram词组;所述确定子模块,用于若在所述预先确定的词典库中查找到所述Tri-gram词组,将预先设置的第一预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;若在所述预先确定的词典库中未查找到所述Tri-gram词组,将预先设置的第二预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;其中,所述第二预设分数大于所述第一预设分数100倍以上。在上述实施例中,所述确定模块,具体用于根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序;根据排序结果在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径。第三方面,本专利技术实施例提供了一种计算机设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的路径解码方法。第四方面,本专利技术实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述任一实施例所述的路径解码方法。本专利技术实施例提出了一种路径解码方法、装置、计算机设备及存储介质,先根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;然后采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列;再在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。也就是说,在本专利技术的技术方案中,可以采用分数相加法获取N个状态矩阵中各个本文档来自技高网
...

【技术保护点】
1.一种路径解码方法,其特征在于,所述方法包括:根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列;在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。

【技术特征摘要】
1.一种路径解码方法,其特征在于,所述方法包括:根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列;在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。2.根据权利要求1所述的方法,其特征在于,所述采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列,包括:根据预先确定的所述各个状态矩阵中当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数,计算所述下一列的各个隐变量对应的路径分数;根据所述下一列的各个隐变量对应的路径分数确定所述下一列的目标隐变量;将所述下一列设置为所述当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。3.根据权利要求2所述的方法,其特征在于,在所述计算所述下一列的各个隐变量对应的路径分数之前,所述方法还包括:在预先确定的词典库中查找所述下一列的各个隐变量对应的Tri-gram词组;若在所述预先确定的词典库中查找到所述Tri-gram词组,将预先设置的第一预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;若在所述预先确定的词典库中未查找到所述Tri-gram词组,将预先设置的第二预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;其中,所述第二预设分数大于所述第一预设分数100倍以上。4.根据权利要求1所述的方法,其特征在于,所述在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径,包括:根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序;根据排序结果在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径。5.一种路径解码装置,其特征在于,所述装置包括:确定模块和计算模块;其中,所述确定模块,根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;所述计算模块,用于采用分数相加法获取所述N...

【专利技术属性】
技术研发人员:吴开宇雷宇
申请(专利权)人:北京智能管家科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1