一种路径解码方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:23446291 阅读:23 留言:0更新日期:2020-02-28 20:20
本发明专利技术公开了一种路径解码方法、装置、计算机设备及存储介质。所述方法包括:根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。本发明专利技术实施例的技术方案,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。

A path decoding method, device, computer equipment and storage medium

【技术实现步骤摘要】
一种路径解码方法、装置、计算机设备及存储介质
本专利技术实施例涉及文本处理
,尤其涉及一种路径解码方法、装置、计算机设备及存储介质。
技术介绍
随着互联网技术的不断发展,出现了大量的短信息流,这些信息的数量巨大,但是长度一般都很短,此类信息多被称为短文本。具体地,短文本是指长度非常短,一般在140个字符以内的文本,例如常见的通过移动通信网络发出的手机短消息,通过及时通信软件发出的即时消息,网络日志的评论、互联网新闻的评论等。在现有的路径解码方法中,通常先通过分词先将原始短文本划分为若干个词;确定出原始短文本对应的至少一个原始文本路径;然后对各个词进行标记;再通过隐马尔可夫模型(HiddenMarkovModel,HMM)进行建模,通过维特比算法对HMM模型进行求解,确定出原始短文本对应的最优路径。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行。然而在计算机实际计算过程中路径概率往往远小于1,而计算机存储数据的精度有限无法保证路径概率可靠。以C++语言为例,用double类型存储路径概率,根据编译器的不同有效数字位是15位~16位,例如路径概率为3.24X10-17则无法用double类型存储;此外,实际应用过程当中,由于很多词不会打上标签,因此转移概率的组合非常多;而考虑到性能问题,转移概率的文件不可能无限增大,很多转移概率并未收录,则路径概率在不断累乘过程中很容易碰到没有转移概率的情况,此时只能以极小的概率来表示无转移概率的情况,因此路径概率会变得更小,使得double类型难以存储。并且,在现有的路径解码方法中,传统方式只能通过维特比算法获取到待解码短文本对应的一个最优路径,而无法获取到待解码短文本对应的N个最优路径。因此,需要通过一定的方式来尽可能地克服这一问题,但是在现有技术中还没有一种有效的解决方式。
技术实现思路
本专利技术提供一种路径解码方法、装置、计算机设备及存储介质,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。第一方面,本专利技术实施例提供了一种路径解码方法,所述方法包括:根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。在上述实施例中,所述根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵,包括:将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。在上述实施例中,所述根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径,包括:将所述状态矩阵的最后一列设置为当前列;根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数;将所述上一列各个状态到所述当前列的其中一个状态的路径分数进行排序;将所述上一列设置为所述当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出所述待解码短文本对应的N个最优路径。在上述实施例中,所述根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数,包括:根据所述上一列的各个状态对应节点的发射分数以及所述当前列的上一列的各个节点到所述当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出所述当前列最优状态上一列的Y个候选节点;计算Y个候选节点的各个状态到所述当前列的其中一个状态的路径分数。第二方面,本专利技术实施例还提供了一种路径解码装置,所述装置包括:获取模块和确定模块;其中,所述获取模块,用于根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;所述确定模块,用于根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。在上述实施例中,所述确定模块,具体用于将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。在上述实施例中,所述确定模块包括:计算子模块和确定子模块;其中,所述计算子模块,用于将所述状态矩阵的最后一列设置为当前列;根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数;所述确定子模块,用于将所述上一列各个状态到所述当前列的其中一个状态的路径分数进行排序;将所述上一列设置为所述当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出所述待解码短文本对应的N个最优路径。在上述实施例中,所述确定子模块,具体用于根据所述上一列的各个状态对应节点的发射分数以及所述当前列的上一列的各个节点到所述当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出所述当前列最优状态上一列的Y个候选节点;计算Y个候选节点的各个状态到所述当前列的其中一个状态的路径分数。第三方面,本专利技术实施例提供了一种计算机设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的路径解码方法。第四方面,本专利技术实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述任一实施例所述的路径解码方法。本专利技术实施例提出了一种路径解码方法、装置、计算机设备及存储介质,先根据待解码短文本,获取待解码短文本对应的节点矩阵;然后根据待解码短文本对应的节点矩阵,确定出待解码短文本对应的状态矩阵;再根据待解码短文本对应的状态矩阵,确定出待解码短文本对应的本文档来自技高网
...

【技术保护点】
1.一种路径解码方法,其特征在于,所述方法包括:/n根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;/n根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;/n根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。/n

【技术特征摘要】
1.一种路径解码方法,其特征在于,所述方法包括:
根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;
根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;
根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。


2.根据权利要求1所述的方法,其特征在于,所述根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵,包括:
将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。


3.根据权利要求1所述的方法,其特征在于,所述根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径,包括:
将所述状态矩阵的最后一列设置为当前列;根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数;将所述上一列各个状态到所述当前列的其中一个状态的路径分数进行排序;将所述上一列设置为所述当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出所述待解码短文本对应的N个最优路径。


4.根据权利要求3所述的方法,其特征在于,所述根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数,包括:
根据所述上一列的各个状态对应节点的发射分数以及所述当前列的上一列的各个节点到所述当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出所述当前列最优状态上一列的Y个候选节点;计算Y个候选节点的各个状态到所述当前列的其中一个状态的路径分数。


5.一种路径解码装置,其特征在于,所述装置包括:获取模块和确定模块;其中,
所述获取模块,用于根据所述待解码短文本,获取所述待解码短文本对...

【专利技术属性】
技术研发人员:吴开宇
申请(专利权)人:北京儒博科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1