一种路径解码方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：20448243 阅读：47 留言：0更新日期：2019-02-27 02:42

本发明专利技术公开了一种路径解码方法、装置、计算机设备及存储介质。所述方法包括：根据待解码短文本确定出与其对应的N个状态矩阵；其中，N为大于等于1的自然数；采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列；在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径；其中，M为大于等于1且小于等于N的自然数。可以提高通过HMM模型获取最优路径的准确度，解决了HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。

A Path Decoding Method, Device, Computer Equipment and Storage Media

The invention discloses a path decoding method, device, computer equipment and storage medium. The method includes: determining N state matrices corresponding to the short text to be decoded; where N is the natural number greater than or equal to 1; obtaining the optimal state sequence corresponding to each state matrix in the N state matrices by fractional addition; determining M optimal paths corresponding to the short text to be decoded in the N optimal state sequences; where M is greater than or equal to 1; A natural number less than or equal to N. It can improve the accuracy of obtaining the optimal path through HMM model, and solve the problem that the path score of HMM model is too small to be trusted when it is applied to text path decoding.

全部详细技术资料下载

【技术实现步骤摘要】
一种路径解码方法、装置、计算机设备及存储介质
本专利技术实施例涉及文本处理
，尤其涉及一种路径解码方法、装置、计算机设备及存储介质。
技术介绍
随着互联网技术的不断发展，出现了大量的短信息流，这些信息的数量巨大，但是长度一般都很短，此类信息多被称为短文本。具体地，短文本是指长度非常短，一般在140个字符以内的文本，例如常见的通过移动通信网络发出的手机短消息，通过及时通信软件发出的即时消息，网络日志的评论、互联网新闻的评论等等。在现有的路径解码方法中，通常通过分词先将原始短文本划分为若干个词；确定出原始短文本对应的至少一个原始文本路径；然后对各个词进行标记；再通过隐马尔可夫模型(HiddenMarkovModel，HMM)进行建模，通过维特比算法对HMM模型进行求解，确定出原始短文本对应的最优路径；将若干N个最优路径进行排序，取前M个最优路径。在实现本专利技术的过程中，专利技术人发现现有技术中至少存在如下问题：现有的路径解码方法中，传统的HMM在计算路径概率时，无论是计算发射概率还是转移概率，均采用概率相乘的方式进行。然而在计算机实际计算过程中路径概率往往远小于1，而计算机存储数据的精度有限无法保证路径概率可靠。以C++语言为例，用double类型存储路径概率，根据编译器的不同有效数字位是15位～16位，例如路径概率为3.24X10-17则无法用double类型存储；此外，实际应用过程当中，由于很多词不会打上标签，因此转移概率的组合非常多；而考虑到性能问题，转移概率的文件不可能无限增大，很多转移概率并未收录，则路径概率在不断累乘过程中很容易碰到没有转移...

【技术保护点】
1.一种路径解码方法，其特征在于，所述方法包括：根据待解码短文本确定出与其对应的N个状态矩阵；其中，N为大于等于1的自然数；采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列；在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径；其中，M为大于等于1且小于等于N的自然数。

【技术特征摘要】
1.一种路径解码方法，其特征在于，所述方法包括：根据待解码短文本确定出与其对应的N个状态矩阵；其中，N为大于等于1的自然数；采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列；在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径；其中，M为大于等于1且小于等于N的自然数。2.根据权利要求1所述的方法，其特征在于，所述采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列，包括：根据预先确定的所述各个状态矩阵中当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数，计算所述下一列的各个隐变量对应的路径分数；根据所述下一列的各个隐变量对应的路径分数确定所述下一列的目标隐变量；将所述下一列设置为所述当前列，重复执行以上操作，直到计算出各个状态矩阵中的最后一列的目标隐变量；其中，各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。3.根据权利要求2所述的方法，其特征在于，在所述计算所述下一列的各个隐变量对应的路径分数之前，所述方法还包括：在预先确定的词典库中查找所述下一列的各个隐变量对应的Tri-gram词组；若在所述预先确定的词典库中查找到所述Tri-gram词组，将预先设置的第一预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数；若在所述预先确定的词典库中未查找到所述Tri-gram词组，将预先设置的第二预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数；其中，所述第二预设分数大于所述第一预设分数100倍以上。4.根据权利要求1所述的方法，其特征在于，所述在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径，包括：根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序；根据排序结果在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径。5.一种路径解码装置，其特征在于，所述装置包括：确定模块和计算模块；其中，所述确定模块，根据待解码短文本确定出与其对应的N个状态矩阵；其中，N为大于等于1的自然数；所述计算模块，用于采用分数相加法获取所述N...

【专利技术属性】
技术研发人员：吴开宇，雷宇，
申请(专利权)人：北京智能管家科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人