文本断句模型建立方法、断句方法、装置及计算机设备制造方法及图纸

技术编号:16367882 阅读:96 留言:0更新日期:2017-10-13 09:47
本发明专利技术提供一种文本断句模型建立方法、断句方法、装置及计算机设备,文本断句模型建立的方法包括:对训练语料进行分词,得到所述训练语料对应的词;为所述词添加特征信息,所述特征信息包括停顿信息;利用条件随机场算法,基于所述词的特征信息对所述训练语料对应的词进行训练,以得到所述文本断句模型。对应上述方法,本发明专利技术还提供一种断句方法、装置及计算机设备。

Method, method, apparatus and computer equipment to punctuate a text segmentation model

The invention provides a device and method, a computer model segmentation method, text segmentation equipment, including text segmentation method to establish model: the segmentation of the training corpus, the training corpus corresponding words; add feature information for the word, the characteristic information including pause information; by using the conditional random field algorithm the training, the characteristic information of the training corpus based on corresponding words, in order to get the text segmentation model. Corresponding to the above method, the invention also provides a device and a method of computer equipment, punctuation.

【技术实现步骤摘要】

本专利技术涉及智能交互
,尤其涉及一种文本断句模型建立的方法及装置。
技术介绍
目前,通过语音的方式进行通信交互越来越普遍,而将语音内容通过文字文本形式保存下来后,保存的文本通常没有标点符号,甚至没有间断信息的,这就对保存下来的文本进行阅读和理解提供了障碍。
技术实现思路
本专利技术提供一种文本断句模型建立的方法,能够更加准确地对没有停顿信息的数据进行断句。根据上述目的,本专利技术提供一种文本断句模型建立的方法,所述方法包括:对训练语料进行分词,得到所述训练语料对应的词;为所述词添加特征信息,所述特征信息包括停顿信息;利用条件随机场算法,基于所述词的特征信息对所述训练语料对应的词进行训练,以得到所述文本断句模型。在一实施例中,所述方法还包括:运用所述文本断句模型对测试数据进行断句,得到断句结果;判断所述断句结果的准确率是否大于或等于准确率阈值;若否,则调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数,直到通过特征信息次数阈值参数和/或拟合参数调整后训练得到的文本断句模型对所述训练语料进行断句的断句结果的准确率大于或等于准确率阈值,则将所述调整后训练得到的文本断句模型作为本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201710458179.html" title="文本断句模型建立方法、断句方法、装置及计算机设备原文来自X技术">文本断句模型建立方法、断句方法、装置及计算机设备</a>

【技术保护点】
一种文本断句模型建立的方法,其特征在于,所述方法包括:对训练语料进行分词,得到所述训练语料对应的词;为所述词添加特征信息,所述特征信息包括停顿信息;利用条件随机场算法,基于所述词的特征信息对所述训练语料对应的词进行训练,以得到所述文本断句模型。

【技术特征摘要】
1.一种文本断句模型建立的方法,其特征在于,所述方法包括:对训练语料进行分词,得到所述训练语料对应的词;为所述词添加特征信息,所述特征信息包括停顿信息;利用条件随机场算法,基于所述词的特征信息对所述训练语料对应的词进行训练,以得到所述文本断句模型。2.如权利要求1所述的方法,其特征在于,所述方法还包括:运用所述文本断句模型对测试数据进行断句,得到断句结果;判断所述断句结果的准确率是否大于或等于准确率阈值;若否,则调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数,直到通过特征信息次数阈值参数和/或拟合参数调整后训练得到的文本断句模型对所述训练语料进行断句的断句结果的准确率大于或等于准确率阈值,则将所述调整后训练得到的文本断句模型作为最终的文本断句模型。3.如权利要求2所述的方法,其特征在于,所述测试数据为语音测试数据,所述运用所述文本断句模型对测试数据进行断句的步骤,进一步包括:对所述语音测试数据进行语音识别,得到语音数据文本;运用所述文本断句模型对所述语音数据文本进行断句,得到断句结果。4.如权利要求3所述的方法,其特征在于,所述判断所述断句结果的准确率是否大于或等于准确率阈值的步骤进一步包括:为所述语音数据文本添加停顿符号;基于所述停顿符号,为所述语音数据文本添加停顿信息;基于所述语音数据文本的停顿信息,计算所述断句结果的准确率;判断所述断句结果的准确率是否大于或等于准确率阈值。5.如权利要求1所述的方法,其特征在于,所述训练语料为语音训练语料,所述方法还包括:对所述语音测试数据进行语音识别,得到语音数据文本;所述分词的步骤,进一步包括:对所述语音数据文本进行分词,得到所述语音数据文本对应的词;所述添加特征信息的步骤,还包括:为所述语音数据文本添加停顿符号;基于所述停顿符号,为所述语音数据文本添加停顿信息。6.如权利要求1所述的方法,其特征在于,所述特征信息还包括:所述词的位置信息和所述词的词性信息。7.如权利要求1所述的方法,其特征在于,所述为所述词添加特征信息的步骤,进一步包括:为所述词添加句子成分信息。8.如权利要求7所述的方法,其特征在于,通过对所述词进行句法分析以为所述词添加句子成分信息。9.如权利要求1所述的方法,其特征在于,所述训练的步骤进一步包括:利用条件随机场算法,根据预设的特征模板提取与所述特征模板相应的所述词及其特征信息,以对所述训练语料进行训练,得到所述文本断句模型,其中,提取的特征信息至少包含所述停顿信息,预设的特征模板用于表示与所述词中训练的当前词的关系满足预设要求的词及其特征信息。10.如权利要求9所述的方法,其特征在于,所述特征模板表示的与训练的当前词满足的关系包括以下信息组合的任一个或多个:当前词的语义信息、当前词的停顿信息;当前词的词性信息和当前词的停顿信息;上一个词的语义信息、上一个词的停顿信息、当前词的语义信息和当前词的停顿信息;当前词的语义信息、当前词的停顿信息、下一个词的词性信息和下一个词的停顿信息;上上一个词的词性信息、上上一个词的停顿信息,上一个词的词性信息、上一个词的停顿信息、当前词的词性信息和当前词的停顿信息;上一个词的词性信息、上一个词的停顿信息,当前词的词性信息、当前词的停顿信息、下一个词的词性信息和下一个词的停顿信息。11.如权利要求1所述的方法,其特征在于,所述训练语料中包含停顿符号,用于标识所述训练语料的停顿信息,所述为所述词添加停顿信息的步骤包括:基于所述训练语料的所述停顿符号为所述词添加停顿信息。12.如权利要求11所述的方法,其特征在于,为所述词添加停顿信息的步骤进一步包括:将所述停顿符号之前第一个所述训练语料对应的所述词的停顿信息标记为第一标记;将其他所述词的停顿信息标记为第二标记。13.如权利要求1所述的方法,其特征在于,所述对训练语料进行分词的步骤,进一步包括:运用分词词典对所述训练语料进行分词。14.如权利要求13所述的方法,其特征在于,所述方法还包括:对所述训练语料进行新词发现,将得到的新词加入所述分词词典中。15.如权利要求2所述的方法,其特征在于,所述调整所述条件随机场算法的特征信息次数阈值参数和/或拟合参数的步骤,进一步包括:在1至5的数值范围内调整所述条件随机场算法的特征信息次数阈值参数,在1至3的数值范围内调整所述条件随机场算法的拟合参数。16.如权利要求2所述的方法,其特征在于,所述运用所述文本断句模型对测试数据进行断句的步骤,进一步包括:运用所述文本断句模型对测试数据进行断句,得到多个初级断句结果;运用通过标准断句的语言数据训练得到的n-gram语言模型分别计算每一个所述初级断句结果的总成句概率,将总成句概率最高的对应的初级断句结果作为所述断句结果。17.如权利要求16所述的方法,其特征在于,所述初级断句结果的总成句概率为该初级断句结果各分句的成句概率之积。18.一种断句的方法,其特征在于,所述方法包括:获取待断句文本;将所述待断句文本输入文本断句模型中,得到断句结果,其中所述文本断句模型为采用如权利要求1至17任一项所述的一种文本断句模型建立的方法训练得到的。19.如权利要求18所述的方法,其特征在于,所述获取待断句文本的步骤进一步包括:获取待断句语音数据;对所述待断句语音数据进行语音识别,将识别结果作为所述待断句文本。20.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行如权利要求1至17中任一项所述的一种文本断句模型建立的方法。21.一种计算机存储介质,所述存储介质中存储有指令,其特征在于,所述指令运行时执行如权利要求1至17中任一项所述的一种文本断句模型建立的方法。22.一种计算机设备,包括存储器、处理器及存储...

【专利技术属性】
技术研发人员:谢瑜张昊朱频频
申请(专利权)人:中国电子技术标准化研究院上海智臻智能网络科技股份有限公司北京赛西科技发展有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1