一种添加标点的方法和系统技术方案

技术编号：10646878 阅读：105 留言：0更新日期：2014-11-12 20:51

本发明专利技术公开了一种添加标点的方法和系统。该方法包括：基于静音检测将待处理语音文件分为一个以上的待处理语段，根据每个待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元；利用基于分词和词语的语义特征建立的语言模型，根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重；根据所述综合权重为所述待处理语音文件添加标点。应用本发明专利技术能提高添加标点准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息处理
，尤其涉及一种添加标点的方法和系统。
技术介绍
在通信领域以及互联网领域，在某些应用场景中需要为一些缺少标点的文件添加标点，例如，为语音文件添加标点。关于为语音文件添加标点，目前存在着一种基于分字处理以及每个字所处位置来添加标点的方案。在所述方案中，预先对语料库中的语句进行分字处理，确定每个字在语句中所处的位置，即是处于句子的开始、中间还是结束，并确定每个字后面的标点符号情况，例如有无标点符号等，根据语料库中每个字所处的位置以及每个字后面的标点符号情况建立语言模型，在实际添加标点的过程中，将待处理语音文件作为一个整体，根据该待处理语音文件中出现的每个字，利用基于分字建立的语言模型为所述待处理语音文件添加标点。可见，利用单个字在句子中的位置以及单个字后面是否有标点来建立语言模型，由于所利用的信息有限，且所利用的信息与标点状态的关联性不强，因此所建立的语言模型并不能提取出语句所蕴含的信息与语句的标点状态之间的真实关系，并且，将待处理语音文件简单地作为一个整体来添加标点，也没有考虑到待处理语音文件内部的结构特征，因此，综合上述因素，导致目前为语音文件添加标点的准确性仍然较低。
技术实现思路
本专利技术提供了一种添加标点的方法和系统，能够提高添加标点的准确性。一种添加标点的方法，该方法包括：基于静音检测将待处理语音文件分为一个以上的待处理语段，根据每个待处理语段包含的

【技术保护点】
一种添加标点的方法，其特征在于，该方法包括：基于静音检测将待处理语音文件分为一个以上的待处理语段，根据每个待处理语段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元；利用基于分词和词语的语义特征建立的语言模型，根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重；根据所述综合权重为所述待处理语音文件添加标点。

【技术特征摘要】
1.一种添加标点的方法，其特征在于，该方法包括：
基于静音检测将待处理语音文件分为一个以上的待处理语段，根据每个待处理语
段包含的每个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单
元；
利用基于分词和词语的语义特征建立的语言模型，根据所述所有特征单元确定所
述待处理语音文件的各种标点状态的综合权重；
根据所述综合权重为所述待处理语音文件添加标点。
2.根据权利要求1所述的方法，其特征在于，所述静音检测包括：
根据当前的应用场景确定静音阈值，检测所述待处理语音文件中的静音时长，在
所述静音时长大于所述静音阈值时，在所述静音时长对应的静音处从所述待处理语音
文件中划分出待处理语段。
3.根据权利要求1或2所述的方法，其特征在于，根据每个待处理语段包含的每
个词和每个词的语义特征，识别所述待处理语音文件中出现的所有特征单元包括：
识别每个待处理语段中出现的特征单元，将所有待处理语段中出现的特征单元的
并集确定为所述所有特征单元。
4.根据权利要求1所述的方法，其特征在于，所述语言模型通过如下步骤建立：
对语料库中的语句进行分词处理，其中，语料库中的语句预先添加了标点；
根据分词处理后的语句中每个词的语义特征，依据预先设定的特征模板，搜索所
述语料库中出现的特征单元，根据特征单元中的每个词后面的标点状态，记录所述语
料库中每个特征单元的每种标点状态的出现次数；
根据每个特征单元的每种标点状态的出现次数，确定每个特征单元的每种标点状
态的权重，建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
5.根据权利要求1或4所述的方法，其特征在于，所述特征单元包括独词特征单
元和/或多词特征单元，所述独词特征单元依据独词特征模板得到，所述多词特征单元
依据多词特征模板得到；
其中，所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求
的单个词、以及所述单个词的语义特征，依据独词特征模板得到独词特征单元包括：
分别以每个词所处的位置作为所述当前基准位置，根据所述独词特征模板确定与
当前基准位置的相对位置关系满足所述独词特征模板要求的单个词，根据该单个词的
语义特征识别独词特征单元，所述独词特征单元包括所述单个词、所述单个词的语义

\t特征以及所述单个词的位置与当前基准位置的相对位置关系；
所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个
词、以及所述多个词中每个词的语义特征，依据多词特征模板得到多词特征单元包括：
分别以每个词所处的位置作为所述当前基准位置，根据所述多词特征模板确定与
当前基准位置的相对位置关系满足所述多词特征模板要求的多个词，根据该多个词中
每个词的语义特征识别多词特征单元，所述多词特征单元包括所述多个词、所述多个
词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
6.根据权利要求1所述的方法，其特征在于，根据所述所有特征单元确定所述待
处理语音文件的各种标点状态的综合权重包括：
从所述语言模型中获取所述所有特征单元中的每个特征单元与自身各种标点状态
的权重的对应关系，根据获取的所述对应关系确定所述待处理文件中每个词的标点状
态的权重，根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的综合
权重。
7.根据权利要求...

【专利技术属性】
技术研发人员：刘海波，王尔玉，张翔，卢鲤，岳帅，陈波，李露，刘荐，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人