一种添加标点的方法和系统技术方案

技术编号:10646878 阅读:105 留言:0更新日期:2014-11-12 20:51
本发明专利技术公开了一种添加标点的方法和系统。该方法包括:基于静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元;利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重;根据所述综合权重为所述待处理语音文件添加标点。应用本发明专利技术能提高添加标点准确性。

【技术实现步骤摘要】

本申请涉及信息处理
,尤其涉及一种添加标点的方法和系统
技术介绍
在通信领域以及互联网领域,在某些应用场景中需要为一些缺少标点的文件添加标点,例如,为语音文件添加标点。关于为语音文件添加标点,目前存在着一种基于分字处理以及每个字所处位置来添加标点的方案。在所述方案中,预先对语料库中的语句进行分字处理,确定每个字在语句中所处的位置,即是处于句子的开始、中间还是结束,并确定每个字后面的标点符号情况,例如有无标点符号等,根据语料库中每个字所处的位置以及每个字后面的标点符号情况建立语言模型,在实际添加标点的过程中,将待处理语音文件作为一个整体,根据该待处理语音文件中出现的每个字,利用基于分字建立的语言模型为所述待处理语音文件添加标点。可见,利用单个字在句子中的位置以及单个字后面是否有标点来建立语言模型,由于所利用的信息有限,且所利用的信息与标点状态的关联性不强,因此所建立的语言模型并不能提取出语句所蕴含的信息与语句的标点状态之间的真实关系,并且,将待处理语音文件简单地作为一个整体来添加标点,也没有考虑到待处理语音文件内部的结构特征,因此,综合上述因素,导致目前为语音文件添加标点的准确性仍然较低。
技术实现思路
本专利技术提供了一种添加标点的方法和系统,能够提高添加标点的准确性。一种添加标点的方法,该方法包括:基于静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元;利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重;根据所述综合权重为所述待处理语音文件添加标点。一种添加标点的系统,该系统包括静音检测模块、识别模块和标点添加模块;所述静音检测模块,用于基于静音检测将待处理语音文件分为一个以上的待处理语段;所述识别模块,用于根据每个所述待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元;所述标点添加模块,用于利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重,根据所述综合权重为所述待处理语音文件添加标点。由上述技术方案可见,由于本专利技术在添加标点时所利用的语言模型是基于分词和词语的语义特征建立的,由于进行的是分词处理而非分字处理,并且进一步利用词在语句中的语义特征,由于词在语句中的语义特征往往与词的标点状态有着较强的关联性,因此,通过基于对语料库进行分词和词在所述语料库中的语义特征来建立语言模型,能够提取出语句中所蕴含的信息(即所包含的词和词的语义特征)与语句的标点状态的真实关系,进而能够提高添加标点的准确性。并且,由于本专利技术在利用基于分词和词语的语义特征建立的语言模型为待处理语音文件添加标点时,考虑了所述语言文件的内部结构特征,通过静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征确定待处理语音文件的各种标点状态的综合权重,然后根据所述综合权重为待处理语音文件添加标点,一方面,由于待处理语音文件的内部结构特征对待处理语音文件中各个词的语义特征会产生影响,进而会影响待处理语音文件中出现的特征单元,因而最终影响待处理语音文件的标点添加结果,因此,本专利技术通过基于静音检测将待处理语音文件分为一个以上的待处理语段,基于待处理语段中包含的每个词和每个词的语义特征识别待处理语音文件中出现的特征单元,从而考虑了待处理语音文件内部的结构特征对待处理语音文件标点状态的影响,从而进一步提高了为待处理语音文件添加标点的准确性,另一方面,由于所述综合权重的确定是综合考虑了待处理语音文件中每个语段中的每个词的语义特征而得到的,因此,该综合权重能全面地反映待处理语音文件中的每个词对待处理语音文件的标点状态的影响,从而能够进一步提高添加标点的准确性。附图说明图1是本专利技术实施例提供的添加标点的方法流程图。图2是本专利技术实施例提供的标点添加系统的组成示意图。图3是本专利技术实施例提供的用于添加标点的语言模型建立方法第一流程图。图4是本专利技术提供的用于添加标点的语言模型建立方法第二流程图。图5是基于本专利技术实施例提供的语言模型采用本专利技术实施例提供的标点添加方法和系统为待处理语音文件添加标点的流程图。具体实施方式图1是本专利技术实施例提供的添加标点的方法流程图。步骤101,基于静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元。其中,所述的语义特征一般包括词语的词性和/或句子成分,同一个词语的词性和/或句子成分在不同的语境中可以相同也可以不同。步骤102,利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重。其中,基于分词和词语的语义特征建立的语言模型中存储有每个特征单元与自身各种标点状态的权重的对应关系。在根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重时,从所述语言模型中获取所述所有特征单元中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理语音文件的各种标点状态的综合权重。步骤103,根据所述综合权重为所述待处理语音文件添加标点。本步骤中,可以仅根据所述综合权重为所述待处理语音文件添加标点,即将取值最大的所述综合权重对应的待处理语音文件标点状态确定为最终的待处理语音文件标点状态,也可以将所述综合权重作为一个参考因素,综合考虑其他参考因素来为待处理语音文件添加标点。由图1提供的方法可见,一方面,本专利技术实施例综合考虑了待处理语音文件中每个词的语义特征,根据待处理语音文件中出现的特征单元而得到用于为待处理语音文件添加标点的综合权重。另一方面,待处理语音文件的内部结构对语义特征以及特征单元会产生影响,例如,当名词或代词出现在句首时,该名词或代词充当的句子成分常常为主语或者定语,但是,当名词或代词出现在句末时,该名词或代词充当的句子成分常常为宾语,因此,图1提供的方法在语义特征的确定以及特征单元的提取过程中,通过静音检测将待处理语音文件分为一个以上的待处理语段,从而考虑了待处理...

【技术保护点】
一种添加标点的方法,其特征在于,该方法包括:基于静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元;利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重;根据所述综合权重为所述待处理语音文件添加标点。

【技术特征摘要】
1.一种添加标点的方法,其特征在于,该方法包括:
基于静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语
段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单
元;
利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元确定所
述待处理语音文件的各种标点状态的综合权重;
根据所述综合权重为所述待处理语音文件添加标点。
2.根据权利要求1所述的方法,其特征在于,所述静音检测包括:
根据当前的应用场景确定静音阈值,检测所述待处理语音文件中的静音时长,在
所述静音时长大于所述静音阈值时,在所述静音时长对应的静音处从所述待处理语音
文件中划分出待处理语段。
3.根据权利要求1或2所述的方法,其特征在于,根据每个待处理语段包含的每
个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元包括:
识别每个待处理语段中出现的特征单元,将所有待处理语段中出现的特征单元的
并集确定为所述所有特征单元。
4.根据权利要求1所述的方法,其特征在于,所述语言模型通过如下步骤建立:
对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点;
根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所
述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语
料库中每个特征单元的每种标点状态的出现次数;
根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状
态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
5.根据权利要求1或4所述的方法,其特征在于,所述特征单元包括独词特征单
元和/或多词特征单元,所述独词特征单元依据独词特征模板得到,所述多词特征单元
依据多词特征模板得到;
其中,所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求
的单个词、以及所述单个词的语义特征,依据独词特征模板得到独词特征单元包括:
分别以每个词所处的位置作为所述当前基准位置,根据所述独词特征模板确定与
当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的
语义特征识别独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义

\t特征以及所述单个词的位置与当前基准位置的相对位置关系;
所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个
词、以及所述多个词中每个词的语义特征,依据多词特征模板得到多词特征单元包括:
分别以每个词所处的位置作为所述当前基准位置,根据所述多词特征模板确定与
当前基准位置的相对位置关系满足所述多词特征模板要求的多个词,根据该多个词中
每个词的语义特征识别多词特征单元,所述多词特征单元包括所述多个词、所述多个
词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
6.根据权利要求1所述的方法,其特征在于,根据所述所有特征单元确定所述待
处理语音文件的各种标点状态的综合权重包括:
从所述语言模型中获取所述所有特征单元中的每个特征单元与自身各种标点状态
的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状
态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的综合
权重。
7.根据权利要求...

【专利技术属性】
技术研发人员:刘海波王尔玉张翔卢鲤岳帅陈波李露刘荐
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1