【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种添加标点的方法和系统。该方法包括:将待处理语音文件作为整体,根据其中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1;基于静音检测将所述待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1和N2确定所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重;对所述第一综合权重和第二综合权重进行加权得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。应用本专利技术能提高添加标点准确性。【专利说明】
本申请涉及信息处理
,尤其涉及一种添加标点的方法和系统。 一种添加标点的方法和系统
技术介绍
在通信领域以及互联网领域,在某些应用场景中需要为一些缺少标点的文件添加 标点,例如,为语音文件添加标点。 关于为语音文件添加标点,目前存在着一种基于分字处理以及每个字所处位置来 添加标点的方案。 在所述方 ...
【技术保护点】
一种添加标点的方法,其特征在于,该方法包括:将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1;基于静音检测将所述待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重;对所述待处理语音文件的各种标点状态的第一综合 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:刘海波,王尔玉,张翔,卢鲤,岳帅,陈波,李露,刘荐,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。