一种添加标点的方法、系统及其语言模型建立方法、装置制造方法及图纸

技术编号:10289408 阅读:153 留言:0更新日期:2014-08-06 15:27
本申请公开了一种添加标点的方法、系统及其语言模型建立方法、装置。该方法包括:识别待处理语句中的每个词、以及每个词的语义特征;根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元;从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;根据所述对应关系确定待处理语句中每个词的标点状态的权重,根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重,根据所述综合权重为待处理语句添加标点。应用本发明专利技术能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。

【技术实现步骤摘要】
【专利摘要】本申请公开了一种添加标点的方法、系统及其语言模型建立方法、装置。该方法包括:识别待处理语句中的每个词、以及每个词的语义特征;根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元;从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;根据所述对应关系确定待处理语句中每个词的标点状态的权重,根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重,根据所述综合权重为待处理语句添加标点。应用本专利技术能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。【专利说明】一种添加标点的方法、系统及其语言模型建立方法、装置
本申请涉及信息处理
,尤其涉及一种添加标点的方法、系统及其语言模型建立方法、装置。
技术介绍
在通信领域以及互联网领域,在某些应用场景中需要为一些缺少标点的文件添加标点,例如,为语音文件添加标点。关于为语音文件添加标点,目前存在着一种基于说话人的说话时的静音间隔自动添加标点的方案。具体地,首先设置静音长短的阈值,如果说话人说话时的静音间隔的长度大于这个阈值,则在这个位置上添加标点,如果不大于所述阈值,则不添加标点。简单的依靠说话人说话时的间隔阈值大小添加标点可能会过多的造成标点误加,断句错误等,例如,如果说话人说话的速度很快的话,语句之间没有间隔、或者间隔很短以至于小于阈值,那么整段语句中间将不添加任何标点,如果说话人的说话速度很慢,接近一字一顿的情况,那么整段语句将会有很多的标点,这两种情况都会造成标点添加错误,添加标点的准确性较低。针对基于静音长短的阈值为语音文件添加标点的方案所存在的准确性较低的问题,存在一种基于分字处理以及每个字所处位置来添加标点的改进方案。在所述改进方案中,首先对语料库中的语句进行分字处理,将待处理语句分成单个字以后,确定每个字在语句中所处的位置,即是处于句子的开始、中间还是结束,并确定每个字后面的标点符号情况,例如有无标点符号等,根据语料库中每个字所处的位置以及每个字后面的标点符号情况建立语言模型,利用建立的语言模型为待处理语句添加标点。在所述改进方案中,利用单个字在句子中的位置以及单个字后面是否有标点来建立语言模型,由于所利用的信息有限,且所利用的信息与标点状态的关联性不强,因此所建立的语言模型并不能提取出语句所蕴含的信息与语句的标点状态之间的真实关系。由于所述改进方案中所利用的语言模型没有提取出语句所蕴含的信息与语句的标点状态之间的真实关系,因此导致添加标点的准确性仍然较低。
技术实现思路
本申请提供了一种添加标点的方法、系统及其语言模型建立方法、装置,能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。—种用于添加标点的语言模型建立方法,该方法包括:对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点;根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数;根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型;其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。一种用于添加标点的语言模型建立装置,该装置包括分词模块、特征提取和记录模块、建立模块;所述分词模块,用于对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点;所述特征提取和记录模块,用于根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数;所述建立模块,用于根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语目模型;其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。 一种添加标点的方法,该方法包括:识别待处理语句中的每个词、以及每个词的语义特征;根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元,其中,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征;从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;根据获取的所述对应关系确定待处理语句中每个词的标点状态的权重,根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重,根据所述综合权重为待处理语句添加标点,其中,待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态。一种添加标点的系统,该系统包括识别装置、特征单元提取装置、权重获取装置、综合权重确定装置和标点添加装置;所述识别装置,用于识别待处理语句中的每个词、以及每个词的语义特征;所述特征提取装置,用于根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元,其中,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征;所述权重获取装置,用于从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;所述综合权重确定装置,用于根据获取的所述对应关系确定待处理语句中每个特征单元的标点状态的权重,根据每个特征单元的标点状态的权重确定待处理语句的各种标点状态的综合权重,其中,待处理语句的每种标点状态包括该待处理语句中包含的每个词的标点状态;所述标点添加装置,用于根据所述综合权重为待处理语句添加标点。由上述技术方案可见,本专利技术在建立用于添加标点的语言模型时,对语料库中的语句进行的是分词处理,并根据分词处理后的语句中每个词的语义信息为每个词标注语义特征,根据每个词的所述语义特征,依据预先设定的特征模板生成特征单元,从语料库的语句中搜索每个特征单元,记录每个特征单元出现时该特征单元的标点状态,记录特征单元的每种标点状态的出现次数,其中,特征单元的标点状态包括特征单元中每个词的标点状态,根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,所建立的用于添加标点的语言模型包括每个特征单元与自身各种标点状态的权重的对应关系。可见,本专利技术对语料库中的语句进行的是分词处理而非分字处理,并且进一步利用词在语句中的语义特征,建立词的语义特征与词的标点状态的权重关系,由于词在语句中的语义特征往往与词的标点状态有着较强的关联性,因此,通过建立包含所述权重关系的语言模型,能够提取出语句中所蕴含的信息(即所包含的词和词的语义特征)与语句的标本文档来自技高网
...

【技术保护点】
一种用于添加标点的语言模型建立方法,其特征在于,该方法包括:对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点;根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数;根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型;其中,所述语言模型,用于在从缺少标点的语句中搜索出特征单元时,根据查询请求提供所述语言模型中所述特征单元与自身各种标点状态的权重的对应关系,以便根据所述对应关系为缺少标点的语句添加标点。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘海波王尔玉张翔卢鲤岳帅刘秋阁陈波刘荐李露
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1