【技术实现步骤摘要】
数据处理方法和装置、用于数据处理的装置
本专利技术涉及信息处理
,特别是涉及一种数据处理方法和装置、以及一种用于数据处理的装置。
技术介绍
在通信领域以及互联网领域等信息处理
,在某些应用场景中需要为一些缺少标点的文件添加标点。例如,为了方便阅读,为语音识别结果对应的文本添加标点等。现有方案可以利用语言模型为文本添加标点。该语言模型用于描述给定字符单元序列在语言中出现的概率的分布,该字符单元可以包括:词和/或标点符号,语言模型的输出可以是字符单元序列对应的概率得分。依据语言模型输出的字符单元序列对应的概率得分,可以确定文本对应的标点添加结果。专利技术人在实现本专利技术实施例的过程中发现,现有语言模型的训练方法中,使用的训练语料往往是完整语句对应的语料。依据完整语句对应的语料,进行语言模型的训练,可以使训练得到的现有语言模型具备完整语句的标点添加能力。因此,利用现有语言模型为文本添加标点,往往倾向于在文本的末尾位置添加标点,在该文本为不完整语句的情况下,往往会得到错误的标点添加结果,进而导致添加标点的准确度较低。
技术实现思路
鉴于上述问题,提出了本专利技术 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:获取训练语料;所述训练语料包括:不完整语句对应的第一语料;针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;依据所述训练特征,对所述训练数据进行语言模型的训练。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取训练语料;所述训练语料包括:不完整语句对应的第一语料;针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;依据所述训练特征,对所述训练数据进行语言模型的训练。2.根据权利要求1所述的方法,其特征在于,所述不完整语句对应的第一语料为从完整语句对应的第二语料中截取得到。3.根据权利要求1所述的方法,其特征在于,所述获取训练语料,包括:对完整语句对应的第二语料进行分词,以得到所述第二语料包括的词汇;依据所述第二语料包括的词汇,确定所述第二语料对应的截断位置;按照从前到后的顺序,从所述第二语料中截取所述截断位置对应的字符串,作为不完整语句对应的第一语料。4.一种数据处理方法,其特征在于,包括:获取待处理文本;利用语言模型为所述待处理文本添加标点,以得到所述待处理文本对应的标点添加结果;其中,所述语言模型对应的训练语料包括:不完整语句对应的第一语料;所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;输出所述待处理文本对应的标点添加结果。5.一种数据处理装置,其特征在于,包括:语料获取模块,用于获取训练语料;所述训练语料包括:不完整语句对应的第一语料;特征提取模块,用于针对所述训练语料进行特征提取,所述语言模型对应的训练特征包括:所述第一语料中语言单元在完整语句中的位置、以及所述语言单元后面的标点情况;以及模型训练模块,用于依据所述训练特征,对所述训练数据进行语言模型的训练。6.一种数据处理装置,其特征在于,包括:文本获取模块,用于获取待处理文本;标点添加模块,用于利用语言模型为所述待处理文本添...
【专利技术属性】
技术研发人员:姜里羊,王宇光,阳家俊,施亮亮,卫林钰,陈伟,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。