翻译语句结束判断方法与系统技术方案

技术编号:20242572 阅读:35 留言:0更新日期:2019-01-29 23:24
本申请提出了一种翻译语句结束判断方法与系统,能够从要处理的文本中准确识别出一段连续文本是否结束构成了一个句子,从而完成句子结束判断。该系统包括文本导入装置、段落识别装置、语句识别装置、语义组合装置以及可信度判别装置。本发明专利技术从语义上而不是以标点符号为判断标准,识别出待处理文本中具备完整意义的句子。

【技术实现步骤摘要】
翻译语句结束判断方法与系统
本申请属于机器学习领域,尤其涉及一种翻译语句结束判断方法与系统。
技术介绍
在翻译过程中,通常需要对一个较长的待译文本进行切分。切分的一个必要条件是切分后的各个子部分都应该是一个完整独立的语料,不能将一个句子的上下半句切分到不同子部分中;此外,翻译过程通常需要机器翻译的辅助,翻译人员通常需要将待译文本上传至机器翻译工具中,虽然现有的机器翻译引擎支持整段的上传翻译,但是这种方式翻译结果较差,因此,翻译人员通常是需要一句一句的将单个的完整句子上传,才能得到相对比较完成的结果;在另一种场景中,还需要校对翻译后的结果是否正确,此时也需要以完整的句子为单位上传文本进行检查。在这个过程中,面临的一个重要问题就是:如何切分得到完整的句子。一个简单的判断方式是,以句子结束符号为判断依据,例如,通常认为如果某段连续的文本以句号、问号、感叹号结束,则认为该句子结束,可以认为该连续文本构成了一个完整的句子;基于这种思路,可以采用检测特定的符号的方式实现句子结束检测从而完成句子切分。当然,这种方式能够实现预定效果的前提是要处理的文本在形成时便严格遵守标点符号使用规则。显然,当前的语言环境中,很少有人严格按照规定使用标点符号,大部分人除了段落末尾以及文章末尾之外,其他部分从来不使用句号,一个逗号到底或者直接不停的采用分号;更别说乱用问号、感叹号的现象在各种特殊文体中习以为常(例如咆哮体)。因此,仅仅采用前述的判断方式已经不能准确识别出文本中的具有完整意义的句子。
技术实现思路
为解决上述问题,特别是翻译过程中需要准确切分出完整意义上的句子的问题,本申请提出了一种翻译语句结束判断方法与系统,能够从待处理的文本中准确识别出一段连续文本是否结束构成了一个句子,从而完成句子结束判断。在本专利技术的第一个方面,提供一种翻译语句结束判断系统,该系统包括文本导入装置、段落识别装置、语句识别装置、语义组合装置以及可信度判别装置;具体实现时,将待处理文本通过所述文本导入装置导入到所述系统;然后运行所述段落识别装置;所述段落识别装置对导入的待处理文本进行初步处理,得到以段落为单位的段落子部分集合,例如识别出段落开头与结尾,还可以识别出待处理文本的全文结尾;然后,所述段落子部分集合逐段进入语句识别装置;所述语句识别装置按照以段落为单位,对所述段落子部分集合进行处理,具体处理步骤包括:(1)从当前段落的第一个未读字符开始连续读取剩余字符,直到读取到停顿符号为止;读取的连续字符构成待处理句;(2)从所述待处理句中提取多个句子主干词;所述句子主干词是指具备动作意义的实词;(3)将所述多个句子主干词输入所述语义组合装置,所述语义组合装置基于云端语料库输出至少一个比较句;(4)将所述待处理句、所述至少一个比较输入所述可信度判别装置;(5)所述可信度判别装置输出判别结果。检测到停顿符号,意味着已经读取的连续字符有可能构成了一个完整的句子,意义独立,因此,视为潜在的候选句子;但是,潜在的候选句子还需要进一步判断才能确定是否确实为一个意义完整的独立句子;将这些潜在的候选句子作为待处理句,进入下一步处理;下一步处理待处理句,则是本申请的技术方案的核心所在。处理构思为:从所述待处理句中提取多个句子主干词;将所述多个句子主干词输入所述语义组合装置,所述语义组合装置基于云端语料库输出至少一个比较句。基于大规模的语料库的自动学习,本申请能够实现文本的自动学习与语句撰写。当然,基于云端语料库在从所述待处理句中提取多个句子主干词的基础上生成的比较句,本身是一个完整意义的独立句子。接下来,将当前待处理句和这个生成的比较句进行比较,从而就能够判断当前待处理句是不是独立的句子,这一过程是通过本申请所述的可信度判别装置实现的。具体包括:将所述待处理句、所述至少一个比较输入所述可信度判别装置;所述可信度判别装置输出判别结果。具体判断标准可以是如下之一或者其组合,◆比较当前待处理句和这个生成的比较句的长度,判断长度差是否在第一阈值范围内;◆将当前待处理句和这个生成的比较句进行相似度比较,判断相似度是否在第二阈值范围之内;其中,获取长度差的方法比较简单,易于实现;相似度比较的方法则可以采用现有技术已有的文本相似度比较方法,本专利技术不再赘述。如果长度差满足第一阈值范围条件,和/或,相似度满足第二阈值范围条件,则可信度判别装置判定当前待处理句为一个完整的句子;此时,待处理文本的当前待处理句已经处理并且识别完成,可以用于实际的操作(切分或者上传等);然后,本专利技术的技术方案继续读取字符,重复上述步骤(1-5),即读取下一个待处理句,判定是否构成完整句子;如果长度差不满足第一阈值范围条件,和/或,相似度不满足第二阈值范围条件,则当前待处理句不是一个完整句子,此时,则表示当前待处理句后续还有更多的属于该句子的字符,因此,本专利技术的技术方案进一步包括:继续连续读取当前停顿符号之后的未读字符,直到读取到下一个停顿符号为止;读取的连续字符加入到当前待处理句中;这样,当前待处理句的字符数量增加,可以获得更多的句子主干词,接下来重复前述步骤(2-5),即可实现待处理句是否为完整句子的判断。可见,本专利技术的技术方案可以采用计算机流程化的指令语言实现,具体识别与判断为一个迭代循环的过程,其中包括单个待处理句子的内部小循环,其终止条件为当前待处理句子已经构成一个完整的句子,然后进入下一个待处理句子的识别判断;以段落为单位输入待处理文本时,则本次处理的终止条件为读取到段落结尾标记;待处理文本全文输入时,本次处理的终止条件为读取到全文结尾标记。因此,在本专利技术的第二个方面,提供一种计算机实现的识别方法,用于识别当前待处理文本中意义完整独立的句子,所述方法包括如下步骤:S1:读取当前待处理文本的当前未处理段落;S2:从当前未处理段落的第一个未读字符开始连续读取字符;S3:判断当前读取的字符是否为停顿符;如果是,则进入步骤S4;否则,重复步骤S2;S4:基于读取的字符形成的当前待处理句,提取多个句子主干词;S5:根据所述多个句子主干词,输出至少一个比较句;S6:基于所述至少一个比较句与当前待处理句的比较,判断当前待处理句是否构成完整句;S7:判断当前停顿符是否为全文结尾标记符,如果是,则结束处理;否则,进入步骤S8;S8:判断当前停顿符是否为段落结尾标记符,如果是,则进入步骤S1;否则,进入S2。其中,步骤S5具体包括:将所述多个句子主干词输入基于云端语料库的机器学习引擎,输出至少一个比较句;其中,步骤S6包括:比较当前待处理句和至少一个比较句的长度,判断长度差是否在第三阈值范围内;和/或,将当前待处理句和至少一个比较句进行相似度比较,判断相似度是否在四阈值范围之内;进一步的,如果所述长度差和/或相似度在相应的阈值范围之内,则判断当前待处理句构成完整句;进一步的,所述阈值范围可以调节。可以设置一个阈值范围调节模块,用于调节所述第一至第四阈值范围的大小。本专利技术的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,通过计算机存储器和处理器,执行所述可执行指令,用于实现本专利技术前述的一种计算机实现的识别方法,用于识别当前待处理文本中意义完整独立的句子。本专利技术的技术方案至少达到了如下突出的效果本文档来自技高网...

【技术保护点】
1.一种翻译语句结束判断系统,该系统包括文本导入装置、段落识别装置、语句识别装置、语义组合装置以及可信度判别装置;所述文本导入装置导入待处理文本,所述段落识别装置对导入的待处理文本进行初步处理,得到以段落为单位的段落子部分集合;其特征在于:所述语句识别装置按照以段落为单位,对所述段落子部分集合进行处理,具体处理步骤包括:(1)从当前段落的第一个未读字符开始连续读取剩余字符,直到读取到停顿符号为止;读取的连续字符构成待处理句;(2)从所述待处理句中提取多个句子主干词;(3)将所述多个句子主干词输入所述语义组合装置,所述语义组合装置基于云端语料库输出至少一个比较句;(4)将所述待处理句、所述至少一个比较输入所述可信度判别装置;所述可信度判别装置输出判别结果。

【技术特征摘要】
1.一种翻译语句结束判断系统,该系统包括文本导入装置、段落识别装置、语句识别装置、语义组合装置以及可信度判别装置;所述文本导入装置导入待处理文本,所述段落识别装置对导入的待处理文本进行初步处理,得到以段落为单位的段落子部分集合;其特征在于:所述语句识别装置按照以段落为单位,对所述段落子部分集合进行处理,具体处理步骤包括:(1)从当前段落的第一个未读字符开始连续读取剩余字符,直到读取到停顿符号为止;读取的连续字符构成待处理句;(2)从所述待处理句中提取多个句子主干词;(3)将所述多个句子主干词输入所述语义组合装置,所述语义组合装置基于云端语料库输出至少一个比较句;(4)将所述待处理句、所述至少一个比较输入所述可信度判别装置;所述可信度判别装置输出判别结果。2.如权利要求1所述的系统,其中,所述语义组合装置基于云端语料库输出至少一个比较句,具体包括:云端语料库在从所述待处理句中提取的多个句子主干词的基础上生成比较句,所述比较句为一个具备完整意义的独立句。3.如权利要求1或2所述的系统,其中,所述可信度判别装置输出判别结果,具体包括:将当前待处理句和生成的比较句进行比较,基于比较条件是否满足预定条件,输出判别结果。4.如权利要求3所述的系统,其中,还包括预定条件设置模块,用于调节所述预定条件的范围。5.一种计算机实现的识别方法,其特征在于,所述方法包括如下步骤:S1:读取当前待处理文...

【专利技术属性】
技术研发人员:何恩培郑丽华王莲
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1