文本处理的方法及装置制造方法及图纸

技术编号:20916949 阅读:31 留言:0更新日期:2019-04-20 09:46
本发明专利技术公开了一种文本处理的方法及装置,涉及数据处理技术领域,为解决现有文本标记处理方式中存在的标记处理失败的问题而发明专利技术。本发明专利技术的方法包括:在获取原文本后,从所述原文本中解析出待标记处理文本;基于文本相似度算法查找与待标记处理文本对应的原文本内容;将原文本中除与待标记处理文本对应的原文本内容之外的文本与标记处理后的待标记处理文本进行拼接,得到目标文本。本发明专利技术适合应用在裁判文书标记处理的过程中。

Method and Device of Text Processing

The invention discloses a method and device for text processing, which relates to the technical field of data processing, and is invented to solve the problem of failure of marking processing in the existing text marking processing mode. The method of the present invention includes: parsing the text to be marked from the original text after obtaining the original text; searching the original text content corresponding to the text to be marked based on the text similarity algorithm; splicing the text in the original text except the original text content corresponding to the text to be marked and the text to be marked after processing to obtain the target text. The invention is suitable for application in the process of marking processing of judgment documents.

【技术实现步骤摘要】
文本处理的方法及装置
本专利技术涉及数据处理
,尤其涉及一种文本处理的方法及装置。
技术介绍
在进行文本分析处理的过程中,对于一篇给定的文本,通常需要对其中一些内容进行特殊的标记处理。比如,对于一篇给定的裁判文书,可能需要对其中本院认为段中的某些特定字符进行高亮显示。关于上述对文本中一些内容进行特殊的标记处理的过程,现有的技术方案为先从原文本中解析出待标记处理文本,然后对待标记处理文本进行特殊的标记处理,比如对其中某些特定字符进行高亮显示;然后,再通过字符串匹配的方式找到与解析出的待标记处理文本对应的原文本内容,并将其替换成标记处理后的文本内容,最终得到对原文本中一些内容进行特殊的标记处理后的文本。上述通常为了得到待标记处理文本,关于从原文本中解析出待标记处理文本的过程中可能会对原文本进行一些不影响语义的较小的改动,使最终解析出的待标记处理文本与对应的原文本内容存在一定的差异性。而对于上述现有的技术方案,由于字符串匹配的方式只适用于字符串完全相同的匹配,因此若解析出的待标记处理文本与对应的原文本内容存在差异性,则通过字符串匹配方式就无法找到与解析出的待标记处理文本对应的原文本内容,从而导致无法进行后续的替换步骤,造成标记处理的失败。
技术实现思路
鉴于上述问题,本专利技术提供一种文本处理的方法及装置,为了解决现有文本标记处理方式中存在的标记处理失败的问题。为解决上述技术问题,第一方面,本专利技术提供了一种文本处理的方法,该方法包括:在获取原文本后,从所述原文本中解析出待标记处理文本;对待标记处理文本进行标记处理;基于文本相似度算法查找与待标记处理文本对应的原文本内容;将原文本中除与待标记处理文本对应的原文本内容之外的文本与标记处理后的待标记处理文本进行拼接,得到目标文本。可选的,所述基于文本相似度算法查找与待标记处理文本对应的原文本内容,包括:对原文本以及待标记处理文本分别进行分句处理;遍历原文本中每个分句,分别与待标记处理文本中的第一个分句进行相似度匹配;若原文本中出现与待标记处理文本中的第一个分句匹配的起始匹配分句,则结束对所述第一个分句的相似度匹配;从所述起始匹配分句开始遍历原文本中剩余的每个分句,分别与待标记处理文本中的最后一个分句进行相似度匹配;若原文本中出现与待标记处理文本中的最后一个分句匹配的终止匹配分句,则结束对所述最后一个分句的相似度匹配;计算从起始匹配分句到终止匹配分句的分句总数,确定为第一分句总数;若所述第一分句总数等于待标记处理文本中的分句总数,则将所述起始匹配分句与终止匹配分句之间的分句、所述起始匹配分句、所述终止匹配分句确定为与待标记处理文本对应的原文本内容。可选的,所述方法还包括:若所述第一分句总数不等于待标记处理文本中的分句总数,则遍历原文本中最近一次确定的起始匹配分句之后的所有分句,重新进行第一个分句与最后一个分句的相似度匹配;重新确定新的起始匹配分句、终止匹配分句以及新的第一分句总数;直到新的第一分句总数等于待标记处理文本中的分句总数时结束第一个分句与最后一个分句的相似度匹配;将新的起始匹配分句与新的终止匹配分句之间的分句、新的起始匹配分句、新的终止匹配分句确定为与待标记处理文本对应的原文本内容。可选的,对待标记处理文本中的第一个分句或最后一个分句进行相似度匹配包括:基于编辑距离函数Levenshtein计算第一个分句或最后一个分句与原文本中进行相似度匹配的分句的编辑距离;计算第一个分句或最后一个分句的字符串长度;将所述编辑距离与第一个分句或最后一个分句的字符串长度之间的比值确定为进行相似度度匹配的分句对应的匹配结果;若匹配结果大于等于预设阈值,则确定原文本中进行相似度匹配的分句与第一个分句或最后一个分句匹配。可选的,所述方法还包括:若从原文本中解析出待标记处理文本是不连续的文本内容,则将待标记处理文本划分为多个待标记处理子文本,每个待标记处理子文本中的内容是连续的;基于文本相似度算法分别查找与每个待标记处理子文本对应的原文本内容;将原文本中除与待标记处理子文本对应的原文本内容之外的文本与标记处理后的各个待标记处理子文本进行拼接,得到目标文本。可选的,所述对待标记处理文本进行标记处理包括:对待标记处理文本中的预设字符串进行高亮标记。第二方面,本专利技术还提供了一种文本处理的装置,该装置包括:解析单元,用于在获取原文本后,从所述原文本中解析出待标记处理文本;标记处理单元,用于对待标记处理文本进行标记处理;查找单元,用于基于文本相似度算法查找与待标记处理文本对应的原文本内容;拼接单元,用于将原文本中除与待标记处理文本对应的原文本内容之外的文本与标记处理后的待标记处理文本进行拼接,得到目标文本。可选的,所述查找单元,包括:分句模块,用于对原文本以及待标记处理文本分别进行分句处理;匹配模块,用于遍历原文本中每个分句,分别与待标记处理文本中的第一个分句进行相似度匹配;结束模块,用于若原文本中出现与待标记处理文本中的第一个分句匹配的起始匹配分句,则结束对所述第一个分句的相似度匹配;所述匹配模块,还用于从所述起始匹配分句开始遍历原文本中剩余的每个分句,分别与待标记处理文本中的最后一个分句进行相似度匹配;所述结束模块,还用于若原文本中出现与待标记处理文本中的最后一个分句匹配的终止匹配分句,则结束对所述最后一个分句的相似度匹配;计算模块,用于计算从起始匹配分句到终止匹配分句的分句总数,确定为第一分句总数;确定模块,用于若所述第一分句总数等于待标记处理文本中的分句总数,则将所述起始匹配分句与终止匹配分句之间的分句、所述起始匹配分句、所述终止匹配分句确定为与待标记处理文本对应的原文本内容。可选的,所述装置还包括:匹配单元,用于若所述第一分句总数不等于待标记处理文本中的分句总数,则遍历原文本中最近一次确定的起始匹配分句之后的所有分句,重新进行第一个分句与最后一个分句的相似度匹配;第一确定单元,用于重新确定新的起始匹配分句、终止匹配分句以及新的第一分句总数;结束单元,用于直到新的第一分句总数等于待标记处理文本中的分句总数时结束第一个分句与最后一个分句的相似度匹配;第二确定单元,用于将新的起始匹配分句与新的终止匹配分句之间的分句、新的起始匹配分句、新的终止匹配分句确定为与待标记处理文本对应的原文本内容。可选的,所述匹配模块,用于:基于编辑距离函数Levenshtein计算第一个分句或最后一个分句与原文本中进行相似度匹配的分句的编辑距离;计算第一个分句或最后一个分句的字符串长度;将所述编辑距离与第一个分句或最后一个分句的字符串长度之间的比值确定为进行相似度度匹配的分句对应的匹配结果;若匹配结果大于等于预设阈值,则确定原文本中进行相似度匹配的分句与第一个分句或最后一个分句匹配。可选的,所述装置还包括:划分单元,用于若从原文本中解析出待标记处理文本是不连续的文本内容,则将待标记处理文本划分为多个待标记处理子文本,每个待标记处理子文本中的内容是连续的;所述查找单元,还用于基于文本相似度算法分别查找与每个待标记处理子文本对应的原文本内容;所述拼接单元,还用于将原文本中除与待标记处理子文本对应的原文本内容之外的文本与标记处理后的各个待标记处理子文本进行拼接,得到目标文本。可选的,所述标记处理单元还用于:对本文档来自技高网...

【技术保护点】
1.一种文本处理的方法,其特征在于,所述方法包括:在获取原文本后,从所述原文本中解析出待标记处理文本;对待标记处理文本进行标记处理;基于文本相似度算法查找与待标记处理文本对应的原文本内容;将原文本中除与待标记处理文本对应的原文本内容之外的文本与标记处理后的待标记处理文本进行拼接,得到目标文本。

【技术特征摘要】
1.一种文本处理的方法,其特征在于,所述方法包括:在获取原文本后,从所述原文本中解析出待标记处理文本;对待标记处理文本进行标记处理;基于文本相似度算法查找与待标记处理文本对应的原文本内容;将原文本中除与待标记处理文本对应的原文本内容之外的文本与标记处理后的待标记处理文本进行拼接,得到目标文本。2.根据权利要求1所述的方法,其特征在于,所述基于文本相似度算法查找与待标记处理文本对应的原文本内容,包括:对原文本以及待标记处理文本分别进行分句处理;遍历原文本中每个分句,分别与待标记处理文本中的第一个分句进行相似度匹配;若原文本中出现与待标记处理文本中的第一个分句匹配的起始匹配分句,则结束对所述第一个分句的相似度匹配;从所述起始匹配分句开始遍历原文本中剩余的每个分句,分别与待标记处理文本中的最后一个分句进行相似度匹配;若原文本中出现与待标记处理文本中的最后一个分句匹配的终止匹配分句,则结束对所述最后一个分句的相似度匹配;计算从起始匹配分句到终止匹配分句的分句总数,确定为第一分句总数;若所述第一分句总数等于待标记处理文本中的分句总数,则将所述起始匹配分句与终止匹配分句之间的分句、所述起始匹配分句、所述终止匹配分句确定为与待标记处理文本对应的原文本内容。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述第一分句总数不等于待标记处理文本中的分句总数,则遍历原文本中最近一次确定的起始匹配分句之后的所有分句,重新进行第一个分句与最后一个分句的相似度匹配;重新确定新的起始匹配分句、终止匹配分句以及新的第一分句总数;直到新的第一分句总数等于待标记处理文本中的分句总数时结束第一个分句与最后一个分句的相似度匹配;将新的起始匹配分句与新的终止匹配分句之间的分句、新的起始匹配分句、新的终止匹配分句确定为与待标记处理文本对应的原文本内容。4.根据权利要求2所述的方法,其特征在于,对待标记处理文本中的第一个分句或最后一个分句进行相似度匹配包括:基于编辑距离函数Levenshtein计算第一个分句或最后一个分句与原文本中进行相似度匹配的分句的编辑距离;计算第一个分句或最后一个分句的字符串长度;将所述编辑距离与第一个分句或最后一个分句的字符串长度之间的比值确定为进行相似度度匹配的分句对应的匹配结果;若匹配结果大于等于预设阈值,则确定原文本中进行相似度匹配的分句与第一个分句或最后一个分句匹...

【专利技术属性】
技术研发人员:石鹏王福伟
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1