The invention discloses a method and device for text processing, which relates to the technical field of data processing, and is invented to solve the problem of failure of marking processing in the existing text marking processing mode. The method of the present invention includes: parsing the text to be marked from the original text after obtaining the original text; searching the original text content corresponding to the text to be marked based on the text similarity algorithm; splicing the text in the original text except the original text content corresponding to the text to be marked and the text to be marked after processing to obtain the target text. The invention is suitable for application in the process of marking processing of judgment documents.
【技术实现步骤摘要】
文本处理的方法及装置
本专利技术涉及数据处理
,尤其涉及一种文本处理的方法及装置。
技术介绍
在进行文本分析处理的过程中,对于一篇给定的文本,通常需要对其中一些内容进行特殊的标记处理。比如,对于一篇给定的裁判文书,可能需要对其中本院认为段中的某些特定字符进行高亮显示。关于上述对文本中一些内容进行特殊的标记处理的过程,现有的技术方案为先从原文本中解析出待标记处理文本,然后对待标记处理文本进行特殊的标记处理,比如对其中某些特定字符进行高亮显示;然后,再通过字符串匹配的方式找到与解析出的待标记处理文本对应的原文本内容,并将其替换成标记处理后的文本内容,最终得到对原文本中一些内容进行特殊的标记处理后的文本。上述通常为了得到待标记处理文本,关于从原文本中解析出待标记处理文本的过程中可能会对原文本进行一些不影响语义的较小的改动,使最终解析出的待标记处理文本与对应的原文本内容存在一定的差异性。而对于上述现有的技术方案,由于字符串匹配的方式只适用于字符串完全相同的匹配,因此若解析出的待标记处理文本与对应的原文本内容存在差异性,则通过字符串匹配方式就无法找到与解析出的待标记处理文本对应的原文本内容,从而导致无法进行后续的替换步骤,造成标记处理的失败。
技术实现思路
鉴于上述问题,本专利技术提供一种文本处理的方法及装置,为了解决现有文本标记处理方式中存在的标记处理失败的问题。为解决上述技术问题,第一方面,本专利技术提供了一种文本处理的方法,该方法包括:在获取原文本后,从所述原文本中解析出待标记处理文本;对待标记处理文本进行标记处理;基于文本相似度算法查找与待标记处理文本对应 ...
【技术保护点】
1.一种文本处理的方法,其特征在于,所述方法包括:在获取原文本后,从所述原文本中解析出待标记处理文本;对待标记处理文本进行标记处理;基于文本相似度算法查找与待标记处理文本对应的原文本内容;将原文本中除与待标记处理文本对应的原文本内容之外的文本与标记处理后的待标记处理文本进行拼接,得到目标文本。
【技术特征摘要】
1.一种文本处理的方法,其特征在于,所述方法包括:在获取原文本后,从所述原文本中解析出待标记处理文本;对待标记处理文本进行标记处理;基于文本相似度算法查找与待标记处理文本对应的原文本内容;将原文本中除与待标记处理文本对应的原文本内容之外的文本与标记处理后的待标记处理文本进行拼接,得到目标文本。2.根据权利要求1所述的方法,其特征在于,所述基于文本相似度算法查找与待标记处理文本对应的原文本内容,包括:对原文本以及待标记处理文本分别进行分句处理;遍历原文本中每个分句,分别与待标记处理文本中的第一个分句进行相似度匹配;若原文本中出现与待标记处理文本中的第一个分句匹配的起始匹配分句,则结束对所述第一个分句的相似度匹配;从所述起始匹配分句开始遍历原文本中剩余的每个分句,分别与待标记处理文本中的最后一个分句进行相似度匹配;若原文本中出现与待标记处理文本中的最后一个分句匹配的终止匹配分句,则结束对所述最后一个分句的相似度匹配;计算从起始匹配分句到终止匹配分句的分句总数,确定为第一分句总数;若所述第一分句总数等于待标记处理文本中的分句总数,则将所述起始匹配分句与终止匹配分句之间的分句、所述起始匹配分句、所述终止匹配分句确定为与待标记处理文本对应的原文本内容。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述第一分句总数不等于待标记处理文本中的分句总数,则遍历原文本中最近一次确定的起始匹配分句之后的所有分句,重新进行第一个分句与最后一个分句的相似度匹配;重新确定新的起始匹配分句、终止匹配分句以及新的第一分句总数;直到新的第一分句总数等于待标记处理文本中的分句总数时结束第一个分句与最后一个分句的相似度匹配;将新的起始匹配分句与新的终止匹配分句之间的分句、新的起始匹配分句、新的终止匹配分句确定为与待标记处理文本对应的原文本内容。4.根据权利要求2所述的方法,其特征在于,对待标记处理文本中的第一个分句或最后一个分句进行相似度匹配包括:基于编辑距离函数Levenshtein计算第一个分句或最后一个分句与原文本中进行相似度匹配的分句的编辑距离;计算第一个分句或最后一个分句的字符串长度;将所述编辑距离与第一个分句或最后一个分句的字符串长度之间的比值确定为进行相似度度匹配的分句对应的匹配结果;若匹配结果大于等于预设阈值,则确定原文本中进行相似度匹配的分句与第一个分句或最后一个分句匹...
【专利技术属性】
技术研发人员:石鹏,王福伟,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。