【技术实现步骤摘要】
目标对象文本段落划分方法
[0001]本专利技术涉及文本段落划分
,具体涉及目标对象文本段落划分方法。
技术介绍
[0002]公开号为CN110674635A的专利公开了一种用于文本段落划分的方法和装置。该方法的一具体实施方式包括:计算各自然段之间的相似度数值,然后计算所述相似度数值的平均值,再基于门槛值进行大段落划分;对所述大段落分别进行词语特征值计算,并计算所述大段落中特征值最大的n 个共同词的熵;基于所述相似度数值的平均值进行门槛值滑动,通过不同的门槛值分别计算所述共同词的熵,取所述熵最小的划分结果为最优划分。该实施方式有利于提高段落相似性的门槛值确定的准确性,从而提高文本段落划分的准确性。
[0003]同样公开号为CN101876967A的专利也公开了一种PDF文本段落生成的方法,该方法包括:A.识别并提取PDF文本的文字块;B.剔除不同层中重复的文字块,并且确定文本行,所确定的文本行组成文本行集合;C. 将文本行集合进行水平方向划分,得到一个或多个第一文本;然后对第一文本集合中的每个第一文本分别进行垂直方向划分,分别得到一个或多个第二文本,提取一个或多个第二文本之间的空白区域以组成空白区域集合;D.合并第一文本集合中两相邻的第一文本,以得到文本排版行;E. 划分合并后的文本排版行,以形成文本排版列和文本段落。实施本专利技术的技术方案,经过该方法处理过的文本结构易生成RTF格式,效果好,且可编辑度高;另外,该方法是自动排版,无需人工干预。
[0004]但是上述两种划分方式中,缺乏一种合理 ...
【技术保护点】
【技术特征摘要】
1.目标对象文本段落划分方法,其特征在于,该方法具体包括下述步骤:步骤一:首先进行大段划分,大段划分具体方式为:S01:令i=1,获取到H11,自动计算H11和H21之间的均值,也就是以第一个核算段来算,第二个核算段与第一个核算段之间的相似值,然后再以第二个核算段来算,第一个核算段与第二个核算段之间的相似值,计算二者均值,得到相似均值;S02:若相似均值≤X2,则表示属于在同一个大段内;X2位预设数值;否则跳转至步骤S05;S03:之后获取到下一个核算段,也就是第三个核算段,获取到H12和H31之间的均值,代入到步骤S02的判定过程;S04:依次获取下一个核算段,并重复步骤S02的判定;S05:自动将前面的核算段标记为一个核算大段;S06:获取到核算大段后的第一个核算段,按照步骤S01
‑
S05的原理,得到下一个核算大段;S07:重复步骤S06,得到所有的核算大段;步骤二:之后进行小段划分,小段划分原理具体与大段划分方式类似,仅将相似均值的判定方式修改为:相似均值≤X3,根据判定将核算大段划分为一个个小的核算小段;步骤三:得到若干个划分大段,若干个划分大段内包括若干个划分小段;步骤四:进行文本格式整理,文本格式整理具体方式为:将若干个划分大段之间以空一行到方式相互间隔,之后将划分大段内的若干个划分小组以回车另起一行到方式间隔,完成目标文本的段落划分。2.根据权利要求1所述的目标对象文本段落划分方法,其特征在于,步骤二中进行小段划分的具体方式为:SS1:选择第一个核算大段;SS2:按照步骤九里面相同的原理,划分小段,不过将判定方式修改为,按照相似均值≤X3这个判定方式进行判定,此处X3=T1*X2;T1取值为0.45
‑
0.6;SS3:从第一个核算大段内得到若该个核算小段;SS4:之后获取到第二个核算大段,重复步骤SS2
‑
SS3的方式进行判定,将其划分为若干个核算小段;SS5:重复性获取下一个核算大段,重复步骤SS4,将所有的核算大段划分完成。3.根据权利要求1所述的目标对象文本段落划分方法,其特征在于,在进行步骤一之前,还需进行下述步骤:步骤一:获取到需要进行段落划分的文本,将其标记为目标文本;步骤二:对目标文本进行初步划分,得到若干个内容段Di,i=1...n;步骤三:之后得到所有到内容段Di,进行语句筛选,得到总结词和预设词;步骤四:从所有的内容段Di中去除掉预设词和总结词,剩余的词语标记为核算词,得到所有核算词构成的核算段,标记...
【专利技术属性】
技术研发人员:何松山,陈德全,
申请(专利权)人:盟浪可持续数字科技深圳有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。