目标对象文本段落划分方法技术

技术编号:33652984 阅读:17 留言:0更新日期:2022-06-02 20:31
本发明专利技术公开了目标对象文本段落划分方法,首先是从目标文本中提取关键词,将文本中的一些无关的废弃词,和从若干个其他不相关领域中总结出来的通用型词语,将其取出掉之后;按照相关规则,计算各个分散语句之间的相关性,计算完之后根据相关性首先进行大段划分,得到若干个划分大段,之后从大段内根据相关规则划分小段,得到若干个划分小段;最后自动进行文本格式整理,便于直观浏览,完成目标文本的段落划分。划分。

【技术实现步骤摘要】
目标对象文本段落划分方法


[0001]本专利技术涉及文本段落划分
,具体涉及目标对象文本段落划分方法。

技术介绍

[0002]公开号为CN110674635A的专利公开了一种用于文本段落划分的方法和装置。该方法的一具体实施方式包括:计算各自然段之间的相似度数值,然后计算所述相似度数值的平均值,再基于门槛值进行大段落划分;对所述大段落分别进行词语特征值计算,并计算所述大段落中特征值最大的n 个共同词的熵;基于所述相似度数值的平均值进行门槛值滑动,通过不同的门槛值分别计算所述共同词的熵,取所述熵最小的划分结果为最优划分。该实施方式有利于提高段落相似性的门槛值确定的准确性,从而提高文本段落划分的准确性。
[0003]同样公开号为CN101876967A的专利也公开了一种PDF文本段落生成的方法,该方法包括:A.识别并提取PDF文本的文字块;B.剔除不同层中重复的文字块,并且确定文本行,所确定的文本行组成文本行集合;C. 将文本行集合进行水平方向划分,得到一个或多个第一文本;然后对第一文本集合中的每个第一文本分别进行垂直方向划分,分别得到一个或多个第二文本,提取一个或多个第二文本之间的空白区域以组成空白区域集合;D.合并第一文本集合中两相邻的第一文本,以得到文本排版行;E. 划分合并后的文本排版行,以形成文本排版列和文本段落。实施本专利技术的技术方案,经过该方法处理过的文本结构易生成RTF格式,效果好,且可编辑度高;另外,该方法是自动排版,无需人工干预。
[0004]但是上述两种划分方式中,缺乏一种合理的大小范围划定方式,而且划定方式中,如何确定关键词,怎么判定属于大范围,怎么属于小范围,便于浏览人员直观判定,缺乏一种合理方案,基于此,提供一种解决方案。

技术实现思路

[0005]本专利技术的目的在于提供目标对象文本段落划分方法;
[0006]本专利技术的目的可以通过以下技术方案实现:
[0007]目标对象文本段落划分方法,
[0008]目标对象文本段落划分方法,该方法具体包括下述步骤:
[0009]步骤一:首先进行大段划分,大段划分具体方式为:
[0010]S01:令i=1,获取到H11,自动计算H11和H21之间的均值,也就是以第一个核算段来算,第二个核算段与第一个核算段之间的相似值,然后再以第二个核算段来算,第一个核算段与第二个核算段之间的相似值,计算二者均值,得到相似均值;
[0011]S02:若相似均值≤X2,则表示属于在同一个大段内;X2位预设数值;否则跳转至步骤S05;
[0012]S03:之后获取到下一个核算段,也就是第三个核算段,获取到H12 和H31之间的均值,代入到步骤S02的判定过程;
[0013]S04:依次获取下一个核算段,并重复步骤S02的判定;
[0014]S05:自动将前面的核算段标记为一个核算大段;
[0015]S06:获取到核算大段后的第一个核算段,按照步骤S01

S05的原理,得到下一个核算大段;
[0016]S07:重复步骤S06,得到所有的核算大段;
[0017]步骤二:之后进行小段划分,小段划分原理具体与大段划分方式类似,仅将相似均值的判定方式修改为:相似均值≤X3,根据判定将核算大段划分为一个个小的核算小段;
[0018]步骤三:得到若干个划分大段,若干个划分大段内包括若干个划分小段;
[0019]步骤四:进行文本格式整理,文本格式整理具体方式为:
[0020]将若干个划分大段之间以空一行到方式相互间隔,之后将划分大段内的若干个划分小组以回车另起一行到方式间隔,完成目标文本的段落划分。
[0021]进一步地,步骤二中进行小段划分的具体方式为:
[0022]SS1:选择第一个核算大段;
[0023]SS2:按照步骤九里面相同的原理,划分小段,不过将判定方式修改为,按照相似均值≤X3这个判定方式进行判定,此处X3=T1*X2;T1取值为0.45

0.6;
[0024]SS3:从第一个核算大段内得到若该个核算小段;
[0025]SS4:之后获取到第二个核算大段,重复步骤SS2

SS3的方式进行判定,将其划分为若干个核算小段;
[0026]SS5:重复性获取下一个核算大段,重复步骤SS4,将所有的核算大段划分完成。
[0027]进一步地,在进行步骤一之前,还需进行下述步骤:
[0028]步骤一:获取到需要进行段落划分的文本,将其标记为目标文本;
[0029]步骤二:对目标文本进行初步划分,得到若干个内容段Di,i=1...n;
[0030]步骤三:之后得到所有到内容段Di,进行语句筛选,得到总结词和预设词;
[0031]步骤四:从所有的内容段Di中去除掉预设词和总结词,剩余的词语标记为核算词,得到所有核算词构成的核算段,标记为Hi,i=1...n;Hi 按照目标文本的顺序依次排列;
[0032]步骤五:令i=1,选取对应的核算段H1;
[0033]步骤六:获取到H1内所有的核算词,自动获取到H1与其他核算段之间的相似比,得到H1与其余核算之间的相似比H1j,j=1...n

1;
[0034]步骤七:之后令i值加一,重复步骤五

步骤七,得到所有的相似比,将其标记为Hij;此处也是从目标文本的第一个核算段开始;
[0035]步骤八:之后进行段落文本划分,段落文本划分包括大段划分和小段划分两个步骤。
[0036]进一步地,步骤二中的初步划分具体方式如下:
[0037]获取到所有到段间符号,段间符号具体为分号或者句号;
[0038]从目标文本的初始开始往后推,每遇到一个段间符号时,将其前面所有到内容划分为一个内容段;
[0039]持续往后,得到若干个内容段,将其标记为Di,i=1...n。
[0040]进一步地,步骤三中的语句筛选具体方式为:
[0041]令i=1,获取到对应到内容段D1;构建废弃词库,废弃词库包括预设词和总结词;
预设词为管理员预先设置的词语,无实际意义;
[0042]总结词由下述方式获取得到,具体为:
[0043]S1:从若干个不相关到领域中各自获取一篇文章,具体领域数有管理人员预先设定,得到若干个领域篇,领域篇即为前述的对应领域的文章;
[0044]S2:之后对所有的领域篇进行分词处理,将每个领域篇划分为若干个分词,得到若干组领域分词,每组领域分词指代为对应一个领域篇的所有的分词;
[0045]S3:之后任选一组领域分词,随机从该组内获取一个领域分词,获取到其出现组数,出现组数即为对应该领域分词出现在其他组时,每出现一个组时,出现组数自动加一;此处加一也同步表示若在该组出现超过一次该领域分词时出现组数的数值也仅仅加一,加完之后得到出现组数;
[0046]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.目标对象文本段落划分方法,其特征在于,该方法具体包括下述步骤:步骤一:首先进行大段划分,大段划分具体方式为:S01:令i=1,获取到H11,自动计算H11和H21之间的均值,也就是以第一个核算段来算,第二个核算段与第一个核算段之间的相似值,然后再以第二个核算段来算,第一个核算段与第二个核算段之间的相似值,计算二者均值,得到相似均值;S02:若相似均值≤X2,则表示属于在同一个大段内;X2位预设数值;否则跳转至步骤S05;S03:之后获取到下一个核算段,也就是第三个核算段,获取到H12和H31之间的均值,代入到步骤S02的判定过程;S04:依次获取下一个核算段,并重复步骤S02的判定;S05:自动将前面的核算段标记为一个核算大段;S06:获取到核算大段后的第一个核算段,按照步骤S01

S05的原理,得到下一个核算大段;S07:重复步骤S06,得到所有的核算大段;步骤二:之后进行小段划分,小段划分原理具体与大段划分方式类似,仅将相似均值的判定方式修改为:相似均值≤X3,根据判定将核算大段划分为一个个小的核算小段;步骤三:得到若干个划分大段,若干个划分大段内包括若干个划分小段;步骤四:进行文本格式整理,文本格式整理具体方式为:将若干个划分大段之间以空一行到方式相互间隔,之后将划分大段内的若干个划分小组以回车另起一行到方式间隔,完成目标文本的段落划分。2.根据权利要求1所述的目标对象文本段落划分方法,其特征在于,步骤二中进行小段划分的具体方式为:SS1:选择第一个核算大段;SS2:按照步骤九里面相同的原理,划分小段,不过将判定方式修改为,按照相似均值≤X3这个判定方式进行判定,此处X3=T1*X2;T1取值为0.45

0.6;SS3:从第一个核算大段内得到若该个核算小段;SS4:之后获取到第二个核算大段,重复步骤SS2

SS3的方式进行判定,将其划分为若干个核算小段;SS5:重复性获取下一个核算大段,重复步骤SS4,将所有的核算大段划分完成。3.根据权利要求1所述的目标对象文本段落划分方法,其特征在于,在进行步骤一之前,还需进行下述步骤:步骤一:获取到需要进行段落划分的文本,将其标记为目标文本;步骤二:对目标文本进行初步划分,得到若干个内容段Di,i=1...n;步骤三:之后得到所有到内容段Di,进行语句筛选,得到总结词和预设词;步骤四:从所有的内容段Di中去除掉预设词和总结词,剩余的词语标记为核算词,得到所有核算词构成的核算段,标记...

【专利技术属性】
技术研发人员:何松山陈德全
申请(专利权)人:盟浪可持续数字科技深圳有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1