【技术实现步骤摘要】
文档处理方法、文档处理装置和电子设备
本申请属于信息处理
,具体涉及一种文档处理方法、文档处理装置和电子设备。
技术介绍
目前,越来越多的场景需要多人共同撰写一篇文档,比如多人一起写每周总结,多人一起完成一份作业等等。多人在线共同编辑的技术也已经很成熟,但是由于书写习惯不同,每个人的书写格式都不相同,比如字体大小,序号格式,行间距,段间距等等,从而造成最终得到的文档的格式不统一,条理性差,阅读不通顺。目前的修改方式需要用户选择每一个题目和段落进行格式修改,费时费力,不利于效率的提高。
技术实现思路
本申请实施例的目的是提供一种文档处理方法、文档处理装置和电子设备,能够解决现有技术中由于用户个人习惯的差异造成的文档格式不统一,继而导致文档条理性差,阅读不方便,修改费时费力且效率低的问题。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种文档处理方法,该方法包括:提取文档的内容,所述文档的内容至少包括文本段落;标记所述文本段落中的序号的序号类型;< ...
【技术保护点】
1.一种文档处理方法,其特征在于,包括:/n提取文档的内容,所述文档的内容至少包括文本段落;/n标记所述文本段落中的序号的序号类型;/n确定所述文本段落的段落类型;/n根据目标文档格式、所述序号的序号类型以及所述文本段落的段落类型,对所述文档进行排版。/n
【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:
提取文档的内容,所述文档的内容至少包括文本段落;
标记所述文本段落中的序号的序号类型;
确定所述文本段落的段落类型;
根据目标文档格式、所述序号的序号类型以及所述文本段落的段落类型,对所述文档进行排版。
2.根据权利要求1所述的文档处理方法,其特征在于,所述根据目标文档格式、所述序号的序号类型以及所述文本段落的段落类型,对所述文档进行排版的步骤之前,还包括:
获取文档格式要求文本;
对所述文档格式要求文本的内容进行识别,得到所述目标文档格式。
3.根据权利要求1所述的文档处理方法,其特征在于,所述标记所述文本段落中的序号的序号类型的步骤之前,还包括:
采用正则表达式识别并获取所述文本段落中的序号。
4.根据权利要求1所述的文档处理方法,其特征在于,所述标记文本段落中的序号的序号类型的步骤包括:
通过文本序号模型判断所述序号是否为真;
在所述文本序号模型的判断结果为真的情况下,根据所述序号的格式,标记所述序号的序号类型。
5.根据权利要求1所述的文档处理方法,其特征在于,所述确定所述文本段落的段落类型的步骤包括:
利用文本段落分类模型识别每一所述文本段落的段落类型,所述文本段落的段落类型为以下任意一项:标题、正文、图片标注、表格标注。
6.根据权利要求5所述的文档处理方法,其特征在于,所述利用文本段落分类模型识别每一所述文本段落的段落类型的步骤包括:
利用所述文本段落分类模型预测所述文本段落属于任一段落类型的概率,将预测概率最高的段落类型确定为所述文本段落的段落类型。
7.根据权利要求6所述的文档处理方法,其特征在于,所述利用文本段落分类模型识别每一所述文本段落的段落类型的步骤之后,还包括:
在概率最高的段落类型和概率次之的段落类型的概率差值小于预设阈值的情况下,将所述概率最高的段落类型对应的文本段落添加段落类型不确定标记;
接收用户对所述段落类型不确定标记的输入;
响应于所述输入,对所述段落类型不确定标记的文本段落的段落类型进行修改。
8.一种文档处理装置,其特征在于,包括:
提取模块,用于提取文档的内容,所述文档的内容至少包括文本段落;
序号标记模块,用于标记所述文本段落中的序号...
【专利技术属性】
技术研发人员:王楚涵,
申请(专利权)人:维沃移动通信有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。