一种基于XML碎片化的文献摘要内容处理方法技术

技术编号:37672308 阅读:19 留言:0更新日期:2023-05-26 04:34
本发明专利技术公开了一种基于XML碎片化的文献摘要内容处理方法,包括将转化成XML格式的文献分割成碎片化的数据单元,按照篇、章、节与主题四种模式组成数据内容模型,通过关键词语义关系将数据内容模型进行动态关联,提取碎片化数据应用单元中关键词与主题词内容单元,将内容单元根据文献摘要需求进行动态重组。本发明专利技术有益效果为元数据自动标引准确率>95%,正文Xml自动标注准确率>90%,能够做到有效提高目标提取准确率的前提下降低文本分解使用的成本。提取准确率的前提下降低文本分解使用的成本。提取准确率的前提下降低文本分解使用的成本。

【技术实现步骤摘要】
一种基于XML碎片化的文献摘要内容处理方法


[0001]本专利技术涉及文字处理
,特别是一种基于XML碎片化的文献摘要内容处理方法。

技术介绍

[0002]各级政府机关单位发文、公开讲话、政策文件、智库研究报告、项目方案、项目可行性研究等不同类型、不同格式文档中的文本进行分解,形成具有树状索引结构的文本片段,需要为后续提取语义和多重指纹查询过程提供数据基础。
[0003]在多介质跨媒体的数字时代,传统的数据媒介无法满足内容组织和服务过程中报告编写者远程协同写作、需求个性化定制、智能识别、编辑自动化等需求。因此,打破传统流程和概念的约束,建立一个基于内容对象的、协同工作的、“一次制作、多元发布“的动态报告生成机制成为一个关键的技术。

技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。<br/>[0005]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于XML碎片化的文献摘要内容处理方法,其特征在于包括:将文献转换成XML格式;将转化成XML格式的文献分割成碎片化的数据单元,按照篇、章、节与主题四种模式组成数据内容模型;通过关键词语义关系将数据内容模型进行动态关联,提取碎片化数据应用单元中关键词与主题词内容单元;将内容单元根据文献摘要需求进行动态重组。2.如权利要求1所述的基于XML碎片化的文献摘要内容处理方法,其特征在于:所述XML格式是可扩展标记语言,即一种数据存储语言;所述利用XML技术建立知识增强表示模型,从形式结构和内容层面实现知识资源的碎片化,根据各类知识资源的特点和利用方式出发逐步实现内容碎片化。3.如权利要求1或2所述的基于XML碎片化的文献摘要内容处理方法,其特征在于:所述碎片化数据单元是根据文献内容特点与利用方法将文献碎片化成公式、图表、段落、章节、内容大纲、交互操作、互动信息、笔记标签、外部链接、内部链接、术语概念、知识标签、知识关联、程序、实验数据这些数据应用单元形式;所述碎片化处理文献是建立碎片化知识关联网络,有利用于知识的检索、重组和精准服务。4.如权利要求3所述的基于XML碎片化的文献摘要内容处理方法,其特征在于:所述动态关联是将碎片化后的内容单元根据语义引擎进行自动化标注,按照文献的内容权重排序形成动态关联网络;所述文献内容权重排序是按照文献技术、公式、方向、结果顺序进行权重排序。5.如权利要求1、2和4任一所述的基于XML碎片化的文献摘要内容处理方法,其特征在于:所述数据内容模型碎片化按照主题的粒度大小分为两种形式,即基本元数据碎片化与正文碎片化;所述基本元数据碎片化包括书目信息与文章信息标注;所述正文碎片化包括章、节、段落、小标题、图片、表格、注释、公式。6.如权利要求5所述的基于XML碎片化的文献摘要内容处理方法,其特征在于:所述碎片化加工是使用自...

【专利技术属性】
技术研发人员:杨春何双伯李于达谢彬瑜王哲李燕妮赵嘉奇
申请(专利权)人:南方电网能源发展研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1