一种文档评估方法及装置制造方法及图纸

技术编号:15895221 阅读:44 留言:0更新日期:2017-07-28 19:46
本发明专利技术公开了一种文档评估方法及装置,其中,所述文档评估方法包括:获取目标文档的抽取信息,所述抽取信息包括:命名实体、长名词短语及长动词短语;基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,所述技术原创性指标用来表达所述目标文档的创新程度,所述写作质量特征度指标用来表达所述目标文档的复杂程度,所述技术分布度指标用来表达所述目标文档在其它文档中的分布程度;对所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到所述目标文档的综合重要度评分;输出所述目标文档的综合重要度评分。本发明专利技术方案可以从多指标角度对文档进行更为可靠的评估。

Document evaluation method and device

The invention discloses a document evaluation method and device, which includes the document evaluation method: extracting information acquisition target documents, the information extraction includes: named entity, noun phrase and verb phrase long long; the information extraction technology based on the original index calculation of the target document, writing quality characteristic index and distribution index, among them, the original technical indicators are used to express the degree of innovation of the target document, the writing quality characteristic index to express the complexity of the target document, the distribution index used to express the distribution level of the target document in other documents; technology the original index on the target document, writing quality characteristics index and distribution index weighted sum, obtain the target document Comprehensive importance score; outputs the comprehensive importance score of the target document. The scheme of the invention can provide more reliable evaluation of the document from the angle of multiple indexes.

【技术实现步骤摘要】
一种文档评估方法及装置
本专利技术涉及文档信息管理及处理
,具体涉及一种文档评估方法及装置。
技术介绍
随着服务器存储容量的海量增长以及云计算的快速普及,组织机构积累了越来越多的电子文档。但实际上,在这些电子文档中,真正重要的电子文档只占其中的一小部分。而当电子文档的数量过多时,人工的对电子文档进行查看并筛选出其中重要的电子文档显然是很困难的。为了筛选出其中真正重要的电子文档的信息及内容,出现了各种对电子文档的评估方法。但是,现有的这些电子文档的评估方法多为从单一角度对电子文档进行评估,容易导致最终的评估结果不全面或不准确,用户可能因过于依赖评估结果而错过某些电子文档中的重要信息,给企业带来损失。
技术实现思路
有鉴于此,本专利技术实施例提供了一种文档评估方法及装置,旨在为用户提供一种更可靠的文档评估方法,避免用户遗漏文档中的重要信息。本专利技术实施例的第一方面提供了一种文档评估方法,所述文档评估方法包括:获取目标文档的抽取信息,所述抽取信息包括:命名实体、长名词短语及长动词短语;基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,所述技术本文档来自技高网...
一种文档评估方法及装置

【技术保护点】
一种文档评估方法,其特征在于,所述文档评估方法包括:获取目标文档的抽取信息,所述抽取信息包括:命名实体、长名词短语及长动词短语;基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,所述技术原创性指标用来表达所述目标文档在所述目标文档所在的文档集合中的创新程度,所述写作质量特征度指标用来表达所述目标文档在所述文档集合中的复杂程度,所述技术分布度指标用来表达所述目标文档的抽取信息在所述文档集合的其它文档中的分布程度;对所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到所述目标文档的综合重要度评分;输出所述目标文档的综合重要度...

【技术特征摘要】
1.一种文档评估方法,其特征在于,所述文档评估方法包括:获取目标文档的抽取信息,所述抽取信息包括:命名实体、长名词短语及长动词短语;基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,其中,所述技术原创性指标用来表达所述目标文档在所述目标文档所在的文档集合中的创新程度,所述写作质量特征度指标用来表达所述目标文档在所述文档集合中的复杂程度,所述技术分布度指标用来表达所述目标文档的抽取信息在所述文档集合的其它文档中的分布程度;对所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标进行加权求和,得到所述目标文档的综合重要度评分;输出所述目标文档的综合重要度评分。2.如权利要求1所述的文档评估方法,其特征在于,所述获取目标文档的抽取信息,之后还包括:根据各个目标摘要句在所述目标文档中的先后顺序,依次提取各个目标摘要句及各个目标摘要句的上下文,生成所述目标文档的全文摘要,其中,所述目标摘要句为包含所述抽取信息的子句;输出所述目标文档的全文摘要。3.如权利要求1至2任一项所述的文档评估方法,其特征在于,所述获取目标文档的抽取信息,包括:基于汉语词法分析系统对所述目标文档进行分词处理、词性标注处理及命名实体识别处理,获得所述目标文档包含的命名实体;基于中文句法语义分析系统对所述目标文档进行成分句法分析处理,获得所述目标文档包含的长名词短语及长动词短语。4.如权利要求1至2任一项所述的文档评估方法,其特征在于,所述基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,包括:获取所述目标文档的长名词短语支持度、长动词短语支持度及所述目标文档归入所述文档集合中的时间;根据预设的技术原创度评分公式,利用所述目标文档的长名词短语支持度、长动词短语支持度及所述目标文档归入文档集合中的时间,计算得到所述目标文档的技术原创度指标。5.如权利要求1至2任一项所述的文档评估方法,其特征在于,所述基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,包括:统计出剔除重复之后所述目标文档的字数、词数及所述目标文档中各个类别的抽取信息出现的次数;利用诱导有序加权平均算子,对统计出的所述目标文档的字数、词数及所述目标文档中各个类别的抽取信息出现的次数进行加权求和计算;将所述加权求和计算的结果作为所述目标文档的写作质量特征度指标。6.如权利要求1至2任一项所述的文档评估方法,其特征在于,所述基于所述抽取信息,计算所述目标文档的技术原创度指标,写作质量特征度指标及技术分布度指标,包括:将所述文档集合中除所述目标文档之外的其它各个文档的抽取信息与所述目标文档的抽取信息进行相似度计算;将所述其它各个文档的抽取信息与所述目标文档的抽取信...

【专利技术属性】
技术研发人员:熊文丁紫惠
申请(专利权)人:中国长城科技集团股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1