用于文档标记方法、装置及设备制造方法及图纸

技术编号:28037108 阅读:31 留言:0更新日期:2021-04-09 23:19
本申请涉及文档处理技术领域,公开一种用于文档标记的方法,包括:获取若干个待处理文档;在待处理文档中确定出第一文档,并获取第一文档的关键词;根据关键词获取第二文档集合;第二文档集合包括第二文档的文档内容和第二文档的文档标题;根据第二文档集合和预设集合获得第三文档;对第三文档进行标记。通过确定第一文档并获取第一文档的关键词,通过关键词获取第二文档,并根据第二文档和包含有第一文档的预设的文档集合获得第三文档,对第三文档进行标记,不需要人为标注文档的类别,节省了人力,提高了文档标记的效率,节省了文档处理的时间,便于对文档数据进行日常管理和检索。本申请还公开一种用于文档标记的装置及设备。

【技术实现步骤摘要】
用于文档标记方法、装置及设备
本申请涉及文档处理
,例如涉及一种用于文档标记的方法、装置及设备。
技术介绍
随着社会与科技的发展,我们已经进入到了信息时代,许多信息资源都以电子文档数据的形式保存,面对数量庞杂的文档数据,人们往往需要耗费大量的时间对大量的文档数据进行处理。在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有技术对文档进行标记的效率较低。
技术实现思路
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。本公开实施例提供了一种用于文档标记的方法、装置及设备,以提高文档标记的效率。在一些实施例中,所述方法包括:获取若干个待处理文档;在所述待处理文档中确定第一文档,并获取所述第一文档的关键词;根据所述关键词获取第二文档;根据所述第二文档和预设的文档集合获得第三文档;所述预设的文档集合中包括所述第一文档;对所述第三文档进行标记。在一些实施例中,所述本文档来自技高网...

【技术保护点】
1.一种用于文档标记的方法,其特征在于,包括:/n获取若干个待处理文档;/n在所述待处理文档中确定第一文档,并获取所述第一文档的关键词;/n根据所述关键词获取第二文档;/n根据所述第二文档和预设的文档集合获得第三文档;所述预设的文档集合中包括所述第一文档;/n对所述第三文档进行标记。/n

【技术特征摘要】
1.一种用于文档标记的方法,其特征在于,包括:
获取若干个待处理文档;
在所述待处理文档中确定第一文档,并获取所述第一文档的关键词;
根据所述关键词获取第二文档;
根据所述第二文档和预设的文档集合获得第三文档;所述预设的文档集合中包括所述第一文档;
对所述第三文档进行标记。


2.根据权利要求1所述的方法,其特征在于,在所述待处理文档中确定出第一文档,包括:
随机选取一个待处理文档作为第一文档。


3.根据权利要求1所述的方法,其特征在于,所述第一文档包括文档内容,获取所述第一文档的关键词,包括:
将所述文档内容中出现频率最多的词确定为所述第一文档的关键词。


4.根据权利要求1所述的方法,其特征在于,根据所述关键词获取第二文档,包括:
将所述待处理文档中除所述第一文档外,包括所述关键词的文档确定为第二文档。


5.根据权利要求1所述的方法,其特征在于,根据所述第二文档和预设的文档集合获得第三文档,包括:
获取第一相似度,所述第一相似度为所述第二文档与所述预设的文档集合中的文档之间的...

【专利技术属性】
技术研发人员:孙孟奇尤旸
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1