【技术实现步骤摘要】
基于自然语义的智能文档处理方法、装置、设备及介质
[0001]本申请涉及数据分析的
,尤其是涉及一种基于自然语义的智能文档处理方法、装置、设备及介质。
技术介绍
[0002]随着互联网技术的发展,互联网上的信息呈爆炸式增长。为了更好的应用这些信息,需要对这些信息数据进行有效管理,其中,文档分类是目前应用较为广泛的一种管理技术。文档分类是指根据文档的内容或某种属性,对文档集合中的每一个文档确定一个类别。这样用户不但能够方便地在特定的类别浏览文档,而且可以通过限制搜索范围来使文章的搜索更为容易。
[0003]目前,对文档进行分类的方案一般为:文档的上传者根据自己的理解对文档进行打标即标记分类标签,计算机根据分类标签文档进行分类。
[0004]但是上传者根据自己的经验对文档进行打标,主观性比较强,降低了对文档分类的准确性。
技术实现思路
[0005]为了提高对文档分类的准确性,本申请提供一种自然语义的智能文档处理方法、装置、设备及介质。
[0006]第一方面,本申请提供一种基于自然语义 ...
【技术保护点】
【技术特征摘要】
1.一种基于自然语义的智能文档处理方法,其特征在于,包括:获取待分类文档和所述待分类文档的分类标签;在文档信息库中至少选取一个与所述分类标签相匹配的文档,将选取的文档作为对比文档;将所述对比文档与所述待分类文档进行自然语义分析,计算所述对比文档与所述待分类文档的相似程度值;判断所述相似程度值是否处于预设范围内;若是,则基于所述分类标签对所述待分类文档进行分类处理;若否,则提取所述待分类文档的特征词,基于所述特征词对所述待分类文档进行分类处理。2.根据权利要求1所述的方法,其特征在于,所述将所述对比文档与所述待分类文档进行自然语义分析,计算所述对比文档与所述待分类文档的相似程度值,包括:获取所述待分类文档中的第一关键词和所述对比文档中的第二关键词;将所有第一关键词组成一个第一关键词集合,将所有的第二关键词组成一个第二关键词集合;在第一关键词集合中选取其中一个第一关键词作为比较关键词;将所述比较关键词同时与所述第二关键词集合的所有第二关键词进行自然语义分析,判断所述第二关键词集合中是否存在与所述比较关键词相匹配的第二关键词;若是,则将所述待分类文档的相似度分值加一;重复执行在第一关键词集合中选取其中一个第一关键词作为比较关键词的步骤,直至对第一关键词集合中所有第一关键词自然语义分析完成,得到相似度分值总和。3.根据权利要求2所述的方法,其特征在于,所述判断所述相似程度值是否处于预设范围内,包括:获取所述待分类文档的预设相似度分值;计算所述相似度分值总和与所述预设相似度分值的比值,得到相似度比值;判断所述相似度比值是否超过预设比值;若是,则判定所述相似程度值处于预设范围内,否则判定所述相似程度值不处于预设范围内。4.根据权利要求2所述的方法,其特征在于,所述基于所述特征词对所述待分类文档进行分类处理,包括:将所述第一关键词作为所述特征词;在文档分类词库中查询是否存在与所述特征词相匹配的类别关键词;若是,则获取所述类别关键词对应的文档类别;获取每个文档类别的出现频次;基于所述出现频次确定所述待分类文档的文档类别。5.根据权利要求4所述的方法,...
【专利技术属性】
技术研发人员:李根柱,
申请(专利权)人:北京思源智通科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。