【技术实现步骤摘要】
多批次文档处理方法、装置和计算机设备
[0001]本专利技术属于文档处理领域,更具体地涉及一种多批次文档处理方法、装置和计算机设备。
技术介绍
[0002]随着互联网的快速发展,各种各样的文档随之产生。目前,通过对一篇文档处理来提取该篇文档的关键词,或者通过对一批文档处理来提取该批文档的关键词。然后,利用提取出的关键词来处理当前文档。
[0003]但是,专利技术人在实现本专利技术的专利技术构思时发现相关技术中至少存在以下技术问题:相关技术中在提取关键词时,并没有考虑多篇文档或多批文档之间的差异,使得上述提取出的关键词不能表征出在多篇文档或多批文档中的差异化,进而使得在处理当前文档时得到的结果不够准确。
[0004]因此,有必要提供一种多批次文档处理方法,以解决上述问题。
技术实现思路
[0005](一)要解决的技术问题
[0006]本专利技术旨在解决相关技术中在提取关键词时,并没有考虑多篇文档或多批文档之间的差异,使得上述提取出的关键词不能表征出在多篇文档或多批文档中的差异化,进而使得 ...
【技术保护点】
【技术特征摘要】
1.一种多批次文档处理方法,其特征在于,包括:根据所述多批次文档,获取词语集合;根据所述词语集合中每个词语在不同批次文档中的逆文档频率和所述词语集合中每个词语在不同批次文档中的词频,确定所述词语集合中每个词语在不同批次文档的差异度;根据所述词语集合中每个词语在不同批次文档的差异度,确定不同批次文档中的差异化关键词;根据不同批次文档中的差异化关键词,对当前文档进行摘要提取,获取所述当前文档的摘要。2.根据权利要求1所述的多批次文档处理方法,其特征在于,根据所述多批次文档,获取所述词语集合包括:对所述多批次文档中每批次文档进行分词处理,得到每批次文档的词语;根据停用词表去掉每批次文档的词语中的停用词,得到每批次文档中的关键词;根据每批次文档中的关键词,获取所述词语集合。3.根据权利要求1所述的多批次文档处理方法,其特征在于,在确定所述词语集合中每个词语在不同批次文档的差异度之前,该方法还包括:计算所述词语集合中每个词语在不同批次文档中的逆文档频率;计算所述词语集合中每个词语在不同批次文档中的词频。4.根据权利要求1所述的多批次文档处理方法,其特征在于,根据所述词语集合中每个词语在不同批次文档的差异度,确定不同批次文档中的差异化关键词包括:对所述词语集合中每个词语在不同批次文档的差异度进行排序;根据排序结果,获取不同批次文档中的差异化关键词。5.根据权利要求4所述的多批次文档处理方法,其特征在于,根据不同批次文档中的差异化关键词,对当前文档进行摘要提取,获取所述当前文档的摘要包括:对所述当前文档进行分句处理,得到所述当前文档的多个句子;根据不同批次文档中的差异化关键词,确定每个句子包含的差异化关键词;根据每个句子的差异化关键词的权重,计算每个句子的差异化关键词的权重和,所述差异化关键词的权重为该差异化关键词在不同批...
【专利技术属性】
技术研发人员:王明阳,王佳奇,王博弘,蒋宏飞,宋旸,杨林,霍灿君,
申请(专利权)人:作业帮教育科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。