基于关键字提取的内容概要生成方法、系统及介质技术方案

技术编号:38717660 阅读:11 留言:0更新日期:2023-09-08 15:00
本发明专利技术公开了基于关键字提取的内容概要生成方法、系统及介质;涉及数据处理技术领域;本方案针对格式固定的表单文档,主要是企业备案或申请表类的表单文档,提供基于关键字提取的内容概要生成方法,通过表单中的概要标识所指示的内容特征,进行词汇关联分析提取出关键字特征,基于关键字特征从原始内容文档中搜索出与表单内容特征相匹配的内容信息,自动生成内容概要;一方面本方案避免了不同角色的前期填写和相关工作人员的后期统计,提高信息统计的准确性和时效性;另一方面在提取概要标识的关键字特征时,考虑了文本词汇之间的关联性,基于词汇关联分析方法提取关键字特征,避免了关键字特征提取不全面影响信息统计准确性的问题。问题。问题。

【技术实现步骤摘要】
基于关键字提取的内容概要生成方法、系统及介质


[0001]本专利技术涉及数据处理
,具体涉及基于关键字提取的内容概要生成方法、系统及介质。

技术介绍

[0002]表单文档的格式相对固定,在日常生活和工作中,有大量的表单文档需要填写,如雇佣劳动文档,银行交易文档,以及备案文档等,这些表单文档格式固定,但是其中需填写的角色信息、约定信息内容各不相同。
[0003]在填写这类表单文档时,一般做法是分配后给不同角色去填写,然而填写过程往往容易出错,并且事后还需要相关工作人员统计重新录入,从而导致信息统计的准确性和效率低下。

技术实现思路

[0004]本专利技术所要解决的技术问题是:传统填写格式固定表单文档的方法,准确性和时效性较低;本专利技术目的在于提供基于关键字提取的内容概要生成方法、系统及介质,对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,由内容特征及匹配的内容信息自动生成内容概要,有效解决了填写格式固定表单文档准确性和时效性低的问题。
[0005]本专利技术通过下述技术方案实现:本方案提供基于关键字提取的内容概要生成方法,包括:接收内容概要生成请求,内容概要生成请求包括原始内容文档和概要标识;基于概要标识所指示的内容特征,将原始内容文档转换成内容概要;包括:对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,基于内容特征及匹配的内容信息生成内容概要;内容特征包括内容引导标识;输出内容概要。
[0006]本方案工作原理:在填写格式固定的表单文档时,传统方法是分配后给不同角色去填写,然而填写过程往往容易出错,并且填写完成后还需要相关工作人员统计重新录入,从而导致信息统计的准确性和效率低;因此本方案针对格式固定的表单文档,主要是企业备案或申请表类的表单文档,提供基于关键字提取的内容概要生成方法,通过表单中的概要标识所指示的内容特征,进行词汇关联分析提取出关键字特征,基于关键字特征从原始内容文档中搜索出与表单内容特征相匹配的内容信息,自动生成内容概要;一方面本方案避免了不同角色的前期填写和相关工作人员的后期统计,提高信息统计的准确性和时效性;另一方面在提取概要标识的关键字特征时,考虑了文本词汇之间的关联性,基于词汇关联分析方法提取关键字特征,避免了关键字特征提取不全面影响信息统计准确性的问题。
[0007]现有技术中存在,在角色填写表单文档过程中进行自动录入的方式,即手动填写+
自动录入,但是依然存在角色填写过程中容易出错的问题;本方案提供的基于关键字提取的内容概要生成方法,不依赖于角色自主填写,从概要标识中进行词汇关联分析提取得到关键字特征,根据关键字从原始内容文档中提取出目标信息后进行自动填写,避免了角色介入影响表单文档填写准确率的问题。
[0008]本方案中原始内容文档主要包括:企业宣传页、单位宣传页、项目报告书等由企业自主提供的文档,还包括从第三方信息网站获取的企业信息。
[0009]填写企业备案或申请表类的表单文档时,填写区可能存在语义性文本填写的情况(比如项目建设进度、出资进度计划、企业工作职责等),语义性文本填写内容难以直接从原始内容文档中获取,因此本方案词汇关联分析提取出内容引导标识的关键字特征,根据关键字特征从原始内容文档中搜索组合出匹配的内容信息;考虑了文本中词汇间的关联性,避免关键字特征提取不全面导致准确性低的问题。
[0010]进一步优化方案为,对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,包括方法:获取当前概要标识的一个或多个内容引导标识;判断当前内容引导标识为通用引导标识或隐含引导标识:若当前内容引导标识为通用引导标识,则以当前内容引导标识及其延伸标识作为关键字特征;延伸标识表示与当前内容引导标识引导指向相同的字或词;(比如,当前内容引导标识为“单位名称”时,则延伸标识可以为“企业名称”、“企业中文名称”、“法人名称”等)若当前内容引导标识为隐含引导标识,则词汇关联分析当前概要标识的历史数据得到关键字特征。
[0011](通用引导标识表示内容引导标识本身就可以作为关键字,如:内容引导标识为“企业名称”、“注册资本”、“组织代码”、“网址”、“地址”等,可以直接作为关键字的标识;而隐含引导标识表示根据内容引导标识本身无法搜索得到针对内容的标识,如:企业简介、项目服务情况、企业标准化情况等需要总结概述的标识。)进一步优化方案为,词汇关联分析当前概要标识的历史数据得到关键字特征,包括方法:获取当前内容引导标识对应的历史内容概要,并对历史内容概要进行预处理得到文本文档:对历史内容概要的文本进行句子切割,并基于分词器得到文本词汇,标记文本词汇的属性,保留重要词汇,剔除停用词汇和无关语义词汇;本方案中重要词汇包括的动词、名词、形容词等;对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S;遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值;以关联高频词汇集S中权重值排名在前的N个重要词汇作为当前内容引导标识的关键字特征。
[0012]进一步优化方案为,对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S,包括方法:以句子为单位将文本文档K划分成k个句子;其中每个句子中包含一个或多个重要
词汇;包含在同一个句子中的重要词汇a1和重要词汇a2定义为有关联关系,将有关联关系的所有重要词汇组合成一个词汇集作为关联高频词汇项;对整个文本文档K进行关联迭代得到n个关联高频词汇项S
a
,S
b
,

,S
n
,所有关联高频词汇项组成的集合作为高频词汇集S=(S
a
,S
b
,

,S
n
)。
[0013]进一步优化方案为,遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值,包括方法:计算重要词汇i在各关联高频词汇项中的关联权重值G
ui

[0014]其中,g
i
为重要词汇i在文本文档K中出现的次数,P
ui
为重要词汇i在关联高频词汇项u中出现的概率;计算重要词汇i在关联高频词汇集S中的平均关联权重值:
[0015]以平均关联权重值平衡TextWank模型的阻尼系数计算出重要词汇i的权重值:在TextWank模型中,平衡后的阻尼系数为;其中d为平衡前的阻尼系数。
[0016]传统的关键字提取过程主要以词汇频率的大小来进行,具备简单易行的特点,其中频率高的词汇成为关键字的比例较大,而频率较低的词汇成为关键字的可能性较小,这种统计方法忽略了词汇在文本中所包含的意义,使得关键字的提取不全面,造成文本语义的缺失。本方案对于关键字的选取时计算了词汇在文本中的关联信息,弱化了词汇频率的重要性,为低频出现的重要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于关键字提取的内容概要生成方法,其特征在于,包括:接收内容概要生成请求,所述内容概要生成请求包括原始内容文档和概要标识;基于概要标识所指示的内容特征,将原始内容文档转换成内容概要;包括:对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,基于关键字特征从原始内容文档中搜索组合出与内容特征相匹配的内容信息,基于内容特征及匹配的内容信息生成内容概要;所述内容特征包括内容引导标识;输出所述内容概要。2.根据权利要求1所述的基于关键字提取的内容概要生成方法,其特征在于,所述对概要标识所指示的内容特征进行词汇关联分析并提取出关键字特征,包括方法:获取当前概要标识的一个或多个内容引导标识;判断当前内容引导标识为通用引导标识或隐含引导标识:若当前内容引导标识为通用引导标识,则以当前内容引导标识及其延伸标识作为关键字特征;所述延伸标识表示与当前内容引导标识引导指向相同的字或词;若当前内容引导标识为隐含引导标识,则词汇关联分析当前概要标识的历史数据得到关键字特征。3.根据权利要求2所述的基于关键字提取的内容概要生成方法,其特征在于,所述词汇关联分析当前概要标识的历史数据得到关键字特征,包括方法:获取当前内容引导标识对应的历史内容概要,并对历史内容概要进行预处理得到文本文档:对历史内容概要的文本进行句子切割,并基于分词器得到文本词汇,标记文本词汇的属性,保留重要词汇,剔除停用词汇和无关语义词汇;对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S;遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值;以关联高频词汇集S中权重值排名在前的N个重要词汇作为当前内容引导标识的关键字特征。4.根据权利要求3所述的基于关键字提取的内容概要生成方法,其特征在于,所述对文本文档中的各重要词汇进行关联规则挖掘构建关联高频词汇集S,包括方法:以句子为单位将文本文档K划分成k个句子;其中每个句子中包含一个或多个重要词汇;包含在同一个句子中的重要词汇a1和重要词汇a2定义为有关联关系,将有关联关系的所有重要词汇组合成一个词汇集作为关联高频词汇项;对整个文本文档K进行关联迭代得到n个关联高频词汇项S
a
,S
b ,

,S
n
,所有关联高频词汇项组成的集合作为高频词汇集S=(S
a ,S
b ,

,S
n
)。5.根据权利要求3所述的基于关键字提取的内容概要生成方法,其特征在于,所述遍历整个关联高频词汇集S,计算文本文档中各重要词汇在关联高频词汇集S中的权重值,包括方法:计算重要词汇i在各关联高频词汇项中的关联权重值G
...

【专利技术属性】
技术研发人员:邱洪涛高健豪
申请(专利权)人:成都信通信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1