【技术实现步骤摘要】
一种公文特征提取方法、装置、设备和介质
[0001]本专利技术涉及公文管理
,特别涉及一种公文特征提取方法、装置、设备和介质。
技术介绍
[0002]公文是法定机关与组织在公务活动中,按照特定的体式、经过一定的处理程序形成和使用的书面材料,又称公务文件。无论从事专业工作,还是从事行政事务,都要学会通过公文来传达政令政策、处理公务,以保证协调各种关系,决定事务使工作正确地、高效地进行。公文特征提取是针对公文内容深度分析的主要手段,随着人工智能、自然语言处理、文本挖掘等相关技术的不断深入,对公文特征提取的手段也不断丰富。
[0003]现阶段公文特征提取系统主要局限于在已有的元数据中进行梳理,形成完整的元数据相关标准,还未有针对公文非结构化文件提取特征的系统。现有针对公文特征提取的方法主要是通过对已有的元数据进行分析及非结构化文件段落内容提取形成公文特征信息,主要通过关键词提取、分词等相关技术来实现。
[0004]现有公文特征提取系统主要存在代码复杂、可复用性不强等特点。需要针对不同的文档编写代码进行特征的抽 ...
【技术保护点】
【技术特征摘要】
1.一种公文特征提取方法,其特征在于:包括:公文提取模板定义过程和公文特征提取过程;所述公文提取模板定义过程包括:通过可扩展标记语言自定义公文提取模板,所述公文提取模板包括:附件提取标识标签、拆分句子规则标签以及至少一个提取特征字段标签;所述附件提取标识标签用于定义提取文件特征时是否包含公文中的附件;所述拆分句子规则标签用于定义公文的句子拆分规则;所述提取特征字段标签用于定义提取公文特征字段的内容和方式;所述公文特征提取过程包括:根据公文提取模板中的附件提取标识标签,获取公文正文或公文正文及附件作为待提取公文,将待提取公文转化为用可扩展标记语言格式内容;根据拆分句子规则标签将待提取公文进行句子拆分;根据提取特征字段标签逐句进行特征字段提取并输出。2.根据权利要求1所述的方法,其特征在于:所述提取特征字段标签包括:按句提取特征字段标签、分组提取特征字段标签以及按段落拆分提取标签;所述按句提取特征字段标签用于按句提取公文特征字段的信息,所述按句提取特征字段标签用正则表达式定义;所述分组提取特征字段标签用于以分组的形式提取公文特征字段的信息,所述分组提取特征字段标签可嵌套按句提取特征字段的规则;所述按段落拆分提取标签用于按段拆分提取公文特征字段的信息,所述按段落拆分提取标签可嵌套按句提取特征字段的规则。3.根据权利要求1或2所述的方法,其特征在于:所述根据提取特征字段标签逐句进行特征字段提取并输出,具体包括:每获取到一待提取公文的句子,分别与每一提取特征字段标签进行匹配,当匹配成功时,根据所述提取特征字段标签进行特征字段提取,然后将提取结果整理输出。4.一种公文特征提取装置,其特征在于:包括:公文提取模板定义模块和公文特征提取模块;所述公文提取模板定义模块,用于通过可扩展标记语言自定义公文提取模板,...
【专利技术属性】
技术研发人员:黄敬林,庄莉,梁懿,林振天,池少宁,翁明东,
申请(专利权)人:国网信息通信产业集团有限公司国网信通亿力科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。