非结构化公文的管理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21224868 阅读:28 留言:0更新日期:2019-05-29 05:36
本申请提出一种非结构化公文的管理方法、装置、计算机设备及存储介质,其中,方法包括:通过获取待识别非结构化公文;根据预设的识别模型对待识别非结构化公文进行识别,获取待识别非结构化公文中的属性信息;根据属性信息对待识别非结构化公文进行存储。由此,提高了非结构化公文的管理的有效性和准确性。

Management Method, Device, Computer Equipment and Storage Medium of Unstructured Documents

This application proposes a management method, device, computer equipment and storage medium for unstructured documents, which includes: obtaining unstructured documents to be identified; identifying unstructured documents to be identified according to the preset recognition model, obtaining attribute information of unstructured documents to be identified; and storing unstructured documents to be identified according to attribute information. Chu. As a result, the effectiveness and accuracy of unstructured document management are improved.

【技术实现步骤摘要】
非结构化公文的管理方法、装置、计算机设备及存储介质
本申请涉及电子政务
,尤其涉及一种非结构化公文的管理方法、装置、计算机设备及存储介质。
技术介绍
目前,在政务公文处理上通常有管理手段和技术方案两种方式,其中,管理手段是在所有公文发出部门将所有要发公文实现对象化,主要是将公文摘要、接收部门、公文涉及人员、联系方式等人为的进行管理系统录入,但是管理手段效率低下,并且没有专职人员进行录入,历史公文无人过问,使得整个政务系统中平行和交叉部门的公文众多无法进行有效的录入;技术方案主要是将公文全部录入,进行部分公文或内容的简单匹配查询,在管理过程中没有有效的识别和有组织的管理,以及对交叉部门和平行部门的公文关系、公文关联等无法实现管理。因此,上述两种方案都无法对公文进行有效管理。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种非结构化公文的管理方法、装置及存储介质,用于解决现有技术中对于非结构化公文无法进行有效管理的技术问题。为达上述目的,本申请第一方面实施例提出了一种非结构化公文的管理方法,包括:获取待识别非结构化公文;根据预设的识别模型对所述待识别非结构化公文进行识别,获取所述待识别非结构化公文中的属性信息;根据所述属性信息对所述待识别非结构化公文进行存储。本申请实施例的非结构化公文的管理方法,通过获取待识别非结构化公文;根据预设的识别模型对待识别非结构化公文进行识别,获取待识别非结构化公文中的属性信息;根据属性信息对待识别非结构化公文进行存储。由此,提高了非结构化公文的管理的有效性和准确性。为达上述目的,本申请第二方面实施例提出了一种非结构化公文的管理装置,包括:获取模块,用于获取待识别非结构化公文;识别模块,用于根据预设的识别模型对所述待识别非结构化公文进行识别,获取所述待识别非结构化公文中的属性信息;存储模块,用于根据所述属性信息对所述待识别非结构化公文进行存储。本申请实施例的非结构化公文的管理装置,通过根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度,根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。由此,提高了非结构化公文的管理的准确率,而且还提高非结构化公文的管理召回率。为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的非结构化公文的管理方法。为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的非结构化公文的管理方法。为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的非结构化公文的管理方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例一所提供的非结构化公文的管理方法的流程示意图;图2为本申请实施例二所提供的非结构化公文的管理方法的流程示意图;图3为本申请实施例三所提供的非结构化公文的管理方法的流程示意图;图4为本申请实施例四所提供的非结构化公文的管理方法的流程示意图;图5为本申请实施例一所提供的非结构化公文的管理装置的结构示意图;图6为本申请实施例二所提供的非结构化公文的管理装置的结构示意图;图7为本申请实施例三所提供的非结构化公文的管理装置的结构示意图;图8为本申请实施例四所提供的非结构化公文的管理装置的结构示意图;图9为本申请实施例所提供的计算机设备的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的非结构化公文的管理方法、装置、计算机设备及存储介质。图1为本申请实施例一所提供的非结构化公文的管理方法的流程示意图。如图1所示,该非结构化公文的管理方法可以包括以下步骤:步骤101,获取待识别非结构化公文。在实际应用中,有很多政务公文是没有按照一定方式存储的,是非结构化的,没有专职的用户对其进行有效录入等导致不能够对公文进行有效管理,本申请通过建立预设的识别模型能够对大量的非结构化公文进行有效识别,并进行存储,从而提高非结构化公文管理的效率和准确性。首先,获取待识别非结构化公文,可以理解的是,存在一个或者多个未按照一定方式进行存储的待识别非结构化公文,可以根据实际应用需要确定一个或者多个待识别非结构化公文。步骤102,根据预设的识别模型对待识别非结构化公文进行识别,获取所述待识别非结构化公文中的属性信息。步骤103,根据属性信息对待识别非结构化公文进行存储。具体地,预先生成识别模型,作为一种可能实现方式,如图2所示,包括:步骤201,确定标注语料库。步骤202,对多个训练非结构化公文进行分词处理,获取每一个训练非结构化公文中的多个训练分词。步骤203,根据预设算法对标注语料库和多个训练分词进行处理,生成预设的识别模型。具体地,确定标注语料库的方式有很多种,可以直接将已经标注好的存在语料库作为标注语料库直接使用比如人民日报语料库,还可以通过人工选择多个未标注的公文进行标注生成标注语料库,还可以是一部分选择标注好的语料和一部分进行人工标注生成标注语料库,可以根据实际应用需要进行选择。其中,标注的方式有很多种,举例而言,使用bilstm+crf是一个双向LSTM(LongShort-TermMemory,长短期记忆网络)+CRF(ConditionalRandomField,条件随机场)层的模型双向的LSTM可以得到上下文的信息,可以更好的深度学习,减少后期标注的人工参与,进一步提高识别模型生成的效率。需要说明的是,标注语料库中存放的是在语言的实际使用中真实出现过的语言材料,标注语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工(比如分析和处理),才能成为有用的资源。其中,标注可以是词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,比如位置属性向量,词性标注序列向量,聚类或者分类算法等。可以理解的是,在生成识别模型之前,需要确定多个训练非结构化公文,并对每一个训练非结构化公文进行分词处理得到每一个训练非结构化公文中的多个训练分词。作为一种示例,获取训练非结构化公文A,对训练非结构化公文A中的公文内容进行分词处理,可以理解的是,可以通过预设的分词方式对公文内容进行分词处理,比如通过Ansj中文分词(基于java的中文分词工具)中的NlpAnalysis分词(带有新词发现功能的分词)方式,更具体地,引入相应的Ansj的本文档来自技高网...

【技术保护点】
1.一种非结构化公文的管理方法,其特征在于,包括以下步骤:获取待识别非结构化公文;根据预设的识别模型对所述待识别非结构化公文进行识别,获取所述待识别非结构化公文中的属性信息;根据所述属性信息对所述待识别非结构化公文进行存储。

【技术特征摘要】
1.一种非结构化公文的管理方法,其特征在于,包括以下步骤:获取待识别非结构化公文;根据预设的识别模型对所述待识别非结构化公文进行识别,获取所述待识别非结构化公文中的属性信息;根据所述属性信息对所述待识别非结构化公文进行存储。2.如权利要求1所述的方法,其特征在于,在所述根据预设的识别模型对所述多个分词进行识别,获取所述待识别非结构化公文中的属性信息之前,还包括:确定标注语料库;对多个训练非结构化公文进行分词处理,获取每一个训练非结构化公文中的多个训练分词;根据预设算法对所述标注语料库和所述多个训练分词进行处理,生成所述预设的识别模型。3.如权利要求2所述的方法,其特征在于,在生成所述预设的识别模型后,还包括:获取待测试非结构化公文;对所述待测试非结构化公文进行分词处理,获取所述待测试非结构化公文中的多个测试分词;根据所述预设的识别模型对所述多个测试分词进行识别,获取测试值;根据所述测试值和预设阈值判断所述预设的识别模型的有效性。4.如权利要求3所述的方法,其特征在于,所述测试值包括:准确率和召回率;所述根据所述测试值和预设阈值判断所述预设的识别模型的有效性,包括:获取所述准确率和所述召回率的比值;若所述比值大于等于预设阈值,则确定所述预设的识别模型有效。5.如权利要求1所述的方法,其特征在于,在根据所述目标分词对应的属性信息对所述待识别非结构化公文进行存储之后,还包括:获取抽取关键词;根据所述抽取关键词抽取目标非结构...

【专利技术属性】
技术研发人员:吴雄辉王丽娟秦锋剑
申请(专利权)人:杭州绿湾网络科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1