【技术实现步骤摘要】
一种电子公文脉络关系分析方法及系统
[0001]本专利技术属于文本分析的
,特别涉及一种电子公文脉络关系分析方法及系统。
技术介绍
[0002]政务办公系统包括办文、办事、办会等几大功能,想了解公文、会议、事件及新闻之间的影响及联系,需要通过有效的方法来关联事务之间的关系,并形成有效的公文脉络。
[0003]相关技术中,电子公文脉络关系发现主要是通过规则的方法来实现的,具体实现方法如下:
[0004]1、使用规则或算法识别出需要分析的电子公文中的关键实体,如政策法规名称、公文名称等;
[0005]2、根据识别出的实体检索数据库,找到包含该实体的公文、新闻、会议等;然后计算检索出的新闻和会议等,与需要分析的电子公文之间的相似度,过滤掉相似度较低的会议和新闻等,对剩下的新闻和会议等按时间维度进行排序,并展示。
[0006]相关技术存在有以下问题,对于互联网上公开的政务信息、跨系统的政务信息等,由于信息杂乱无章,很难通过简单的手段进行精准关联;对于公文所产生的社会影响,也没有高效的分析方法。因 ...
【技术保护点】
【技术特征摘要】
1.一种电子公文脉络关系分析方法,其特征在于,包括以下步骤,数据保存:通过主题模型预测已知文本的主题词,保存所述主题词形成数据库;特征提取:提取目标公文的特征主题;文本检索:从所述数据库中检索所述目标公文的特征主题,筛选出多个相似文本;文本向量化:对所述目标公文和所述相似文本进行文本向量化,得到所述目标公文和所述相似文本的文档特征向量;文本计算:根据所述目标公文和所述相似文本的文档特征向量,计算所述目标公文和所述相似文本的余弦距离;文本筛选:对比所述目标公文和所述相似文本的余弦距离,选择所述余弦距离大于或等于阀值的所述相似文本;生成关系树:以所述目标公文为根节点,所述余弦距离大于或等于阀值的所述相似文本为父节点,生成关系树。2.根据权利要求1所述的一种电子公文脉络关系分析方法,其特征在于,所述对所述目标公文和所述相似文本进行文本向量化,得到所述目标公文和所述相似文本的文档特征向量,具体包括,预测所述目标公文和所述相似文本标题的词向量并加权平均,得到所述目标公文和所述相似文本的标题特征向量;预测所述目标公文和所述相似文本正文的词向量并加权平均,得到所述目标公文和所述相似文本的正文特征向量;对所述标题特征向量和所述正文特征向量通过加权平均计算,得到所述目标公文和所述相似文本的文档特征向量。3.根据权利要求2所述的一种电子公文脉络关系分析方法,其特征在于,对所述标题特征向量和所述正文特征向量进行加权平均计算时,所述标题特征向量的权重大于所述正文特征向量的权重。4.根据权利要求1所述的一种电子公文脉络关系分析方法,其特征在于,所述分析方法还包括,文本二次筛选,在对比所述目标公文和所述相似文本的余弦距离,筛除所述余弦距离小于阀值的所述相似文本之前,进行时间筛选,筛除发布时间在指定时间区间外的所述相似文本。5.根据权利要求1所述的一种电子公文脉络关系分析方法,其特征在于,所述分析方法还包括,添加关系树的子节点,在所述关系树生成之后,输入所述父节点对应的相似公文,重复进行文本检索、文本向量化、文本计算和文本筛选,将得到的所述父节点的相似文本作为子节点,添加进所述关系树中。6.根据权利要求1或5任一项所述的一种...
【专利技术属性】
技术研发人员:许建兵,朱彦欣,冯伟,刘伟康,李强,
申请(专利权)人:安徽商信政通信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。