一种督办事项自动关联会议文件的方法及装置制造方法及图纸

技术编号:37320424 阅读:16 留言:0更新日期:2023-04-21 23:00
本发明专利技术涉及一种督办事项自动关联会议文件的方法,包括如下步骤:从多个督办事项中提取督办关键字;调用全文检索接口,利用所述督办关键词对会议文件进行检索,获取到相关的会议文件,生成会议文件集;将会议文件集中的各会议文件的标题生成文件标题BERT向量,将督办标题生成督办标题BERT向量;提取一所述督办标题BERT向量,将其与各文件标题BERT向量计算余弦相似度,将余弦值大于预设阈值的会议文件与督办事项进行关联;遍历所有督办标题BERT向量,重复所述余弦相似度计算,得到各督办事项对应的会议文件。本发明专利技术实现关键信息的精确提取,将建立督办事项

【技术实现步骤摘要】
一种督办事项自动关联会议文件的方法及装置


[0001]本专利技术涉及信息管理领域,尤其涉及一种督办事项自动关联会议文件的方法及装置。

技术介绍

[0002]企业在运营过程中,常常通过开会讨论某一项目的进展,从而制定督办事项,以便跟踪项目进展、督促项目按计划执行。因此,将督办事项与会议文件相关联可以全方位掌握公司的发展方向与进程。目前,企业大都是通过人工方式,先校对某文件是否为会议文件,再进一步确定该会议文件是针对哪个督办事项进行的会议,最后将督办事项和会议文件进行关联。

技术实现思路

[0003]为了解决上述问题,本专利技术的目的在于提供一种督办事项自动关联会议文件的方法,实现关键信息的精确提取,将建立督办事项

会议文件的关联关系,显著提升了关联分析的效率,同时降低了人工投入。
[0004]为实现上述目的,本专利技术采用以下技术方案:一种督办事项自动关联会议文件的方法,包括如下步骤:从多个督办事项中提取督办关键字;调用全文检索接口,利用所述督办关键词对会议文件进行检索,获取到相关的会议文件,生成会议文件集;将会议文件集中的各会议文件的标题传入BERT模型后,生成对应的文件标题BERT向量,将督办事项的督办标题传入BERT模型,生成对应的督办标题BERT向量;提取一所述督办标题BERT向量,将其与各文件标题BERT向量计算余弦相似度,将余弦值大于预设阈值的文件标题BERT向量对应的会议文件与该督办标题BERT向量对应的督办事项进行关联;遍历所有督办标题BERT向量,重复所述余弦相似度计算,得到各督办事项对应的会议文件。
[0005]更优地,所述从多个督办事项中提取督办关键字的步骤为:将督办事项导入停用词库,对数据进行过滤处理;将过滤后的数据放入分词系统进行分词操作,得到分词数据,所述分词数据包含多个候选关键词;采用TF

IDF序列标注算法和TextRank算法从分词数据中分别获取排名在前的N个候选关键词作为督办关键词,生成两督办关键词集;从所述两督办关键词集中按排名顺序筛选出同时出现的前M个督办关键词,其中,M<N,M、N均为自然数;将该M个督办关键词应用于所述全文检索。
[0006]更优地,所述TF

IDF序列标注法提取督办关键词的步骤为:TF

IDF算法利用分词数据训练得到自定义的IDF库,然后将各候选关键词根据公式迭代计算TF

IDF值并排序,获取排名在前的N个候选关键词作为督办关键词,存入一所述督办关键词集。
[0007]更优地,所述TextRank算法构建候选关键词的节点连接图,再根据公式迭代计算各节点的权重直至收敛;对节点权重进行倒序排列,获取排名在前的N个候选关键词作为督办关键词,存入另一所述督办关键词集。
[0008]更优地,所述督办事项包括督办标题、督办信息、督办计划、督办反馈。
[0009]本专利技术还提供一种督办事项自动关联会议文件的方法。
[0010]一种督办事项自动关联会议文件的设备,包括处理器与存储器,所述存储器中存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,执行上述方法步骤本专利技术还提供一种计算机可读存储介质,该计算机可读存储介质中存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,执行上述方法步骤。
[0011]本专利技术具有如下有益效果:本专利技术一种督办事项自动关联会议文件的方法,通过TF

IDF结合TextTank的方式,对督办关键词进行精准提取,再通过督办关键词全文检索出相关会议文件后,利用余弦相似度得到督办事项

会议文件的对应关联关系。本专利技术显著提升了关联分析的效率,降低了人工成本的投入,提升了督办数据以及会议数据分析的应用价值,为实时掌握公司的决策发展走向提供了重要的依据,且可应用场景广泛。
[0012]本专利技术一种督办事项自动关联会议文件的设备以及一种计算机可读存储介质具有与方法步骤相同的有益效果。
附图说明
[0013]图1为本专利技术的整体结构示意图。
具体实施方式
[0014]以下结合附图和具体实施例对本专利技术做进一步详细说明:请参阅图1,一种督办事项自动关联会议文件的方法,包括如下步骤:步骤1、从多个督办事项中提取督办关键字;将督办事项导入停用词库,对数据进行过滤处理,所述督办事项包括督办标题、督办信息、督办计划、督办反馈。将过滤后的数据放入分词系统进行分词操作,得到分词数据,所述分词数据包含多个候选关键词。采用TF

IDF序列标注算法和TextRank算法从分词数据中分别获取排名在前的N个候选关键词作为督办关键词,生成两督办关键词集。具体地:所述TF

IDF序列标注法提取督办关键词的步骤为:TF

IDF算法利用分词数据训练得到自定义的IDF库,然后将各候选关键词根据公式迭代计算TF

IDF值并排序,获取排名在前的N个候选关键词作为督办关键词,存入一所述督办关键词集。所述TextRank算法构建候选关键词的节点连接图,再根据公式迭代计算各节点的权重直至收敛;对节点权重进行倒序排列,获取排名在前的N个候选关键词作为督办关键词,存入另一所述督办关键词集。从所述两督办关键词集中按排名顺序筛选出同时出现的前M个督办关键词,将该M个督办关键词应用于所述全文检索,其中,M<N,M、N均为自然数,在本实施例中,N=20,M=8。
[0015]步骤2、调用全文检索接口,利用所述督办关键词对会议文件进行检索,获取到相关的会议文件,生成会议文件集;步骤3、将会议文件集中的各会议文件的标题传入BERT模型后,生成对应的文件标题BERT向量,将督办事项的督办标题传入BERT模型,生成对应的督办标题BERT向量;步骤4、提取一所述督办标题BERT向量,将其与各文件标题BERT向量计算余弦相似度,将余弦值大于预设阈值的文件标题BERT向量对应的会议文件与该督办标题BERT向量对
应的督办事项进行关联,在本实施例中预设阈值=0.95;遍历所有督办标题BERT向量,重复所述余弦相似度计算,得到各督办事项对应的会议文件。需要说明的是,余弦值大于预设阈值的文件标题BERT向量对应的会议文件可能不只一个,即针对一个督办事项,多次会议讨论,生成多个对应文件,因此,一个督办事项可以对应多个会议文件。
[0016]步骤5、将督办事项与会议文件的关联关系写入关系数据库中。
[0017]本实施例还提供了一种督办事项自动关联会议文件的设备,包括处理器与存储器,所述存储器中存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,实现如上文所述的方法步骤。
[0018]本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,实现如上文所述的方法步骤。
[0019]本专利技术一种督办事项自动关联会议文件本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种督办事项自动关联会议文件的方法,其特征在于,包括如下步骤:从多个督办事项中提取督办关键字;调用全文检索接口,利用所述督办关键词对会议文件进行检索,获取到相关的会议文件,生成会议文件集;将会议文件集中的各会议文件的标题传入BERT模型后,生成对应的文件标题BERT向量,将督办事项的督办标题传入BERT模型,生成对应的督办标题BERT向量;提取一所述督办标题BERT向量,将其与各文件标题BERT向量计算余弦相似度,将余弦值大于预设阈值的文件标题BERT向量对应的会议文件与该督办标题BERT向量对应的督办事项进行关联;遍历所有督办标题BERT向量,重复所述余弦相似度计算,得到各督办事项对应的会议文件。2.根据权利要求1所述的一种督办事项自动关联会议文件的方法,其特征在于:所述从多个督办事项中提取督办关键字的步骤为:将督办事项导入停用词库,对数据进行过滤处理;将过滤后的数据放入分词系统进行分词操作,得到分词数据,所述分词数据包含多个候选关键词;采用TF

IDF序列标注算法和TextRank算法从分词数据中分别获取排名在前的N个候选关键词作为督办关键词,生成两督办关键词集;从所述两督办关键词集中按排名顺序筛选出同时出现的前M个督办关键词,其中,M<N,M、N均为自然数;将该M个督办关键词应用于所述全文检索。3.根据权利要求2所述的...

【专利技术属性】
技术研发人员:翁明东黄敬林杨梦琳
申请(专利权)人:国网信息通信产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1