基于图结构的公文推荐方法、装置、计算机设备及介质制造方法及图纸

技术编号:25637205 阅读:32 留言:0更新日期:2020-09-15 21:29
本发明专利技术涉及大数据领域,本发明专利技术公开了一种基于图结构的公文推荐方法、装置、计算机设备及介质。所述方法包括:获取多种公文,根据TF‑IDF筛选特征词语,并将该特征词语记录为与其对应的公文的关键词标签;通过公文的文本主题‑关键词的分布概率矩阵筛选出选取概率大于或等于预设概率的文本主题,并将筛选出的文本主题记录为与其对应的公文的主题标签;根据关键词标签和主题标签生成公文属性;获取公文的记录数据,通过Neo4j框架根据公文的记录数据和公文属性建立基于图结构的公文推荐库;接收到用户自公文推荐库中输入的检索内容,依据SimRank计算出的相似度的高低次序输出目标公文。本发明专利技术可向用户推荐出与用户输入的检索内容相关度最高的目标公文。

【技术实现步骤摘要】
基于图结构的公文推荐方法、装置、计算机设备及介质
本专利技术涉及大数据领域的数据分析领域,尤其涉及一种基于图结构的公文推荐方法、装置、计算机设备及介质。
技术介绍
目前常用公文推荐方法多数基于传统的搜索引擎,传统搜索引擎在对公文进行推荐时,通常基于公文相似度进行推荐,如此,可以推荐与用户相关度较高的公文,但在现有技术中,公文相似度的判定往往基于人工设定的单一标准进行确定,如此,由于人工设定的标准可能存在不准确的问题,因此将会导致传统搜索引擎在进行公文推荐时,会存在考虑不全面的问题,进而导致不能向用户推荐出与用户输入的内容相关度最高的公文,影响到用户体验效果。因此,本领域技术人员亟需寻找一种技术方案来解决上述提到的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种基于图结构的公文推荐方法、装置、计算机设备及介质,可向用户推荐出与用户输入的内容相关度最高的公文,进而提高用户体验效果。一种基于图结构的公文推荐方法,包括:获取具有不同公文类型的多种公文,根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语,根据TF-IDF筛选出现频率大于或等于预设频率的特征词语,并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签;将所述公文输入至预设的LDA主题模型,通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵,再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题,并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签;所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率,所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率;根据所述关键词标签和所述主题标签生成公文属性;根据每一种公文类型获取所述公文的记录数据,通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库;所述公文推荐库中包含多个图结构,一个所述图结构对应至少一种所述公文类型的所述公文,一个所述图结构中包含相互连接的多个节点;一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种;接收到用户自所述公文推荐库中输入的检索内容,依据SimRank计算出的相似度的高低次序输出目标公文;所述相似度是指所述检索内容与所述节点的相似度。一种基于图结构的公文推荐装置,包括:第一记录模块,用于获取具有不同公文类型的多种公文,根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语,根据TF-IDF筛选出现频率大于或等于预设频率的特征词语,并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签;第二记录模块,用于将所述公文输入至预设的LDA主题模型,通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵,再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题,并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签;所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率,所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率;第一生成模块,用于根据所述关键词标签和所述主题标签生成公文属性;建立模块,用于根据每一种公文类型获取所述公文的记录数据,通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库;所述公文推荐库中包含多个图结构,一个所述图结构对应至少一种所述公文类型的所述公文,一个所述图结构中包含相互连接的多个节点;一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种;计算模块,用于接收到用户自所述公文推荐库中输入的检索内容,依据SimRank计算出的相似度的高低次序输出目标公文;所述相似度是指所述检索内容与所述节点的相似度。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于图结构的公文推荐方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于图结构的公文推荐方法。上述基于图结构的公文推荐方法、装置、计算机设备及介质,基于TF-IDF给出的关键词标签会相对比较客观,关键词标签是基于统计学方法而得到,进而能保证得到的关键词标签具有考虑全面和错误率低的优点,且给出的关键词标签数量为可控制状态,可保证关键词标签较为丰富;基于LDA主题模型给出的主题标签会相对比较客观,每一个关键词所对应的文本主题基于模型运算方法而得到,进而能保证得到的文本主题标签具有考虑全面和错误率低的优点;通过SimRank计算出用户输入的检索内容与节点之间的相似度,由于SimRank结合了多种公文的文本内的特征,因此可推荐出相关性较高的目标公文,提升推荐的准确度和效率,SimRank度量出的对象之间相似性更加符合人类的直觉判断,且以该相似度的高低去确定输出的目标公文的顺序,可提高用户的体验效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中基于图结构的公文推荐方法的一应用环境示意图;图2是本专利技术一实施例中基于图结构的公文推荐方法的一流程图;图3是本专利技术一实施例中基于图结构的公文推荐装置的结构示意图;图4是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供的基于图结构的公文推荐方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务器进行通信。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种基于图结构的公文推荐方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:S10,获取具有不同公文类型的多种公文,根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语,根据TF-IDF筛选出现频率大于或等于预设频率的特征词语,并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签;可理解地,公文为目前至少15种公文类型的公文,该公文类型包括但不限于命令、决定、公告、通告和通知等;TF-IDF(Termfrequenc本文档来自技高网...

【技术保护点】
1.一种基于图结构的公文推荐方法,其特征在于,包括:/n获取具有不同公文类型的多种公文,根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语,根据TF-IDF筛选出现频率大于或等于预设频率的特征词语,并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签;/n将所述公文输入至预设的LDA主题模型,通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵,再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题,并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签;所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率,所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率;/n根据所述关键词标签和所述主题标签生成公文属性;/n根据每一种公文类型获取所述公文的记录数据,通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库;所述公文推荐库中包含多个图结构,一个所述图结构对应至少一种所述公文类型的所述公文,一个所述图结构中包含相互连接的多个节点;一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种;/n接收到用户自所述公文推荐库中输入的检索内容,依据SimRank计算出的相似度的高低次序输出目标公文;所述相似度是指所述检索内容与所述节点的相似度。/n...

【技术特征摘要】
1.一种基于图结构的公文推荐方法,其特征在于,包括:
获取具有不同公文类型的多种公文,根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语,根据TF-IDF筛选出现频率大于或等于预设频率的特征词语,并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签;
将所述公文输入至预设的LDA主题模型,通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵,再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题,并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签;所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率,所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率;
根据所述关键词标签和所述主题标签生成公文属性;
根据每一种公文类型获取所述公文的记录数据,通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库;所述公文推荐库中包含多个图结构,一个所述图结构对应至少一种所述公文类型的所述公文,一个所述图结构中包含相互连接的多个节点;一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种;
接收到用户自所述公文推荐库中输入的检索内容,依据SimRank计算出的相似度的高低次序输出目标公文;所述相似度是指所述检索内容与所述节点的相似度。


2.根据权利要求1所述的基于图结构的公文推荐方法,其特征在于,所述获取具有不同公文类型的多种公文之前,还包括:
通过已训练成功的BERT模型对所述公文的整体篇章结构进行分析,得到一个对所述公文的整体篇章结构的分析结果;所述整体篇章结构是指所述公文的各个组成结构,所述分析结果是对所述公文的各个所述组成结构的完整性和合理性进行判断的结果;
在所述分析结果为所述公文的其中一个组成结构不具备所述完整性或/和所述合理性时,从所述公文中提取出所述公文中缺失的所述组成结构或/和不合理的所述组成结构,以突出显示的形式标注出所述公文中缺失的所述组成结构或/和不合理的所述组成结构,并令预设数据接收方对该公文进行修改。


3.根据权利要求1所述的基于图结构的公文推荐方法,其特征在于,所述公文属性还包括数字实体;所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库之前,还包括:
通过预设规则模板中的目标实体表达式对所述公文进行数字实体搜索后定位出所述数字实体的目标位置,并通过所述预设规则模板中的抓取规则表达式从所述目标位置抓取所述数字实体。


4.根据权利要求1所述的基于图结构的公文推荐方法,其特征在于,所述公文属性还包括公文来文时间和来文单位;所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库之前,还包括:
获取所述公文的公文内容,通过NLP模型从所述公文内容中识别出与时间组成成分对应的所述公文来文时间以及与单位组成成分对应的所述来文单位;
所述根据所述关键词标签和所述主题标签生成公文属性,包括:
根据所述公文来文时间、所述来文单位、所述关键词标签和所述主题标签生成所述公文属性。


5.根据权利要求1所述的基于图结构的公文推荐方法,其特征在于,所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库,包括:
通过Neo4j框架中的创建节点语句依据节点属性搭建出与所述公文对应的各个节点;所述节点属性与...

【专利技术属性】
技术研发人员:谢静文阮晓雯徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1