【技术实现步骤摘要】
基于图结构的公文推荐方法、装置、计算机设备及介质
本专利技术涉及大数据领域的数据分析领域,尤其涉及一种基于图结构的公文推荐方法、装置、计算机设备及介质。
技术介绍
目前常用公文推荐方法多数基于传统的搜索引擎,传统搜索引擎在对公文进行推荐时,通常基于公文相似度进行推荐,如此,可以推荐与用户相关度较高的公文,但在现有技术中,公文相似度的判定往往基于人工设定的单一标准进行确定,如此,由于人工设定的标准可能存在不准确的问题,因此将会导致传统搜索引擎在进行公文推荐时,会存在考虑不全面的问题,进而导致不能向用户推荐出与用户输入的内容相关度最高的公文,影响到用户体验效果。因此,本领域技术人员亟需寻找一种技术方案来解决上述提到的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种基于图结构的公文推荐方法、装置、计算机设备及介质,可向用户推荐出与用户输入的内容相关度最高的公文,进而提高用户体验效果。一种基于图结构的公文推荐方法,包括:获取具有不同公文类型的多种公文,根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语,根据TF-IDF筛选出现频率大于或等于预设频率的特征词语,并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签;将所述公文输入至预设的LDA主题模型,通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵,再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题,并将筛选 ...
【技术保护点】
1.一种基于图结构的公文推荐方法,其特征在于,包括:/n获取具有不同公文类型的多种公文,根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语,根据TF-IDF筛选出现频率大于或等于预设频率的特征词语,并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签;/n将所述公文输入至预设的LDA主题模型,通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵,再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题,并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签;所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率,所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率;/n根据所述关键词标签和所述主题标签生成公文属性;/n根据每一种公文类型获取所述公文的记录数据,通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库;所述公文推荐库中包含多个图结构,一个所述图结构对应至少一种所述公文类型的所述公文,一个所述图结构中包含相互连接的多个节点;一个所述 ...
【技术特征摘要】
1.一种基于图结构的公文推荐方法,其特征在于,包括:
获取具有不同公文类型的多种公文,根据TF-IDF基于预设的词语统计特征确定获取的所述公文中的特征词语,根据TF-IDF筛选出现频率大于或等于预设频率的特征词语,并将筛选出的所述特征词语记录为与其对应的所述公文的关键词标签;
将所述公文输入至预设的LDA主题模型,通过所述LDA主题模型计算所述公文中的文本主题-关键词的分布概率矩阵,再获取所述LDA主题模型根据所述公文的文本主题-关键词的分布概率矩阵筛选出的选取概率大于或等于预设概率的所述文本主题,并将筛选出的所述文本主题记录为与其对应的所述公文的主题标签;所述文本主题-关键词的分布概率矩阵中包含多个所述选取概率,所述选取概率是指所述公文中的关键词属于该公文的文本主题的概率;
根据所述关键词标签和所述主题标签生成公文属性;
根据每一种公文类型获取所述公文的记录数据,通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库;所述公文推荐库中包含多个图结构,一个所述图结构对应至少一种所述公文类型的所述公文,一个所述图结构中包含相互连接的多个节点;一个所述节点代表所述记录数据、所述关键词标签和所述主题标签中的一种;
接收到用户自所述公文推荐库中输入的检索内容,依据SimRank计算出的相似度的高低次序输出目标公文;所述相似度是指所述检索内容与所述节点的相似度。
2.根据权利要求1所述的基于图结构的公文推荐方法,其特征在于,所述获取具有不同公文类型的多种公文之前,还包括:
通过已训练成功的BERT模型对所述公文的整体篇章结构进行分析,得到一个对所述公文的整体篇章结构的分析结果;所述整体篇章结构是指所述公文的各个组成结构,所述分析结果是对所述公文的各个所述组成结构的完整性和合理性进行判断的结果;
在所述分析结果为所述公文的其中一个组成结构不具备所述完整性或/和所述合理性时,从所述公文中提取出所述公文中缺失的所述组成结构或/和不合理的所述组成结构,以突出显示的形式标注出所述公文中缺失的所述组成结构或/和不合理的所述组成结构,并令预设数据接收方对该公文进行修改。
3.根据权利要求1所述的基于图结构的公文推荐方法,其特征在于,所述公文属性还包括数字实体;所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库之前,还包括:
通过预设规则模板中的目标实体表达式对所述公文进行数字实体搜索后定位出所述数字实体的目标位置,并通过所述预设规则模板中的抓取规则表达式从所述目标位置抓取所述数字实体。
4.根据权利要求1所述的基于图结构的公文推荐方法,其特征在于,所述公文属性还包括公文来文时间和来文单位;所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库之前,还包括:
获取所述公文的公文内容,通过NLP模型从所述公文内容中识别出与时间组成成分对应的所述公文来文时间以及与单位组成成分对应的所述来文单位;
所述根据所述关键词标签和所述主题标签生成公文属性,包括:
根据所述公文来文时间、所述来文单位、所述关键词标签和所述主题标签生成所述公文属性。
5.根据权利要求1所述的基于图结构的公文推荐方法,其特征在于,所述通过Neo4j框架根据所述公文的所述记录数据和所述公文属性建立基于图结构的公文推荐库,包括:
通过Neo4j框架中的创建节点语句依据节点属性搭建出与所述公文对应的各个节点;所述节点属性与...
【专利技术属性】
技术研发人员:谢静文,阮晓雯,徐亮,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。