【技术实现步骤摘要】
摘要获取的方法、装置、电子设备及存储介质
[0001]本申请涉及文件处理
,尤其涉及摘要获取的方法、装置、电子设备及存储介质。
技术介绍
[0002]咨询机构对特定公司、行业或政策进行分析而发布的研究报告对于投资者的投资行为有重要意义,但人工阅读海量的研究报告需要花费大量时间,而相关技术中获取摘要存在着模型训练缺少大型标注数据集,导致摘要获取的准确性较低的问题,另外,相关技术中通用文本的摘要获取技术获取摘要的冗余度较高,影响摘要获取的有效性。
[0003]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
[0004]本申请实施例的目的是提供一种摘要获取的方法、装置、电子设备及存储介质,能够提高摘要获取准确性的同时,降低摘要内容的冗余度。
[0005]为解决上述技术问题,本申请实施例是通过以下各方面实现的。
[0006]第一方面,本申请实施例提供了一种摘要获取的方法 ...
【技术保护点】
【技术特征摘要】
1.一种摘要获取的方法,包括:从待获取摘要的目标文件中获取文本信息;对所述文本信息进行分句得到第一候选句集,获取所述第一候选句集中每一个候选句的句特征向量;根据所述第一候选句集中每一个候选句的所述句特征向量通过TextRank算法获取所述每一个候选句对应的重要性得分;根据所述重要性得分从所述第一候选句集中获取第二候选句集;基于最大边界相关算法从第二候选句集中获取目标候选句集,根据所述目标候选句集生成所述目标文件对应的目标摘要。2.根据权利要求1所述的方法,其中,所述根据所述第一候选句集中每一个候选句的所述句特征向量通过TextRank算法获取所述每一个候选句对应的重要性得分包括:根据所述第一候选句集中每一个候选句的所述句特征向量获取所述第一候选句集对应的第一相似度矩阵,所述第一相似度矩阵包括所述第一候选句集中任意两个候选句的相似度;根据所述第一相似度矩阵通过TextRank算法获取所述每一个候选句对应的重要性得分。3.根据权利要求2所述的方法,其中,所述根据所述第一相似度矩阵通过TextRank算法获取所述每一个候选句对应的重要性得分包括:根据所述第一相似度矩阵构建所述第一候选句集对应的权重图,所述权重图包括所述第一候选句集中任意两个候选句之间的权重,所述权重为所述第一相似度矩阵中所述两个候选句的相似度;根据所述权重图通过TextRank算法迭代更新所述第一候选句集中每一个候选句的重要性得分直至收敛,从而得到所述每一个候选句对应的重要性得分。4.根据权利要求1所述的方法,其中,所述获取所述第一候选句集中每一个候选句的句特征向量包括:对所述第一候选句集中每一个候选句进行分词,通过预训练模型获取每个所述分词对应的词特征向量;根据所述第一候选句集中每一个候选句中每一个分词分别对应的所述词特征向量,获取所述第一候选句集中每一个候选句的句特征向量。5.根据权利要求1所述的方法,其中,所述基于最大边界相关算法从第二候选句集中获取目标候选句集包括:根据...
【专利技术属性】
技术研发人员:李昊,方帅,戴桢锦,刘梅琛,王玉,张承炘,
申请(专利权)人:人保信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。