【技术实现步骤摘要】
公文摘要提取方法、装置、设备及计算机可读存储介质
本申请涉及数据处理的
,尤其涉及一种公文摘要提取方法、装置、设备及计算机可读存储介质。
技术介绍
目前,可以通过摘要抽取技术对公文进行摘要抽取,主要的抽取技术包括抽取式和生成式两大类,抽取式指直接从文中抽取重要的语句,再将语句进行排序组合后输出作为最终的摘要;生成式是指根据原文内容进行提炼总结,允许有新的词语或者语句生成来形成摘要。然而,生成式摘要需要大量的标注数据,而摘要的标注没有统一的标准且比较耗时,无法准确的提取公文的摘要,而常用的抽取式摘要方法是TextRank,但是原始TextRank方法只是基于语句的相似度确定语句的重要性,再抽取重要性高的语句,但公文与一般的文本不同,仅通过语句的相似度无法准确的表征语句在公文中的重要性,导致抽取的摘要不准确。因此,如何提高公文摘要抽取的准确性是目前亟待解决的问题。
技术实现思路
本申请的主要目的在于提供一种公文摘要提取方法、装置、设备及计算机可读存储介质,旨在提高公文摘要抽取的准确性。第 ...
【技术保护点】
1.一种公文摘要提取方法,其特征在于,包括:/n获取语句集和预设的公文摘要抽取模型,其中,所述语句集包括根据待提取的公文文本确定的若干语句,所述公文摘要抽取模型包括第一摘要提取层、第二摘要提取层和摘要融合提取层;/n调用预设的第一线程基于所述第一摘要提取层从所述语句集中提取标题语句和关键语句,并将所述标题语句和关键语句作为第一候选摘要集;以及/n并发调用预设的第二线程基于所述第二摘要提取层计算所述语句集中每个语句的重要程度值,并根据每个语句的重要程度值确定第二候选摘要集;/n基于所述摘要融合提取层,根据所述第一候选摘要集和第二候选摘要集,确定所述公文文本的摘要结果集。/n
【技术特征摘要】
1.一种公文摘要提取方法,其特征在于,包括:
获取语句集和预设的公文摘要抽取模型,其中,所述语句集包括根据待提取的公文文本确定的若干语句,所述公文摘要抽取模型包括第一摘要提取层、第二摘要提取层和摘要融合提取层;
调用预设的第一线程基于所述第一摘要提取层从所述语句集中提取标题语句和关键语句,并将所述标题语句和关键语句作为第一候选摘要集;以及
并发调用预设的第二线程基于所述第二摘要提取层计算所述语句集中每个语句的重要程度值,并根据每个语句的重要程度值确定第二候选摘要集;
基于所述摘要融合提取层,根据所述第一候选摘要集和第二候选摘要集,确定所述公文文本的摘要结果集。
2.根据权利要求1所述的公文摘要提取方法,其特征在于,所述调用预设的第一线程基于所述第一摘要提取层从所述语句集中提取标题语句和关键语句,包括:
调用预设的第一线程基于所述第一摘要提取层中的正则表达式从所述语句集中提取标题语句;以及
从所述第一摘要提取层中获取所述语句集的公文类型标签对应的关键词集合,并从所述语句集中提取包含所述关键词集合中的关键词的关键语句。
3.根据权利要求1所述的公文摘要提取方法,其特征在于,所述并发调用预设的第二线程基于所述第二摘要提取层计算所述语句集中每个语句的重要程度值,包括:
并发调用预设的第二线程根据所述语句集中每个语句的位置编号,计算每个语句的位置表征指数;以及
从所述语句集中获取主标题语句,并计算所述语句集中每个语句与所述主标题语句之间的相似度;
根据每个语句与所述主标题语句之间的相似度和每个语句的位置表征指数,确定所述语句集中每个语句的重要程度值。
4.根据权利要求3所述的公文摘要提取方法,其特征在于,所述根据所述语句集中每个语句的位置编号,计算每个语句的位置表征指数,包括:
根据所述语句集中每个语句的位置编号,确定最大位置编号,并计算所述语句集中每个语句的位置编号与所述最大位置编号的差值绝对值;
根据每个所述差值绝对值和最大位置编号,确定所述语句集中每个语句的权重系数;
根据所述语句集中每个语句的位置编号与所述最大位置编号的差值绝对值以及每个语句的权重系数,确定每个语句的位置表征指数。
5.根据权利要求3所述的公文摘要提取方法,其特征在于,所述计算所述语句集中每个语句与所述主标题语句之间的相似度,包括:
确定所述语句集中每个语句各自对应的文字个数,并确定所述主标题语句的标题字数;
统计每个语句和所述主标题语句中相同文字的个数,得到每个语句各自对应的相同文字个数;
根据所述标题字数以及每个语句各自对应的所述文字个数和所述相同文字个数...
【专利技术属性】
技术研发人员:郑立颖,徐亮,阮晓雯,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。