文本摘要抽取方法、装置、设备及存储介质制造方法及图纸

技术编号：32787438 阅读：15 留言：0更新日期：2022-03-23 19:47

本公开实施例涉及一种文本摘要抽取方法、装置、设备及存储介质。本公开实施例通过对文本进行分句处理，获得文本中的语句和标题；提取语句中的实体，确定语句中的实体占文本中的实体的比例；基于该比例，确定语句的第一得分；基于语句与标题之间的语义相似度，确定语句的第二得分；基于第一得分和第二得分，确定用于形成摘要的语句。本公开实施例通过建模文本语句实体与文本实体，文本语句与文本标题的相关性，减少了文本摘要的冗余性，提高了文本摘要表达文本信息的准确性，提高了用户的阅读体验。验。验。

全部详细技术资料下载

【技术实现步骤摘要】
文本摘要抽取方法、装置、设备及存储介质

[0001]本公开实施例涉及自然语言处理领域，尤其涉及一种文本摘要抽取方法、装置、设备及存储介质。

技术介绍

[0002]文本摘要是将文本或文本集合转换为包含关键信息的简短摘要，能够帮助人类理解概括自然语言文本，并更加快速、准确、全面地获取重要信息。
[0003]近几年，将神经网络模型应用在文本摘要上取得很大发展，目前基于神经网络的摘要抽取问题，往往被建模为序列标注和句子排序两类任务，这种方式生成的摘要不够准确，也没有考虑到摘要的冗余性和多样性，生成的摘要无法全面表达文本信息。因此，亟需一种文本摘要抽取方法来同时满足摘要抽取的准确性、全面性要求，提高用户的阅读体验。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种文本摘要抽取方法、装置、设备及存储介质。
[0005]本公开实施例的第一方面提供了一种文本摘要抽取方法，该方法包括：
[0006]对文本进行分句处理，获得文本中的语句和标题；
[0007]提取语句中的实体，确定语句中的实体占文本中的实体的比例；
[0008]基于该比例，确定语句的第一得分；
[0009]基于语句与标题之间的语义相似度，确定语句的第二得分；
[0010]基于第一得分和第二得分，确定用于形成摘要的语句。
[0011]本公开实施例的第二方面提供了一种文本摘要抽取装置，该装置包括：
[0012]获取模块，用于对文本进行分句...

【技术保护点】

【技术特征摘要】
1.一种文本摘要抽取方法，其特征在于，所述方法包括：对文本进行分句处理，获得所述文本中的语句和标题；提取所述语句中的实体，确定所述语句中的实体占所述文本中的实体的比例；基于所述比例，确定所述语句的第一得分；基于所述语句与所述标题之间的语义相似度，确定所述语句的第二得分；基于所述第一得分和所述第二得分，确定用于形成摘要的语句。2.根据权利要求1所述的方法，其特征在于，基于所述比例，确定所述语句的第一得分，包括：将所述比例作为所述语句的第一得分。3.根据权利要求1所述的方法，其特征在于，所述基于所述语句与所述标题之间的语义相似度，确定所述语句的第二得分，包括：对所述标题和所述语句进行编码处理，得到所述标题的标题向量和所述语句中每个字符的字符向量以及所述语句的第一向量；分别计算每个字符向量与所述标题向量之间的第一相似度；基于所述语句中包含的字符的所述第一相似度，确定所述语句的第二向量；基于所述第二向量，确定所述语句的第二得分。4.根据权利要求3所述的方法，其特征在于，所述基于所述语句中包含的字符的所述第一相似度，确定所述语句的第二向量，包括：基于所述语句中包含的字符的第一相似度，确定所述语句中的字符的权重；对所述语句中包含的字符的权重与所述字符的字符向量进行加权求和处理，得到所述语句的第二向量。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述基于所述第一得分和所述第二得分，确定用于形成摘要的语句，包括：针对所述文本中的每个语句，对所述语句的第一得分和第二得分进行加权求和处理，得到所述语句的第三得分；将所述文本中第三得分大于预设阈值的语句，确定为用于形成摘要的语句。6.根据权利要求5所述的方法，其特征在于，所述基于所述第一得分和所述第二得分，确定用于形成摘要的语句之后，所述方法包括：将所述第三得分最高的语句作为摘要的首句；针对剩余语句中的每个语句，计算所述语句的第一向量与所述首句第一向量之间的第二相似度；对所述语句的第三得分和所述第二相似度进行加权求和处理，得到第一求和结果；基于所述剩余语句的所述第一求和结果的排序，确定所述剩余语句在所述摘要中的位置；其中剩余语句是指所述用于形成摘要的语句中除所述首句之外的语句。7.一种文本摘要抽取装置，其特征在于，所述装置包括：获取模块，用于对文本进行分句处理，获得所述文本的语句和标题；提取模块，用于提取所述语句中的实体，确定所述语句中的实体占所述文本中的实体的比例；
第一确定模块，用于基于所述比例，确定...

【专利技术属性】
技术研发人员：张佳旭，王宇琪，郭建彬，郝保，郭昭乾，曹家，罗引，王磊，
申请(专利权)人：北京中科闻歌科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人