一种笔记总结生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38616535 阅读:12 留言:0更新日期:2023-08-26 23:44
本发明专利技术提供了一种笔记总结生成方法、装置、设备及存储介质,方法包括:获取目标文本图片;从目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;对分割出的每个文本区域进行文本识别,得到若干文本区域分别对应的识别结果;以用户书写区域对应的识别结果和/或用户标记区域对应的识别结果为指导信息,结合原文本区域对应的识别结果,生成目标用户的笔记总结。本发明专利技术可根据文本图片自动生成用户的笔记总结,相比于人工的笔记整理方式,大大降低了耗时,提高了笔记整理的效率,同时避免人为因素带来的影响。同时避免人为因素带来的影响。同时避免人为因素带来的影响。

【技术实现步骤摘要】
一种笔记总结生成方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种笔记总结生成方法、装置、设备及存储介质。

技术介绍

[0002]在某些场景中,用户会在文本上书写一些内容,比如,用户针对文本内容的想法、用户对文本内容的提炼等,可能还会对文本中的一些内容进行标记,比如,把其关心的一些内容勾画出来或者做上记号。以学习场景为例,学生在上课的过程中,会在课本上记录老师的板书或者老师的见解,还会对老师让重点关注的内容进行标记。
[0003]由于精力有限,用户在文本上书写和标记时一般不会特别注重记录的条理性和整洁性,当用户想要对文本内容进行复习时,杂乱的记录会给复习带来非常大的影响,因此,用户需要对记录的内容进行整理,然而,用户对记录的内容进行整理极为耗时耗力。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种笔记总结生成方法、装置、设备及存储介质,用以解决用户对记录的内容进行整理极为耗时耗力的问题,其技术方案如下:
[0005]一种笔记总结生成方法,包括:
[0006]获取包含目标用户的笔记的文本图片,作为目标文本图片;
[0007]从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;
[0008]对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果;
[0009]以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。
[0010]可选的,所述若干目标区域还包括若干图像区域;
[0011]所述方法还包括:
[0012]在生成的笔记总结中融入所述若干图像区域。
[0013]可选的,所述从所述目标文本图片中分割出若干目标区域,包括:
[0014]基于预先训练得到的图片分割模型,从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别;
[0015]其中,每个目标区域为图像区域、原文本区域、用户书写区域、用户标记区域中的一种,所述图片分割模型采用标注出若干个目标区域的位置和类别的训练文本图片对初始的图片分割模型进行训练得到。
[0016]可选的,所述初始的图像分割模型包括特征提取模块;
[0017]所述初始的图片分割模型中的特征提取模块采用基于标注有图片类别的训练图
片训练得到图像分类模型中的特征提取模块;
[0018]其中,一训练图片标注的图片类别为如下类别中的一种或两种:只包含图像、只包含文本、包含图像和文本、无用户笔记、有用户笔记。
[0019]可选的,所述以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:
[0020]获取第一文本集和第二文本集,其中,所述第一文本集和所述第二文本集依次为第一句子集、第二句子集,或者,依次为第三句子集和第四句子集,所述第一句子集包括所述原文本区域对应的识别结果中的每个原文句子,所述第二句子集包括所述用户标记区域对应的识别结果中的每个原文句子,所述第三句子集包括所述用户书写区域对应的识别结果中的每个用户书写句子与所述原文本区域对应的识别结果中每个原文句子的拼接句子,所述第四句子集包括所述第三句子集中包含重点句子和/或要点提醒句子的拼接句子,所述重点句子为所述用户标记区域对应的识别结果中的原文句子,所述要点提醒句子为与用户书写句子对应的原文句子;
[0021]获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,其中,所述篇章特征向量为由对应文本集中的所有文本所组成的篇章的特征向量;
[0022]基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结。
[0023]可选的,所述获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,包括:
[0024]针对所述第一文本集和所述第二文本集中待确定对应的篇章特征向量的目标文本集:
[0025]对所述目标文本集中的每个文本进行字级编码,以得到所述目标文本集中每个文本的句子表示向量;
[0026]将所述目标文本集中各文本的句子表示向量融合,融合后向量作为所述目标文本集的篇章表示向量;
[0027]对所述目标文本集的篇章表示向量进行句级编码,得到所述目标文本集对应的篇章特征向量。
[0028]可选的,若所述第一文本集和所述第二文本集依次为第三句子集和第四句子集,则所述对所述目标文本集的篇章表示向量进行句级编码,包括:
[0029]结合所述目标文本集中各文本分别对应的位置信息,对所述目标文本集的篇章表示向量进行句级编码,其中,一文本对应的位置信息包括组成该文本的两个句子所在的两个文本区域的相对位置信息。
[0030]可选的,所述基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结,包括:
[0031]以所述第二文本集对应的篇章特征向量为依据,结合所述第一文本集对应的篇章特征向量,生成所述第二文本集中各文本分别对应的笔记总结;
[0032]对所述第二文本集中各文本分别对应的笔记总结进行合并和处理,得到所述目标用户的笔记总结。
[0033]可选的,所述以所述第二文本集对应的篇章特征向量为依据,结合所述第一文本集对应的篇章特征向量,生成所述第二文本集中各文本分别对应的笔记总结,包括:
[0034]针对所述第二文本集中待生成对应的笔记总结的目标文本:
[0035]从所述第二文本集对应的篇章特征向量中,获取与所述目标文本相关的特征向量,作为所述目标文本对应的第一特征向量;
[0036]根据所述目标文本对应的第一特征向量和所述第一文本集对应的篇章特征向量,确定生成所述目标句子对应的笔记总结所需的特征向量,作为所述目标文本对应的第二特征向量;
[0037]根据所述目标文本对应的第二特征向量,生成所述目标文本对应的笔记总结。
[0038]可选的,以所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:
[0039]基于预先训练得到的第一笔记总结生成模型,对所述用户标记区域对应的识别结果和所述原文本区域对应的识别结果进行处理,以得到忠于原文的笔记总结,其中,所述第一笔记总结生成模型采用多条标注有忠于原文的笔记总结的训练文本数据训练得到,每条训练文本数据包括从一训练文本图片中分割出的原文本区域对应的识别结果和用户标记区域对应的识别结果;
[0040]以所述用户书写区域对应的识别结果和所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:
[0041]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种笔记总结生成方法,其特征在于,包括:获取包含目标用户的笔记的文本图片,作为目标文本图片;从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别,其中,所述若干目标区域包括若干文本区域,每个文本区域为原文本区域、用户书写区域、用户标记区域中的一种;对分割出的每个文本区域进行文本识别,得到所述若干文本区域分别对应的识别结果;以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结。2.根据权利要求1所述的笔记总结生成方法,其特征在于,所述若干目标区域还包括若干图像区域;所述方法还包括:在生成的笔记总结中融入所述若干图像区域。3.根据权利要求2所述的笔记总结生成方法,其特征在于,所述从所述目标文本图片中分割出若干目标区域,包括:基于预先训练得到的图片分割模型,从所述目标文本图片中分割出若干目标区域,并确定每个目标区域的类别;其中,每个目标区域为图像区域、原文本区域、用户书写区域、用户标记区域中的一种,所述图片分割模型采用标注出若干个目标区域的位置和类别的训练文本图片对初始的图片分割模型进行训练得到。4.根据权利要求3所述的笔记总结生成方法,其特征在于,所述初始的图像分割模型包括特征提取模块;所述初始的图片分割模型中的特征提取模块采用基于标注有图片类别的训练图片训练得到图像分类模型中的特征提取模块;其中,一训练图片标注的图片类别为如下类别中的一种或两种:只包含图像、只包含文本、包含图像和文本、无用户笔记、有用户笔记。5.根据权利要求1~4中任一项所述的笔记总结生成方法,其特征在于,所述以所述用户书写区域对应的识别结果和/或所述用户标记区域对应的识别结果为指导信息,结合所述原文本区域对应的识别结果,生成所述目标用户的笔记总结,包括:获取第一文本集和第二文本集,其中,所述第一文本集和所述第二文本集依次为第一句子集、第二句子集,或者,依次为第三句子集和第四句子集,所述第一句子集包括所述原文本区域对应的识别结果中的每个原文句子,所述第二句子集包括所述用户标记区域对应的识别结果中的每个原文句子,所述第三句子集包括所述用户书写区域对应的识别结果中的每个用户书写句子与所述原文本区域对应的识别结果中每个原文句子的拼接句子,所述第四句子集包括所述第三句子集中包含重点句子和/或要点提醒句子的拼接句子,所述重点句子为所述用户标记区域对应的识别结果中的原文句子,所述要点提醒句子为与用户书写句子对应的原文句子;获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,其中,所述篇章特征向量为由对应文本集中的所有文本所组成的篇章的特征向量;
基于所述第一文本集和所述第二文本集分别对应的篇章特征向量,生成所述目标用户的笔记总结。6.根据权利要求5所述的笔记总结生成方法,其特征在于,所述获取所述第一文本集和所述第二文本集分别对应的篇章特征向量,包括:针对所述第一文本集和所述第二文本集中待确定对应的篇章特征向量的目标文本集:对所述目标文本集中的每个文本进行字级编码,以得到所述目标文本集中每个文本的句子表示向量;将所述目标文本集中各文本的句子表示向量融合,融合后向量作为所述目标文本集的篇章表示向量;对所述目标文本集的篇章表示向量进行句级编码,得到所述目标文本集对应的篇章特征向量。7.根据权利要求6所述的笔记总结生成方法,其特征在于,若所述第一文本集和所述第二文本集依次为第三句子集和第四句子集,则所述对所述目标文本集的篇章表示向量进行句级编码,包括:结合所述目标文本集中各文本分别对应的位置信息,对所述目标文本集的篇章表示向量进...

【专利技术属性】
技术研发人员:刘超凡孔常青万根顺熊世富高建清潘嘉刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1