路演问答数据库的构建方法、装置、终端设备及存储介质制造方法及图纸

技术编号:37802144 阅读:7 留言:0更新日期:2023-06-09 09:32
本申请适用于计算机应用技术领域,提供了一种路演问答数据库的构建方法、装置、终端设备及存储介质,该方法包括:获取至少一个待处理路演文本及其对应的行业类别,待处理路演文本包括多组原始问答对文本、每组原始问答对文本对应的发言人信息;将每组原始问答对文本输入目标路演文本问答对抽取模型并根据其目标关系集合确定每组原始问答对文本包含的三元组;根据每组原始问答对文本包含的三元组生成目标问答对文本;根据待处理路演文本的行业类别将各组目标问答对文本及其对应的发言人信息分类存储至路演问答数据库以构建路演问答数据库。由此,通过构建路演问答数据库,提高了抽取路演问答文本的效率,避免了人力资源的浪费。费。费。

【技术实现步骤摘要】
路演问答数据库的构建方法、装置、终端设备及存储介质


[0001]本申请属于计算机应用
,尤其涉及一种路演问答数据库的构建方法、装置、终端设备及存储介质。

技术介绍

[0002]目前上市公司企业为了达到公司价值创造最大化、价值实现最优化,越来越重视企业的市值管理,因此经常举办重大事项的路演活动,其中路演活动过程中的音频文件会被转换为文本文件并对文本文件中的内容进行整理,从而分离出路演活动过程中的问答环节文本,方便后续对路演活动的过程进行回顾。
[0003]相关技术中,一般通过人工方式对路演活动过程中问答文本中的问答对进行抽取,从而导致路演问答文本的抽取效率低、人力资源浪费等问题。

技术实现思路

[0004]本申请实施例提供了一种路演问答数据库的构建方法、装置、终端设备及存储介质,可以解决在路演活动中,通常采用人工的方式对路演活动问答文本中问答对进行抽取,从而导致路演问答文本的抽取效率低,人力资源浪费等问题。
[0005]第一方面,本申请实施例提供了一种路演问答数据库的构建方法,包括:获取至少一个待处理路演文本及所述待处理路演文本对应的行业类别,其中,所述待处理路演文本中包括多组原始问答对文本、及每组所述原始问答对文本对应的发言人信息;将每组所述原始问答对文本依次输入目标路演文本问答对抽取模型,并根据所述目标路演文本问答对抽取模型对应的目标关系集合,确定每组所述原始问答对文本包含的三元组,其中,所述三元组是由头实体、关系、尾实体构成的;根据每组所述原始问答对文本包含的三元组,生成每组所述原始问答对文本对应的目标问答对文本;根据所述待处理路演文本对应的行业类别,将各组所述目标问答对文本及所述目标问答对文本对应的发言人信息分类存储至所述路演问答数据库,以构建所述路演问答数据库。
[0006]在第一方面的一种可能的实现方式中,上述将每组原始问答对文本依次输入目标路演文本问答对抽取模型,并根据目标路演文本问答对抽取模型对应的目标关系集合,确定每组原始问答对文本包含的三元组之前,还包括:
[0007]根据预设的文本提取规则对待处理路演文本进行分离处理,以确定待处理路演文本中的各组原始问答对文本,及每组问答对文本对应的发言人信息。
[0008]可选的,在第一方面的另一种可能的实现方式中,每组原始问答对文本中包括一个原始问题文本及一个原始答案文本,每组原始问答对文本包含的三元组包括原始问题文本包含的三元组及原始答案文本对应的三元组,每组目标问答对文本包括一个目标问题文本及一个目标答案文本,相应的,上述根据每组原始问答对文本包含的三元组,生成每组原始问答对文本对应的目标问答对文本,包括:
[0009]根据每个原始问题文本包含的三元组,生成每个原始问题文本对应的目标问题文
本;
[0010]根据每个原始答案文本包含的三元组,生成每个原始答案文本对应的目标答案文本。
[0011]可选的,在第一方面的再一种可能的实现方式中,上述将各组目标问答对文本及目标问答对文本对应的发言人信息存储至路演问答数据库,以构建路演问答数据库之后,还包括:
[0012]获取热点分析指令,其中,热点分析指令中包括待分析行业类型及待分析时间段,待分析时间段包括至少一个待分析日期;
[0013]从路演问答数据库中获取所述行业类型与待分析行业类型匹配的目标问题文本,作为待分析问题文本;
[0014]对各个待分析问题文本进行分词处理,以确定各个待分析问题文本中包括的各个分词;
[0015]分别确定每个分词在待分析时间段内的总词频,以及每个分词在待分析时间段内的最新日期的最新词频,其中,最新日期是指待分析时间段中距离当前日期最近的日期;
[0016]将每个分词的最新词频与总词频的比值,分别确定为每个分词的热度分数值;
[0017]根据每个分词的热度分数值,确定待分析行业对应的提问热词。
[0018]可选的,在第一方面的又一种可能的实现方式中,上述根据每个分词的热度分数值,确定待分析行业对应的提问热词之前,还包括:
[0019]根据每个分词在待分析时间段内的总词频、分词的数量及待分析时间段对应的天数,确定所有分词对应的一天平均词频;
[0020]根据每个分词在最新日期之前的每日热度分数值,分词的数量及待分析时间段对应的天数,确定所有分词对应的先验平均热度值;
[0021]根据一天平均词频及先验平均热度值及每个分词的所述最新词频,分别对每个分词的热度分数值进行修正。
[0022]可选的,在第一方面的又一种可能的实现方式中,上述获取至少一个待处理路演文本及待处理路演文本对应的行业类别之前,还包括:
[0023]获取路演文本对应的训练数据集,训练数据集中包括从路演文本中提取的多个训练问答对文本;
[0024]将每个训练问答对文本输入初始路演文本问答对抽取模型,以生成每个训练问答对文本对应的三元组及训练数据集对应的关系集合;
[0025]根据每个训练问答对文本对应的三元组及关系集合,确定初始路演文本问答对抽取模型对应的损失值;
[0026]在损失值未处于预设范围时,根据损失值对初始路演文本问答对抽取模型的网络参数进行更新,并将每个训练问答对文本依次输入更新后的路演文本问答对抽取模型继续进行训练,直至更新后的路演文本问答对抽取模型对应的损失值处于预设范围,则将更新后的路演文本问答对抽取模型确定为目标路演文本问答对抽取模型,并将通过目标路演文本问答对抽取模型生成的关系集合,确定为目标关系集合。
[0027]可选的,在第一方面的另一种可能的实现方式中,目标路演文本问答对抽取模型的输出结果中还包括每个三元组的置信度,上述将每组原始问答对文本依次输入目标路演
文本问答对抽取模型,并根据目标路演文本问答对抽取模型对应的目标关系集合,确定每组原始问答对文本包含的三元组之后,还包括:
[0028]将置信度小于置信度阈值的三元组所属的原始问答对文本,确定为待标注问答对文本;
[0029]对待标注问答对文本进行标注处理,以生成待标注文本对应的标注数据;
[0030]将待标注问答对文本及待标注文本对应的标注数据,添加至训练数据集,以生成更新后的训练数据集;
[0031]利用更新后的训练数据集对目标路演文本问答对抽取模型进行重新训练,以对目标路演文本问答对抽取模型进行优化。
[0032]第二方面,本申请实施例提供了一种路演问答数据库的构建装置,包括:第一获取模块,用于获取至少一个待处理路演文本及待处理路演文本对应的行业类别,其中,待处理路演文本中包括多组原始问答对文本、及每组原始问答对文本对应的发言人信息;第一确定模块,用于将每组原始问答对文本依次输入目标路演文本问答对抽取模型,并根据目标路演文本问答对抽取模型对应的目标关系集合,确定每组原始问答对文本包含的三元组,其中,三元组是由头实体、关系、尾实体构成的;第一生成模块,用于根据每组原始问答对文本包含的三元组,生成每组原始问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种路演问答数据库的构建方法,其特征在于,包括:获取至少一个待处理路演文本及所述待处理路演文本对应的行业类别,其中,所述待处理路演文本中包括多组原始问答对文本、及每组所述原始问答对文本对应的发言人信息;将每组所述原始问答对文本依次输入目标路演文本问答对抽取模型,并根据所述目标路演文本问答对抽取模型对应的目标关系集合,确定每组所述原始问答对文本包含的三元组,其中,所述三元组是由头实体、关系、尾实体构成的;根据每组所述原始问答对文本包含的三元组,生成每组所述原始问答对文本对应的目标问答对文本;根据所述待处理路演文本对应的行业类别,将各组所述目标问答对文本及所述目标问答对文本对应的发言人信息分类存储至所述路演问答数据库,以构建所述路演问答数据库。2.如权利要求1所述的方法,其特征在于,所述将每组所述原始问答对文本依次输入目标路演文本问答对抽取模型,并根据所述目标路演文本问答对抽取模型对应的目标关系集合,确定每组所述原始问答对文本包含的三元组之前,还包括:根据预设的文本提取规则对所述待处理路演文本进行分离处理,以确定所述待处理路演文本中的各组所述原始问答对文本,及每组所述问答对文本对应的发言人信息。3.如权利要求1所述的方法,其特征在于,每组所述原始问答对文本中包括一个原始问题文本及一个原始答案文本,所述每组所述原始问答对文本包含的三元组包括所述原始问题文本包含的三元组及所述原始答案文本对应的三元组,每组所述目标问答对文本包括一个目标问题文本及一个目标答案文本,所述根据每组所述原始问答对文本包含的三元组,生成每组所述原始问答对文本对应的目标问答对文本,包括:根据每个所述原始问题文本包含的三元组,生成每个所述原始问题文本对应的目标问题文本;根据每个所述原始答案文本包含的三元组,生成每个所述原始答案文本对应的目标答案文本。4.如权利要求3所述的方法,其特征在于,所述将各组所述目标问答对文本及所述目标问答对文本对应的发言人信息存储至所述路演问答数据库,以构建所述路演问答数据库之后,还包括:获取热点分析指令,其中,所述热点分析指令中包括待分析行业类型及待分析时间段,所述待分析时间段包括至少一个待分析日期;从所述路演问答数据库中获取所述行业类型与所述待分析行业类型匹配的所述目标问题文本,作为待分析问题文本;对各个所述待分析问题文本进行分词处理,以确定各个待分析问题文本中包括的各个分词;分别确定每个所述分词在所述待分析时间段内的总词频,以及每个所述分词在所述待分析时间段内的最新日期的最新词频,其中,所述最新日期是指所述待分析时间段中距离当前日期最近的日期;将每个所述分词的所述最新词频与所述总词频的比值,分别确定为每个所述分词的热
度分数值;根据每个所述分词的热度分数值,确定所述待分析行业对应的提问热词。5.如权利要求4所述的方法,其特征在于,所述根据每个所述分词的热度分数值,确定所述待分析行业对应的提问热词之前,还包括:根据每个所述分词在所述待分析时间段内的总词频、所述分词的数量及所述待分析时间段对应的天数,确定所有分词对应的一天平均词频;根据每个所述分词在所述最新日期之前的每日热度分数值,所述分词的数量及所述待分析时间段对应的天数,确定所有分词对应的先验平均热度值;根据所述一天平均词频及所述先验平...

【专利技术属性】
技术研发人员:韩巍朱书民
申请(专利权)人:深圳价值在线信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1