一种文本数据智能分析方法技术

技术编号:39768050 阅读:6 留言:0更新日期:2023-12-22 02:20
本发明专利技术提供一种文本数据智能分析方法

【技术实现步骤摘要】
一种文本数据智能分析方法、装置和设备


[0001]本专利技术涉及设备监测
,具体涉及一种文本数据智能分析方法

装置和设备


技术介绍

[0002]在影视剧行业,内容质量始终是作品好坏的核心

为了开发好的影视剧,需要阅读分析评估大量原创小说,并对其内容进行甄选

但往往此类小说篇幅较长,精读一本小说至少需要耗费数十小时甚至更多

因此需要从海量原创小说中挖掘出具有影视剧开发价值的小说,时间成本非常高


技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种文本数据智能分析方法

装置和设备,以目标文本的快速分析和挖掘

[0004]为实现上述目的,本专利技术实施例提供如下技术方案:一种文本数据智能分析方法,包括:获取目标分析文本;获取目标分析模型的单次录入数据量;获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;基于所述单次录入数据量

采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的

至少重叠上一窗口的部分文本内容;获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;顺序连接每个窗口的第一分析结果,记为汇总结果;判断所述汇总结果的数据量是否大于预设值;如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;如果汇总结果的数据量不大于预设值,将所述汇总结果录入所述目标分析模型;获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括

[0005]可选的,上述文本数据智能分析方法中,所述目标原则包括:以目标维度对所述汇总结果进行概括;所述目标维度为预设维度集合中的一项,所述预设维度集合中的维度至少包括:
人物关系

高能看点

金句分析

关键词总结

一句话主题总结

雷点分析

泪点分析

结局分析

背景分析和受众分析

[0006]可选的,上述文本数据智能分析方法中,所述获取第二提示词,包括:依次遍历所述预设维度集合中的各个维度,获取与遍历到的目标维度作相匹配的目标原则,生成与所述目标原则相匹配的第二提示词

[0007]可选的,上述文本数据智能分析方法中,所述第二部分包括第一文本内容

第二文本内容和第三文本内容;所述第二文本内容为所述目标分析文本中,以上一窗口的第二部分的末尾文本为起始位置之后的预设长度的文本内容;所述第一文本内容以目标分析文本中以所述第二文本内容中首次出现的人物位置为终点,向前推
N
个文本片段为起点,所述
N
为不小于1的正整数;所述第三文本内容以目标分析文本中以所述第二文本内容中最后一次出现的人物位置为起点,向后推
N
个文本片段为终点

[0008]可选的,上述文本数据智能分析方法中,所述第一文本内容中的
N
个文本片段的确定方式为:获取所述第二文本内容之前的
M
个文本片段,所述
M
为大于
N
的正整数;获取所述
M
个文本片段中的每个文本片段中出现的人物;计算
M
个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度;获取所述
M
个文本片段中人物交集程度最高的
N
个文本片段,作为所述第一文本内容中的
N
个文本片段

[0009]可选的,上述文本数据智能分析方法中,所述第三文本内容中的
N
个文本片段的确定方式为:获取所述第二文本内容之后的
M
个文本片段,所述
M
为大于1的正整数;获取所述
M
个文本片段中的每个文本片段中出现的人物;计算
M
个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度;获取所述
M
个文本片段中人物交集程度最高的
N
个文本片段,作为所述第三文本内容中的
N
个文本片段

[0010]可选的,上述文本数据智能分析方法中,包括:采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型时,且相邻的两个滑动窗口中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于预设原则对前一窗口的文本的内容进行精简的输出结果;所述第二部分为由所述汇总结果提取到的汇总结果中延续上一窗口的第二部分的内容

[0011]一种文本数据智能分析装置,包括:文本输入单元,用于获取目标分析文本;获取目标分析模型的单次录入数据量;获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;基于所述单次录入数据量

采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对
前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的

至少重叠上一窗口的部分文本内容;分析结果汇总单元,用于获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;顺序连接每个窗口的第一分析结果,记为汇总结果;汇总结果文本输入单元,用于判断所述汇总结果的数据量是否大于预设值;如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;概括内容获取单元,用于如果汇总结果的数据量不大于预设值,将所述汇总结果录入所述目标分析模型;获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括

[0012]一种文本数据智能分析设备,包括:存储器和处理器;所述存储器存储有适于所述处理器执行的程序,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本数据智能分析方法,其特征在于,包括:获取目标分析文本;获取目标分析模型的单次录入数据量;获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;基于所述单次录入数据量,采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的

至少重叠上一窗口的部分文本内容;获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;顺序连接每个窗口的第一分析结果,记为汇总结果;判断所述汇总结果的数据量是否大于预设值;如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;如果汇总结果的数据量不大于预设值,将所述汇总结果录入所述目标分析模型;获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括
。2.
根据权利要求1所述的文本数据智能分析方法,其特征在于,所述目标原则包括:以目标维度对所述汇总结果进行概括;所述目标维度为预设维度集合中的一项,所述预设维度集合中的维度至少包括:人物关系

高能看点

金句分析

关键词总结

一句话主题总结

雷点分析

泪点分析

结局分析

背景分析和受众分析
。3.
根据权利要求2所述的文本数据智能分析方法,其特征在于,获取所述第二提示词的过程,包括:依次遍历所述预设维度集合中的各个维度,获取与遍历到的目标维度作相匹配的目标原则,生成与所述目标原则相匹配的第二提示词
。4.
根据权利要求2所述的文本数据智能分析方法,其特征在于,所述第二部分包括第一文本内容

第二文本内容和第三文本内容;所述第二文本内容为所述目标分析文本中,以上一窗口的第二部分的末尾文本为起始位置之后的预设长度的文本内容;所述第一文本内容以目标分析文本中以所述第二文本内容中首次出现的人物位置为终点,向前推
N
个文本片段为起点,所述
N
为不小于1的正整数;所述第三文本内容以目标分析文本中以所述第二文本内容中最后一次出现的人物位置为起点,向后推
N
个文本片段为终点
。5.
根据权利要求4所述的文本数据智能分析方法,其特征在于,所述第一文本内容中的
N
个文本片段的确定方式为:获取所述第二文本内容之前的
M
个文本片段,所述
M
为大于
N
的正整数;
获取所述
M
个文本片段中的每个文本...

【专利技术属性】
技术研发人员:卢海波杨杰骆迅郑孝直宋施恩王心莹
申请(专利权)人:湖南快乐阳光互动娱乐传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1