System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向自然语言文本的可视化分析方法技术_技高网

一种面向自然语言文本的可视化分析方法技术

技术编号:40028165 阅读:10 留言:0更新日期:2024-01-16 17:49
本发明专利技术公开了一种面向自然语言文本的可视化分析方法,该方法首先针对自然语言文本,进行可视化信息图的文本可视化数据集提取。其次根据文本可视化数据集,进行连续情节合并,得到连续文本可视化数据集。然后根据连续文本可视化数据集,进行面向文本的文本情节可视化展示。最后根据连续文本可视化数据集,进行面向文本的文本角色可视化展示。本发明专利技术使得快速浏览这一功能可以使用自动化的方式实现,并且也传承了其他信息的自动化抽取,为可视化提供了完整丰富的原料,可以帮助用户更容易的探索发现,更容易理解情节。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别是涉及一种面向自然语言文本的可视化分析方法


技术介绍

1、对文学作品的研究和对其情节、人物和其他信息实体的分析在文学科学中是一项复杂而耗时的任务。文学的数字化和电子书的激增为这些任务提供了新的舞台和机会,为了支持对这些文本的可视分析,经常会利用计算语言学领域的方法,可以自动从数字化小说中提取实体及实体间关系。然而,这些方法有其局限性,特别是当应用于叙事文本时,这种文本通常不遵循共同的模式,而是有各种形式,因此对文学作品进行可视化表现可以通过提供视觉线索来表现不同模式的信息,从而解决这些限制,让文学学者更好地发现探索信息。此外,还可以通过交互让用户根据自己的需要控制和调整提取和可视化方法。

2、在当前针对非结构化文本的信息自动抽取领域中,依然没有一套完全成熟的方法可供使用,但已经出现许多的自动化技术。针对文本预处理和分析的词汇和句法任务现有方法为:palmer提出的通过收集语言词汇表的方式分割句子的方法,使用了三种不同神经网络架构的多语言系统;vijayarani提出的通过分解词元的方式的文本标记化的方法;以及很多的词性标注方法,提供了句子分块和依存分析以及共指消解的功能,这些方法在如今已经有了很高的精度。

3、最后虽然有这些新兴的技术,但是这个领域仍然有很大的不足。譬如从文本中的信息抽取,只能抽取最原始的文字片段,而非人们所需要的语义性质总结的概括性数据;在可视化方面,针对剧情的可视化依然缺失,也缺乏比较分析的手段,使用户可以继续进行挖掘。


>技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷,而提供一种面向自然语言文本的可视化分析方法,该方法直观形象,通过可视化对比分析文本角色和文本剧情。

2、本专利技术的目的可以通过如下的技术方案来实现:

3、一种面向自然语言文本的可视化分析方法,用以在无标注的半结构化原始文本中抽取关键数据并产生可交互的剧情角色可视化图像,其特征在于自动构建更加直观全面的分析视图,包括以下步骤:

4、(1)针对自然语言文本,进行可视化信息图的文本可视化数据集提取。

5、首先通过现有的自然语言处理工具抽取时间人物地理等元数据,并构造元数据集。

6、其次再使用一套针对自然语言文本任务设置的模板对元数据进行处理,模板方法为将元数据按照情节位置进行分割,然后对不同角色在各自情节上的元数据进行合并,最终按照模板得到角色时间地理分布数据集。

7、然后通过针对情感分类任务微调的蒸馏bert模型进行分类,得到结果通过人物索引进行合并形成情感数据集;通过自然语言大模型进行事件抽取,得到按情节划分的事件数据集。

8、最后将这三个数据集处理使其可以根据元数据进行索引,得到了最终的可视化数据集。

9、(2)根据文本可视化数据集,进行连续情节合并,得到连续文本可视化数据集。

10、通过使用步骤1中的可视化数据集,以情节为索引,对不同的文本语料通过连续性指数,进行情节连续性评估。情节的连续性指数通过线性时间差值和元数据余弦相似度进行加权计算,最终得到连续性指数。

11、计算不同语料的元数据信息的连续性指数,当指数达到预设阈值之后就认定为连续情节,随之将可视化数据集中的情节索引变为了连续情节索引,得到了连续文本可视化数据集用于之后的可视分析。

12、(3)根据连续文本可视化数据集,进行面向文本的文本情节可视化展示。

13、通过使用步骤2中处理过的连续文本可视化数据集,将文本情节和相对应的事件数据进行映射,以此构建以图形为编码的可视化视图。

14、所述文本情节根据文本情节数据的时间顺序确定编码图形的排列情况,确定情节轴上的定位,然后使用事件数据中的人物数据来细化图形编码的细节,不同情节位置上的相同人物之间设有曲线链接,表示两个情节之间有联系,最后通过交互操作使得用户可以方便的阅读此情节的事件概览,以此构成完整的剧情可视化图形。

15、(4)根据连续文本可视化数据集,进行面向文本的文本角色可视化展示。

16、通过使用步骤2中提取到的连续文本可视化数据集,以人物为索引得到人物情感数据来自动生成角色情感可视化视图,通过数据集中的人物情感分析结果和对应角色进行映射,构建情绪雷达图,表示角色情感分布,且同一情节的不同角色将同时表现在一张图中以便于分析比较。

17、然后则是使用角色情感和情节时间进行映射,用高低起伏的折线图来表示角色情感随情节发展发生的改变,通过情感分布图和情感发展折线图组成了角色可视化视图。

18、与现有技术相比,本专利技术具有以下优点:

19、一、解决了之前情节凝练和抽取的难题:本专利技术使得快速浏览这一功能可以使用自动化的方式实现,并且也传承了其他信息的自动化抽取,为可视化提供了完整丰富的原料。

20、二、可视化视图更加直观,可视化维度更加全面:本专利技术提供的可视化视图在视觉上更加直观清晰,并且同时提供情节和角色的可视化,并且具备对比分析的功能,可以帮助用户更容易的探索发现,更容易理解情节。

本文档来自技高网...

【技术保护点】

1.一种面向自然语言文本的可视化分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的面向自然语言文本的可视化分析方法,其特征在于,步骤1具体过程为:

3.根据权利要求2所述的面向自然语言文本的可视化分析方法,其特征在于,所述元数据包括时间、人物和地理。

4.根据权利要求3所述的面向自然语言文本的可视化分析方法,其特征在于,所述自然语言文本任务设置的模板对元数据进行处理具体过程为:将元数据按照情节位置进行分割,然后对不同角色在各自情节上的元数据进行合并,最终按照模板得到角色时间地理分布数据集。

5.根据权利要求4所述的面向自然语言文本的可视化分析方法,其特征在于,步骤2具体过程如下:

6.根据权利要求5所述的面向自然语言文本的可视化分析方法,其特征在于,步骤2.1所述连续性指数为:情节的连续性指数通过线性时间差值和元数据余弦相似度进行加权计算。

7.根据权利要求6所述的面向自然语言文本的可视化分析方法,其特征在于,步骤3具体过程如:

8.根据权利要求7所述的面向自然语言文本的可视化分析方法,其特征在于,所述文本情节根据文本情节数据时间顺序确定编码图形的排列,确定情节轴上的定位,然后使用事件数据中的人物数据细化图形编码的细节,不同情节位置上的相同人物之间设有曲线链接,表示两个情节之间有联系。

9.根据权利要求1至8任一所述的面向自然语言文本的可视化分析方法,其特征在于,步骤4具体过程如下:

10.根据权利要求9所述的面向自然语言文本的可视化分析方法,其特征在于,所述生成角色情感可视化视图具体过程为:通过连续文本可视化数据集中的人物情感分析结果和对应角色进行映射,构建情绪雷达图,表示角色情感分布,且同一情节的不同角色将同时表现在一张图中;

...

【技术特征摘要】

1.一种面向自然语言文本的可视化分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的面向自然语言文本的可视化分析方法,其特征在于,步骤1具体过程为:

3.根据权利要求2所述的面向自然语言文本的可视化分析方法,其特征在于,所述元数据包括时间、人物和地理。

4.根据权利要求3所述的面向自然语言文本的可视化分析方法,其特征在于,所述自然语言文本任务设置的模板对元数据进行处理具体过程为:将元数据按照情节位置进行分割,然后对不同角色在各自情节上的元数据进行合并,最终按照模板得到角色时间地理分布数据集。

5.根据权利要求4所述的面向自然语言文本的可视化分析方法,其特征在于,步骤2具体过程如下:

6.根据权利要求5所述的面向自然语言文本的可视化分析方法,其特征在于,步骤2.1所述连续性指数为:情节的连续性指数通过线性时间差...

【专利技术属性】
技术研发人员:吴向阳何鸿杰
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1