当前位置: 首页 > 专利查询>清华大学专利>正文

文本数据分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29220628 阅读:28 留言:0更新日期:2021-07-10 01:00
本发明专利技术提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明专利技术提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。的重点了解。的重点了解。

【技术实现步骤摘要】
文本数据分析方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种文本数据分析方法、装置、电子设备及存储介质。

技术介绍

[0002]数据库中的文本,在对文本内容进行描述展示时,均仅仅是按常规的方式—对文本内容进行分段展示,每段展示不同的详细内容。当文本的篇幅较长时,容易使用户粗略查看或懈怠查看,不能达到对用户产生阅读的吸引力,有时,用户阅读整个文本,确得不到有用的内容,浪费了阅读查找时间。

技术实现思路

[0003]针对现有技术存在的问题,本专利技术提供一种文本数据分析方法、装置、电子设备及存储介质。
[0004]本专利技术提供一种文本数据分析方法,包括:
[0005]确定目标文本和所述目标文本中的目标实体,根据所述目标实体确定关联文本,所述关联文本中包含有所述实体,所述目标文本和关联文本属于同一数据库;
[0006]根据所述目标文本确定三元组,以及在所述目标文本中对应于三元组的段落;其中,所述三元组中的一实体为目标实体;
[0007]根据所述目标文本和所述关联文本确定对应于目标实体的词云和开放关系;其中,所述词云中包含实体和与实体相关联的关键字,所述开放关系用于描述实体之间的关系;
[0008]根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。
[0009]根据本专利技术提供的一种文本数据分析方法,所述根据所述目标文本确定三元组,以及在所述目标文本中对应于三元组的段落,包括:
[0010]根据所述目标文本中的预设提取位置的内容提取三元组;
[0011]根据所述三元组与所述目标文本的各段落进行相似度计算,获得对应于各段落的相似度;
[0012]根据各段落的相似度确定对应于三元组的段落。
[0013]根据本专利技术提供的一种文本数据分析方法,所述根据所述目标文本和所述关联文本确定对应于目标实体的词云,包括:
[0014]根据所述目标文本中的每个句子确定共现关系,其中,所述共现关系为两个实体存在的关系,其中一实体为目标实体;
[0015]根据所述共现关系在所述目标文本和所述关联文本中确定关键字集合;
[0016]集合所述共现关系和所述关键字集合,得到对应于目标实体的词云。
[0017]根据本专利技术提供的一种文本数据分析方法,所述根据所述目标文本和所述关联文本确定对应于目标实体的开放关系,包括:
[0018]根据所述目标实体,结合上下文语境在所述目标文本和所述关联文本中匹配与所述目标实体关联的关联词和关联实体;
[0019]根据所述目标实体、关联词和关联实体确定开放关系。
[0020]本专利技术还提供一种文本数据分析装置,包括:
[0021]确定模块,用于确定目标文本和所述目标文本中的目标实体,根据所述目标实体确定关联文本,所述关联文本中包含有所述实体,所述目标文本和关联文本属于同一数据库;
[0022]第一分析模块,用于根据所述目标文本确定三元组,以及在所述目标文本中对应于三元组的段落;其中,所述三元组中的一实体为目标实体;
[0023]第二分析模块,用于根据所述目标文本和所述关联文本确定对应于目标实体的词云和开放关系;其中,所述词云中包含实体和与实体相关联的关键字,所述开放关系用于描述实体之间的关系;
[0024]处理模块,用于根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。
[0025]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本数据分析方法的步骤。
[0026]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本数据分析方法的步骤。
[0027]本专利技术提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。
附图说明
[0028]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是本专利技术提供的文本数据分析方法的流程示意图;
[0030]图2是本专利技术提供的文本数据分析的分级知识形态图;
[0031]图3是本专利技术提供的文本数据分析装置的结构示意图;
[0032]图4是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0033]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]下面结合图1

图4描述本专利技术提供的文本数据分析方法、装置、电子设备及存储介
质。
[0035]图1示出了本专利技术提供的文本数据分析方法的流程示意图,参见图1,该方法包括以下步骤:
[0036]11、确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本,关联文本中包含有所述实体,目标文本和关联文本属于同一数据库;
[0037]12、根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;其中,三元组中的一实体为目标实体;
[0038]13、根据目标文本和关联文本确定对应于目标实体的词云和开放关系;其中,词云中包含实体和与实体相关联的关键字,开放关系用于描述实体之间的关系;
[0039]14、根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。
[0040]针对步骤11

步骤14,需要说明的是,在本专利技术中,该文本数据分析方法适用于对一个文本中的某个实体(该实体属于文本中的字词,用于表示客观存在并可相互区别的事物,如人名、时间等)在文本中的关联内容的分析。为此,需要确定一个文本,作为待分析的目标文本。由于数据种类较丰富,故需要确定一个数据范围(即数据库),在该数据范围内可以确定一篇文本。例如百科数据、论文库、企业数据库等。在确定文本后,还需确定文本中某一个实体。
[0041]例如对于企业家“张三”的百科文本,该百科文本就是目标文本,张三就是目标实体。
[0042]例如对于毕业生“李四”撰写的关于“茶A素”的论文,该论文就是目标文本,“茶A素”就是目标实体。
[0043]在本专利技术中,数据范围内的文本较多,不排除其他文本中也存在有关目标实体的情况,为此,还需要在该数据范围内确定包含有目标实体的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据分析方法,其特征在于,包括:确定目标文本和所述目标文本中的目标实体,根据所述目标实体确定关联文本,所述关联文本中包含有所述实体,所述目标文本和关联文本属于同一数据库;根据所述目标文本确定三元组,以及在所述目标文本中对应于三元组的段落;其中,所述三元组中的一实体为目标实体;根据所述目标文本和所述关联文本确定对应于目标实体的词云和开放关系;其中,所述词云中包含实体和与实体相关联的关键字,所述开放关系用于描述实体之间的关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。2.根据权利要求1所述的文本数据分析方法,其特征在于,所述根据所述目标文本确定三元组,以及在所述目标文本中对应于三元组的段落,包括:根据所述目标文本中的预设提取位置的内容提取三元组;根据所述三元组与所述目标文本的各段落进行相似度计算,获得对应于各段落的相似度;根据各段落的相似度确定对应于三元组的段落。3.根据权利要求1所述的文本数据分析方法,其特征在于,所述根据所述目标文本和所述关联文本确定对应于目标实体的词云,包括:根据所述目标文本中的每个句子确定共现关系,其中,所述共现关系为两个实体存在的关系,其中一实体为目标实体;根据所述共现关系在所述目标文本和所述关联文本中确定关键字集合;集合所述共现关系和所述关键字集合,得到对应于目标实体的词云。4.根据权利要求1所述的文本数据分析方法,其特征在于,包括:所述根据所述目标文本和所述关联文本确定对应于目标实体的开放关系,包括:根据所述目标实体,结合上下文语境在所述目标文本和所述关联文本中匹配与所述目标实体关联的关联词和关联实体;根据所述目标实体、关联词和关联实体确定开放关系。5.一种文本数据分析装置,其特征在于,包括:确定模块,用于确定目标文本和所述目标文本中的目标实体,根据所述目标实体确定关联文本,所述关联文本中包含有所述实体,所述目标文本和关联文本属于同一数据库;第一分析模块,用于...

【专利技术属性】
技术研发人员:侯磊刘丁枭张益李涓子张鹏唐杰许斌
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1