一种文本关系的分析方法及装置、文本关系网络的构建方法制造方法及图纸

技术编号:28674766 阅读:15 留言:0更新日期:2021-06-02 02:51
本发明专利技术公开了一种文本关系的分析方法及装置、文本关系网络的构建方法,其中的文本关系的分析方法,包括:对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇;分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合;对每个词汇集合进行词汇元素筛选,构建概念;根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。本发明专利技术的方法可以提高文本间关系分析的准确性,并构建文本关系网络挖掘文本不同层次内容之间的关系。

【技术实现步骤摘要】
一种文本关系的分析方法及装置、文本关系网络的构建方法
本专利技术涉及自然语言处理
,具体涉及一种文本关系的分析方法及装置、文本关系网络的构建方法。
技术介绍
目前在自然语言处理领域,对于文本间关系的量化评估主要是基于文本间词汇、词频和词汇组织方式的相似度来进行的。然而单纯基于词汇相似度来分析文本关系常常会导致用词不同但主题相同的文本间关系被错误的评估,同时这一缺陷也使得难以衡量多个文本之间的复杂内容之间的关系。由此可知,现有技术中的方法存在分析结果不够准确的技术问题。
技术实现思路
有鉴于此,本专利技术提供了一种文本关系的分析方法及装置、文本关系网络的构建方法,用以解决或者至少部分解决现有技术中的方法存在的结果不够准确的技术问题。为了解决上述技术问题,本专利技术第一方面提供了一种文本关系的分析方法,包括:对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;对每个词汇集合进行词汇元素筛选,构建概念;根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。在一种实施方式中,对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,包括:对包含m篇独立文本的文本集合中包含的每篇文本进行分句、分词以及去除停用词。在一种实施方式中,对每个词汇集合进行词汇元素筛选,构建概念,包括:统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除。在一种实施方式中,根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系,包括:根据概念中的概念主题词或者词汇元素在文本中的出现情况,判断文本是否包含该概念;对文本集合中每两篇文本包含的概念进行比较,如果两篇文本包含相同的概念,则两篇文本具有关联。在一种实施方式中,根据概念中的概念主题词或者词汇元素在文本中的出现情况,判断文本是否包含该概念,包括:当一个概念XI的词汇元素总数为0时,如果概念主题词xi出现在文本wi中,则判定文本wi包含概念XI;当一个概念XI的词汇元素总数大于0且小于第二阈值时,如果有1个词汇元素出现在文本wi中,则判定文本wi包含概念XI;当一个概念XI的词汇元素总数大于或等于第二阈值时,则根据XI中的必要词汇数量,确定文本wi是否包含概念XI,其中,必要词汇根据词汇集合中的词汇元素xj与概念主题词xi共同出现的文本数量以及词汇元素xj与概念主题词xi之间的关系确定。在一种实施方式中,根据XI中的必要词汇数量,确定文本wi是否包含概念XI,包括:当一个概念XI中的必要词汇数量大于或等于第三阈值,如果存在预设比例的必要词汇出现在文本wi中,则判定文本wi包含概念XI;当一个概念XI中的必要词汇数量小于第三阈值,如果存在预设比例的词汇元素出现在文本wi的词汇中,则判定文本wi包含概念XI。基于同样的专利技术构思,本专利技术第二方面提供了一种文本关系的分析装置,包括:预处理模块,对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;词汇集合构建模块,用于分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;概念构建模块,用于对每个词汇集合进行词汇元素筛选,构建概念;文本关系确定模块,用于根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。基于同样的专利技术构思,本专利技术第三方面提供了一种文本关系网络的构建方法,基于第一方面所述的文本关系分析方法实现,构建方法包括:根据文本之间的关系,构建文本关系网络。在一种实施方式中,根据文本之间的关系,构建文本关系网络,包括:将文本作为节点、文本具有相同的概念作为边、两个文本具有相同概念的数量为边的权重构建加权无环无向网络,作为文本关系网络。基于同样的专利技术构思,本专利技术第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。,包括:本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:本专利技术提供的文本关系的分析方法,首先对包含m篇独立文本的文本集合中包含的每篇文本进行预处理;然后分别以语料的每一个词汇为概念主题词,遍历预处理后得到的所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,接着对每个词汇集合进行词汇元素筛选,构建概念,最后根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。由于本专利技术提供的方法,通过文本共现规则构建以单个词汇(概念主题词)为中心的词汇集合,并对每个词汇集合进行词汇元素筛选,构建概念,再根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系,通过提供一种新的构建概念的方法,计算文本中包含的概念,再利用概念来计算文本之间的关系,可以更全面地分析不同文本之间的关系,提高了分析的准确性,解决了现有技术中的方法存在分析结果不够准确的技术问题。进一步地,基于对不同文本关系的分析,本专利技术还提供了一种文本关系网络的构建方法,可以对不同文本之间的关系通过网络进行展示,有利于了解多个文本间的内容层次结构,拓展了基于文本间关系的应用场景。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种文本关系的分析方法的流程示意图;图2为一种实施方式中本专利技术构建的文本关系网络的示意图;图3为另一种实施方式中本专利技术构建的文本关系网络的示意图;图4为本专利技术实施例中一种文本关系的分析装置的结构框图;图5为本专利技术实施例中一种计算机可读存储介质的结构框图。具体实施方式本专利技术的目的在于针对现有技术中的方法存在分析结果不够准确的技术问题,提供一种文本关系的分析方法及装置、文本关系网络的构建方法,从而达到提高分析的全面性和准确性的目的。为了达到上述目的,本专利技术的主要构思如下:通过文本共现规则构建以单个词汇为中心的词汇集合,并构建概念,然后根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系,本文档来自技高网...

【技术保护点】
1.一种文本关系的分析方法,其特征在于,包括:/n对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;/n分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;/n对每个词汇集合进行词汇元素筛选,构建概念;/n根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。/n

【技术特征摘要】
1.一种文本关系的分析方法,其特征在于,包括:
对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;
分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;
对每个词汇集合进行词汇元素筛选,构建概念;
根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系。


2.如权利要求1所述的方法,其特征在于,对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,包括:
对包含m篇独立文本的文本集合中包含的每篇文本进行分句、分词以及去除停用词。


3.如权利要求1所述的方法,其特征在于,对每个词汇集合进行词汇元素筛选,构建概念,包括:
统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;
判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除。


4.如权利要求1所述的方法,其特征在于,根据文本集合中的不同文本是否包含相同的概念,确定文本之间的关系,包括:
根据概念中的概念主题词或者词汇元素在文本中的出现情况,判断文本是否包含该概念;
对文本集合中每两篇文本包含的概念进行比较,如果两篇文本包含相同的概念,则两篇文本具有关联。


5.如权利要求4所述的方法,其特征在于,根据概念中的概念主题词或者词汇元素在文本中的出现情况,判断文本是否包含该概念,包括:
当一个概念XI的词汇元素总数为0时,如果概念主题词xi出现在文本wi中,则判定文本wi包含概念XI;
当一个概念XI的词汇元素总数大于0且小于第二阈值时,如果有1个词汇元素出现在文本wi中,则判定文本wi包含概念XI;
当一个概念XI...

【专利技术属性】
技术研发人员:刘垚邹更任钰欣黄梓杰
申请(专利权)人:武汉渔见晚科技有限责任公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1