一种文本关系的分析方法及装置、文本关系网络的构建方法制造方法及图纸

技术编号：28674766 阅读：15 留言：0更新日期：2021-06-02 02:51

本发明专利技术公开了一种文本关系的分析方法及装置、文本关系网络的构建方法，其中的文本关系的分析方法，包括：对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，获得m篇独立文本构成的语料的所有句子和词汇；分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合；对每个词汇集合进行词汇元素筛选，构建概念；根据文本集合中的不同文本是否包含相同的概念，确定文本之间的关系。本发明专利技术的方法可以提高文本间关系分析的准确性，并构建文本关系网络挖掘文本不同层次内容之间的关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本关系的分析方法及装置、文本关系网络的构建方法
本专利技术涉及自然语言处理
，具体涉及一种文本关系的分析方法及装置、文本关系网络的构建方法。
技术介绍
目前在自然语言处理领域，对于文本间关系的量化评估主要是基于文本间词汇、词频和词汇组织方式的相似度来进行的。然而单纯基于词汇相似度来分析文本关系常常会导致用词不同但主题相同的文本间关系被错误的评估，同时这一缺陷也使得难以衡量多个文本之间的复杂内容之间的关系。由此可知，现有技术中的方法存在分析结果不够准确的技术问题。
技术实现思路
有鉴于此，本专利技术提供了一种文本关系的分析方法及装置、文本关系网络的构建方法，用以解决或者至少部分解决现有技术中的方法存在的结果不够准确的技术问题。为了解决上述技术问题，本专利技术第一方面提供了一种文本关系的分析方法，包括：对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，获得m篇独立文本构成的语料的所有句子和词汇，其中，m为正整数；分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，其中，词汇集合包括概念主题词和词汇元素；对每个词汇集合进行词汇元素筛选，构建概念；根据文本集合中的不同文本是否包含相同的概念，确定文本之间的关系。在一种实施方式中，对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，包括：对包含m篇独立文本的文本集合中包含的每篇文本进行分句、分词以...

【技术保护点】
1.一种文本关系的分析方法，其特征在于，包括：/n对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，获得m篇独立文本构成的语料的所有句子和词汇，其中，m为正整数；/n分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，其中，词汇集合包括概念主题词和词汇元素；/n对每个词汇集合进行词汇元素筛选，构建概念；/n根据文本集合中的不同文本是否包含相同的概念，确定文本之间的关系。/n

【技术特征摘要】
1.一种文本关系的分析方法，其特征在于，包括：
对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，获得m篇独立文本构成的语料的所有句子和词汇，其中，m为正整数；
分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，其中，词汇集合包括概念主题词和词汇元素；
对每个词汇集合进行词汇元素筛选，构建概念；
根据文本集合中的不同文本是否包含相同的概念，确定文本之间的关系。

2.如权利要求1所述的方法，其特征在于，对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，包括：
对包含m篇独立文本的文本集合中包含的每篇文本进行分句、分词以及去除停用词。

3.如权利要求1所述的方法，其特征在于，对每个词汇集合进行词汇元素筛选，构建概念，包括：
统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z，其中，z≤m；
判断文本数量z是否大于或等于第一阈值，如果是，则将词汇元素作为词汇集合的有效词汇，保留在词汇集合中，否则，将词汇元素从词汇集合中去除。

4.如权利要求1所述的方法，其特征在于，根据文本集合中的不同文本是否包含相同的概念，确定文本之间的关系，包括：
根据概念中的概念主题词或者词汇元素在文本中的出现情况，判断文本是否包含该概念；
对文本集合中每两篇文本包含的概念进行比较，如果两篇文本包含相同的概念，则两篇文本具有关联。

5.如权利要求4所述的方法，其特征在于，根据概念中的概念主题词或者词汇元素在文本中的出现情况，判断文本是否包含该概念，包括：
当一个概念XI的词汇元素总数为0时，如果概念主题词xi出现在文本wi中，则判定文本wi包含概念XI；
当一个概念XI的词汇元素总数大于0且小于第二阈值时，如果有1个词汇元素出现在文本wi中，则判定文本wi包含概念XI；
当一个概念XI...

【专利技术属性】
技术研发人员：刘垚，邹更，任钰欣，黄梓杰，
申请(专利权)人：武汉渔见晚科技有限责任公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人