基于容错粗糙集的词袋模型文本表示方法、系统及介质技术方案

技术编号：24035769 阅读：27 留言：0更新日期：2020-05-07 01:51

本发明专利技术请求保护一种基于容错粗糙集的词袋模型文本表示方法，包括：101、计算机获取语料库，并对语料库进行预处理操作；102、计算机确定语料库的基词集合；103、计算机获取每个基词的不确定性函数(容错类)，构建不确定性函数矩阵；104、计算机计算每个基词基于每篇文档的模糊隶属度，构建模糊隶属矩阵；105、计算机基于模糊隶属矩阵，获取每篇文档的上近似和下近似，构建上、下近似矩阵；106、计算机基于两种权重计算方案，构建语料库的文本表示矩阵。本发明专利技术主要是通过应用容错粗糙集模型，计算语料库中词语对于每篇文档的模糊隶属度，获得文档的上近似和下近似，构建相应的权重计算方法进行文档表示，切实结合当下的技术发展需求。

Text representation method, system and medium of word bag model based on fault tolerant rough set

全部详细技术资料下载

【技术实现步骤摘要】
基于容错粗糙集的词袋模型文本表示方法、系统及介质
本专利技术属于机器学习、人工智能技术、自然语言处理领域，是自然语言处理中的文本表示方法。
技术介绍
文本表示是自然语言处理(NaturalLanguageProcessing,NLP)的基础。随着互联网的爆炸式增长，无数的文本数据不断积累。但是，与属于结构化数据类型的数字数据不同，文档或文本数据是非结构化数据。非结构化数据不适合直接应用于机器学习或深度学习算法中。作为自然语言处理和文本挖掘任务的基础，高效的文本或文档表示显得尤为重要。文档表示面临的主要挑战是如何将非结构化文本数据转换为结构化数据。对于一个有效的文档表示，不仅需要真实地反映文档的内容，还要具有区分不同文档的能力。词袋模型(Bag-of-Word,BoW)是一种经典的文本表示方法，具有简单、高效的优点，已经广泛应用于信息检索、文本分类和情感分析等领域。但是词袋模型具有稀疏性和缺乏语义关联的缺点。针对这些问题，本专利技术从语义的不确定性的角度，利用容错粗糙集模型，构建相应的权重计算方法，进行文本表示。基于容错粗糙集的词袋模型文本表示模型不仅能够解决其稀疏性，还能够更好地挖掘文本的语义相关性。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种基于容错粗糙集的词袋模型文本表示方法、系统及介质。本专利技术的技术方案如下：一种基于容错粗糙集的词袋模型文本表示方法，用于计算机自然语言处理，其包括以下步骤：101、计算机获取语料库，并对语料库进行包括去页眉页脚、...

【技术保护点】
1.一种基于容错粗糙集的词袋模型文本表示方法，用于计算机自然语言处理，其特征在于，包括以下步骤：/n101、计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作；/n102、计算机对预处理后的语料库确定基词集合；/n103、计算机获取每个基词的不确定性函数即容错类，构建不确定性函数矩阵；/n104、计算机计算每个基词基于每篇文档的模糊隶属度，构建模糊隶属矩阵；/n105、计算机基于模糊隶属矩阵，获取每篇文档的上近似和下近似，构建上、下近似矩阵；/n106、计算机基于两种权重计算方案，构建语料库的文本表示矩阵；/n两种权重计算方案为：/n(1)直接将模糊隶属度作为基词的权重；/n(2)对于在文档中出现的基词，将其模糊隶属度与在文档中出现次数的乘积作为权重；对于属于文档的上近似但不在文档中出现的基词，将其模糊隶属度作为权重；对于不属于文档上近似的基词，取权重为0。/n

【技术特征摘要】
1.一种基于容错粗糙集的词袋模型文本表示方法，用于计算机自然语言处理，其特征在于，包括以下步骤：
101、计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作；
102、计算机对预处理后的语料库确定基词集合；
103、计算机获取每个基词的不确定性函数即容错类，构建不确定性函数矩阵；
104、计算机计算每个基词基于每篇文档的模糊隶属度，构建模糊隶属矩阵；
105、计算机基于模糊隶属矩阵，获取每篇文档的上近似和下近似，构建上、下近似矩阵；
106、计算机基于两种权重计算方案，构建语料库的文本表示矩阵；
两种权重计算方案为：
(1)直接将模糊隶属度作为基词的权重；
(2)对于在文档中出现的基词，将其模糊隶属度与在文档中出现次数的乘积作为权重；对于属于文档的上近似但不在文档中出现的基词，将其模糊隶属度作为权重；对于不属于文档上近似的基词，取权重为0。

2.根据权利要求1所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤101读取语料库，并对语料库进行预处理操作，具体包括：
1)删除文档的页眉页脚，只取实际内容部分；
2)去除标点符号和数字；
3)将词语中的大写转换为小写；
4)从sklearn和nltk工具包中下载停用词表，进行过滤停用词操作。

3.根据权利要求1或2所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤102确定语料库的基词集合，主要操作如下：
1)计算语料库中出现的所有词语的数量；
2)选择频率最高的l个词语作为基词，基词集合为W＝{w1,w2,...,wn}，其中n表示基词的数量，wn表示基词中的第n个词语。

4.根据权利要求3所述的基于容错粗糙集的词袋模型文本表示方法，其特征在于，所述步骤103构建不确定性函数矩阵，包括步骤：
1)将每篇文档用向量表示di＝[woi1,woi2,...,woin]，其中di表示第i篇文档，woij表示第i篇文档中是否出现第j个词语；

2)计算每个基词的不确定性函数
Iθ(wi)＝[A(ci1)A(ci2)…A(cin)]，
其中A(cij)表示词语j是否属于词语i的容错类，

3)获得不确定性矩阵：

5.根据权利要求4所述的基于容错...

【专利技术属性】
技术研发人员：邱东，江海欢，闫睿腾，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人