基于容错粗糙集的词袋模型文本表示方法、系统及介质技术方案

技术编号:24035769 阅读:27 留言:0更新日期:2020-05-07 01:51
本发明专利技术请求保护一种基于容错粗糙集的词袋模型文本表示方法,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类),构建不确定性函数矩阵;104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵。本发明专利技术主要是通过应用容错粗糙集模型,计算语料库中词语对于每篇文档的模糊隶属度,获得文档的上近似和下近似,构建相应的权重计算方法进行文档表示,切实结合当下的技术发展需求。

Text representation method, system and medium of word bag model based on fault tolerant rough set

【技术实现步骤摘要】
基于容错粗糙集的词袋模型文本表示方法、系统及介质
本专利技术属于机器学习、人工智能技术、自然语言处理领域,是自然语言处理中的文本表示方法。
技术介绍
文本表示是自然语言处理(NaturalLanguageProcessing,NLP)的基础。随着互联网的爆炸式增长,无数的文本数据不断积累。但是,与属于结构化数据类型的数字数据不同,文档或文本数据是非结构化数据。非结构化数据不适合直接应用于机器学习或深度学习算法中。作为自然语言处理和文本挖掘任务的基础,高效的文本或文档表示显得尤为重要。文档表示面临的主要挑战是如何将非结构化文本数据转换为结构化数据。对于一个有效的文档表示,不仅需要真实地反映文档的内容,还要具有区分不同文档的能力。词袋模型(Bag-of-Word,BoW)是一种经典的文本表示方法,具有简单、高效的优点,已经广泛应用于信息检索、文本分类和情感分析等领域。但是词袋模型具有稀疏性和缺乏语义关联的缺点。针对这些问题,本专利技术从语义的不确定性的角度,利用容错粗糙集模型,构建相应的权重计算方法,进行文本表示。基于容错粗糙集的词袋模型文本表示模型不仅能够解决其稀疏性,还能够更好地挖掘文本的语义相关性。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种基于容错粗糙集的词袋模型文本表示方法、系统及介质。本专利技术的技术方案如下:一种基于容错粗糙集的词袋模型文本表示方法,用于计算机自然语言处理,其包括以下步骤:101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作;102、计算机对预处理后的语料库确定基词集合;103、计算机获取每个基词的不确定性函数即容错类,构建不确定性函数矩阵;104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵。权重计算方案为:(1)直接将模糊隶属度作为基词的权重;(2)对于在文档中出现的基词,将其模糊隶属度与在文档中出现次数的乘积作为权重;对于属于文档的上近似但不在文档中出现的基词,将其模糊隶属度作为权重;对于不属于文档上近似的基词,取权重为0。进一步的,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:1)删除文档的页眉页脚,只取实际内容部分;2)去除标点符号;3)将词语中的大写转换为小写;4)从sklearn和nltk工具包中下载停用词表,进行过滤停用词操作。进一步的,所述步骤102确定语料库的基词集合,主要操作如下:1)计算语料库中出现的所有词语的数量;2)选择频率最高的l个词语作为基词,基词集合为W={w1,w2,...,wn},其中n表示基词的数量,wn表示基词中的第n个词语。进一步的,所述步骤103构建不确定性函数矩阵,包括步骤:1)将每篇文档用向量表示di=[woi1,woi2,...,woin],其中di表示第i篇文档,woij表示第i篇文档中是否出现第j个词语,2)计算每个基词的不确定性函数Iθ(wi)=[A(ci1)A(ci2)…A(cin)],其中其中A(cij)表示词语j是否属于词语i的容错类,3)获得不确定性矩阵:进一步的,所述步骤104构建模糊隶属矩阵具体包括:1)计算每个基词对于每篇文档的模糊隶属度其中,I为单位向量;di表示文档di的词语向量;Iθ(wi)为基词wi的不确定性函数。2)构建模糊隶属矩阵进一步的,所述步骤105基于模糊隶属矩阵,构建上、下近似矩阵,具体步骤如下:1)上近似矩阵:其中2)下近似矩阵:其中进一步的,所述步骤106基于两种权重计算方案,构建语料库的文本表示矩阵,具体步骤如下:1)若执行第一种权重计算方案,则文本表示矩阵为:2)若执行第二种权重计算方案,则文本表示矩阵为:其中,mij表示第j个基词第i篇文档的权重,xij表示第j个基词在第i篇文档中的出现次数;一种介质,该介质内部存储计算机程序,其所述计算机程序被处理器读取时,执行上述任一项的方法。一种基于容错粗糙集的词袋模型文本表示系统,其包括:预处理模块:用于计算机获取语料库,并对语料库进行去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作;语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;不确定性函数矩阵构建模块:计算机获取每个基词的不确定性函数即容错类,构建不确定性函数矩阵;模糊隶属矩阵构建模块:计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;上、下近似矩阵构建模块:计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,上、下近似矩阵;语料库的文本表示矩阵构建模块:计算机基于两种权重计算方案,构建语料库的文本表示矩阵。权重计算方案为:(1)直接将模糊隶属度作为基词的权重;(2)对于在文档中出现的基词,将其模糊隶属度与在文档中出现次数的乘积作为权重;对于属于文档的上近似但不在文档中出现的基词,将其模糊隶属度作为权重;对于不属于文档上近似的基词,取权重为0。本专利技术的优点及有益效果如下:文本表示算法是自然语言处理的基础,针对不同的侧重点,学者提出了许多特征选择算法、权重计算算法和维度约简算法,其大多是基于统计的。传统的词袋模型算法是基于词语在文档中的出现次数,具有简单高效的特点。考虑到文本所具有的不确定性,本专利技术从一个新的角度即文本的不确定性,结合传统的词袋模型,并改进了词袋模型具有的稀疏性和缺乏语义关联的缺点。本专利技术通过对基词容错类的计算,根据基词基于文档的模糊隶属度,构建了文档的上近似和下近似。上近似表达了文档的扩展语义,下近似体现了文档的核心语义。通过文档的上、下近似,能够挖掘出文档表面上未体现的深层含义。同时,改善了传统词袋模型对于文档表示向量的稀疏性。本专利技术针对自然语言处理领域文本表示问题,提出了基于容错粗糙集的词袋模型文本表示方法,其创新点在于通过上近似对文档进行语义扩展,挖掘出了没在文档中出现但文档表达出意思的词语,对于这些词语在文档表示向量中也分配了一定的权重,更好地挖掘文档的潜在语义,也通过下近似更好地体现文档的核心语义。附图说明图1是本专利技术提供优选实施例一种基于容错粗糙集的词袋模型文本方法流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术解决上述技术问题的技术本文档来自技高网...

【技术保护点】
1.一种基于容错粗糙集的词袋模型文本表示方法,用于计算机自然语言处理,其特征在于,包括以下步骤:/n101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作;/n102、计算机对预处理后的语料库确定基词集合;/n103、计算机获取每个基词的不确定性函数即容错类,构建不确定性函数矩阵;/n104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;/n105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;/n106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵;/n两种权重计算方案为:/n(1)直接将模糊隶属度作为基词的权重;/n(2)对于在文档中出现的基词,将其模糊隶属度与在文档中出现次数的乘积作为权重;对于属于文档的上近似但不在文档中出现的基词,将其模糊隶属度作为权重;对于不属于文档上近似的基词,取权重为0。/n

【技术特征摘要】
1.一种基于容错粗糙集的词袋模型文本表示方法,用于计算机自然语言处理,其特征在于,包括以下步骤:
101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写和过滤停用词在内的预处理操作;
102、计算机对预处理后的语料库确定基词集合;
103、计算机获取每个基词的不确定性函数即容错类,构建不确定性函数矩阵;
104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;
105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;
106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵;
两种权重计算方案为:
(1)直接将模糊隶属度作为基词的权重;
(2)对于在文档中出现的基词,将其模糊隶属度与在文档中出现次数的乘积作为权重;对于属于文档的上近似但不在文档中出现的基词,将其模糊隶属度作为权重;对于不属于文档上近似的基词,取权重为0。


2.根据权利要求1所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号和数字;
3)将词语中的大写转换为小写;
4)从sklearn和nltk工具包中下载停用词表,进行过滤停用词操作。


3.根据权利要求1或2所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤102确定语料库的基词集合,主要操作如下:
1)计算语料库中出现的所有词语的数量;
2)选择频率最高的l个词语作为基词,基词集合为W={w1,w2,...,wn},其中n表示基词的数量,wn表示基词中的第n个词语。


4.根据权利要求3所述的基于容错粗糙集的词袋模型文本表示方法,其特征在于,所述步骤103构建不确定性函数矩阵,包括步骤:
1)将每篇文档用向量表示di=[woi1,woi2,...,woin],其中di表示第i篇文档,woij表示第i篇文档中是否出现第j个词语;



2)计算每个基词的不确定性函数
Iθ(wi)=[A(ci1)A(ci2)…A(cin)],
其中A(cij)表示词语j是否属于词语i的容错类,



3)获得不确定性矩阵:





5.根据权利要求4所述的基于容错...

【专利技术属性】
技术研发人员:邱东江海欢闫睿腾
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1