一种基于神经网络和模糊推理的中文分词方法、系统及介质技术方案

技术编号:23149931 阅读:33 留言:0更新日期:2020-01-18 13:47
本发明专利技术请求保护一种基于神经网络和模糊推理的中文分词方法、系统及介质,包括:101对语料库进行预处理操作;102训练中文词向量;103建立BP神经网络学习模型,进行初步数据预测;104将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;105基于模糊词关系表示,采用模糊推理计算是否需要分词;106通过建立BP‑模糊推理‑交叉验证模型,对输入的语句进行分词预测。本发明专利技术主要是通过公开语料库,建立机器学习模型,再对模糊词进行模糊推理计算,从而能够对输入的文本语句进行分词预测,切实结合当下的技术发展需求。

A Chinese word segmentation method, system and medium based on neural network and fuzzy reasoning

【技术实现步骤摘要】
一种基于神经网络和模糊推理的中文分词方法、系统及介质
本专利技术属于机器学习、神经网络、人工智能
,自然语言处理领域,尤其是自然语言处理领域的中文分词方法。
技术介绍
当今社会计算机的应用日益广泛,己经渗透到各种传统行业;实现人与计算机之间高效和准确的信息交互,是当前计算机工作者的重要任务。据统计,在信息领域中80%以上的信息是以语言文字为载体的。这些语言信息的自动输入和输出、校对、分类和文摘、信息的检索和提取、语言翻译等技术都是国民经济信息化的重要基础。自然语言处理是一门语言学和计算机科学的交叉学科,着重处理人类语言的可计算的特性。它属于认知科学,并和人工智能的一些领域有一些交迭。现在的计算机不懂人类的语言,而人在理解计算机的语言方面也有困难,因为计算机的语言并不符合人的思考方式。近年来,自动分词己经引起多方面的关注,成为中文信息处理的一个前沿课题。中文自动分词研究是中文信息处理技术的基础工程,具有以下重要意义:(1)自动分词是语言学研究和中文信息处理应用进行资源共享的必要手段;(2)自动分词是对汉语进行定量分析的基础;(3)词是语法功能的载体,自动分词是句法分析的基础;(4)词是语义功能的载体,自动分词是语义研究的基础;(5)―以词定字”和―以词定音”等方法是进行文本校对、简繁转换、语音合成等的主要手段。中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉及到分词问题,如机器翻译、中文文献、自动文摘、自动分类、中文文献库。,现有的中文分词可以运用BP神经网络实现中文分词,但是精确度不够高,BP神经网络结合模糊推理来实现提高对中文分词的精确度,是模糊数学领域在NLP(自然语言处理)的一次创新的结合。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种训练速度快,计算量小,预测速度快、提高精度的基于神经网络和模糊推理的中文分词方法。本专利技术的技术方案如下:一种基于神经网络和模糊推理的中文分词方法,用于计算机自然语言处理,其包括以下步骤:101、计算机对语料库进行包括划分训练数据集、验证数据集、整理语料库格式、读取测试数据集、验证数据集在内的预处理操作;102、计算机读取语料库中的训练集和测试集,并训练文本语料库(icwb2-data)得到中文词向量,将训练集和验证集中所有的中文词都转换为词向量;103、计算机建立BP反向传播神经网络学习模型,将步骤102训练之后得到的学习结果对未分词的语句进行初步分词预测,得到模糊词组;104、计算机将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;105、计算机基于模糊词关系表示,采用模糊推理计算是否需要分词;106、通过建立BP-模糊推理-交叉验证模型,计算机对输入的语句进行分词预测。进一步的,所述步骤101对语料库进行预处理操作,主要操作如下:1)将icwb2-data语料库中,pku_training.txt作为训练集,pku_test.txt作为验证集2)整理训练集、验证集的数据格式,设置标签0(不需要分词),1(需要分词),即逢1进行分词,由0和最近的1所代表的字组合成一个词语按照字为单位,如果需要分割,则设置为1,不需要分割,设置为0。(例:今天天气不错–>[010101])。3)将训练集以及验证集的数据,按照2)的数据格式,计算机读取到内存中。进一步的,所述步骤102读取语料库中的训练集和测试集,并训练语料库(测试集、验证集)得到中文词向量,具体包括:对icwb2-data语料库训练集以及测试集所有语料进行读取,并训练词向量,具体操作如下:1)使用gensim工具包的word2vec,训练步骤2中读取到的中词组,得到中文词向量库。2)将训练集、验证集转换为中文词向量组成的矩阵,每一列代表一个中文词向量。进一步的,所述步骤103建立BP神经网络学习模型,进行初步数据预测,包括步骤:1)将训练集中每个中文词作为一种分词方案;2)按照语句长度,设置标签0(不需要分词),1(需要分词),即逢1进行分词,由0和最近的1所代表的字组合成一个词语;3)缺失值填充:将语料库最长的语句作为标准长度,长度不够的句子,右侧填充全0的词向量;4)待BP网络训练结束后,读取测试语料,输入模型,得到初步分词结果。5、根据权利要求4所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤104将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系,具体包括:1)经由BP网络初步预测的结果,输出值大于0.7为1,小于0.3为0,在0.3~0.7之间的,使用《知网HowNet》计算两词之间的关系。2)《知网HowNet》义原之间的关系上下位:H;对义:C;反义:A;相关:#;部件:%;属于:&;宾语:$;主语:*;隐性:+;很可能的:~;时空:@;材料:?;典型属性:!;表示否定:^;3)输入:概念1:ID1,DEF1;概念2:ID2,DEF2;关联度r=0;首义原关联度权重mR=0;非首义原关联度权重oR=0;4)如果两词DEF1=DEF2则GOTO(5)5)处理两词首义原:如果mS1(概念1首义原)和mS2(概念2首义原),如果相同则mR=1;如果不同,考查mS1和mS2是否相关,如相关,关联符号mark;IFmark='A'||mark=='^'THENmR=1;IFmark=='H'||mark=='#'||mark=='~'||mark=='!'THENmR=0.6;ELSEmR=0.2;如mS1和mS2无关,mR=0;6)处理非首义原:考查非首义原的关系,参数ol=1/义原总数;Result1中任意非首义原S1和Result2中任意非首义原S2,如果相同,oR+=ol;如果不相同但是具有某种关系:IFmark='A'||mark=='^'THENoR+=ol;IFmark=='H'||mark=='#'||mark=='~'||mark=='!'THENoR+=ol*0.6;ELSEoR+=ol*0.2;如果oR>1,oR-=ol;7)r=0.5*mR+0.5*oR;mR(首义原关联度权重)、oR(非首义原关联度权重)8)改变哈希表中ID1和ID2的关系序列,添加关联度r,ID1(知网中词语1的编号)和ID2(知网中词语2的编号)。进一步的,所述步骤105基于模糊词关系表示,建立BP-模糊推理-交叉验证模型,采用模糊推理计算是否需要分词,具体步骤如下:1)定义:初始化r=0;r1r2分别表示本文档来自技高网
...

【技术保护点】
1.一种基于神经网络和模糊推理的中文分词方法,用于计算机自然语言处理,其特征在于,包括以下步骤:/n101、计算机对语料库进行包括划分训练数据集、验证数据集、整理语料库格式、读取测试数据集、验证数据集在内的预处理操作;/n102、计算机读取语料库中的训练集和测试集,并训练文本语料库(icwb2-data)得到中文词向量,将训练集和验证集中所有的中文词都转换为词向量;/n103、计算机建立BP反向传播神经网络学习模型,将步骤102训练之后得到的学习结果对未分词的语句进行初步分词预测,得到模糊词组;/n104、计算机将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;/n105、计算机基于模糊词关系表示,采用模糊推理计算是否需要分词;/n106、通过建立BP-模糊推理-交叉验证模型,计算机对输入的语句进行分词预测。/n

【技术特征摘要】
1.一种基于神经网络和模糊推理的中文分词方法,用于计算机自然语言处理,其特征在于,包括以下步骤:
101、计算机对语料库进行包括划分训练数据集、验证数据集、整理语料库格式、读取测试数据集、验证数据集在内的预处理操作;
102、计算机读取语料库中的训练集和测试集,并训练文本语料库(icwb2-data)得到中文词向量,将训练集和验证集中所有的中文词都转换为词向量;
103、计算机建立BP反向传播神经网络学习模型,将步骤102训练之后得到的学习结果对未分词的语句进行初步分词预测,得到模糊词组;
104、计算机将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;
105、计算机基于模糊词关系表示,采用模糊推理计算是否需要分词;
106、通过建立BP-模糊推理-交叉验证模型,计算机对输入的语句进行分词预测。


2.根据权利要求1所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤101对语料库进行预处理操作,主要操作如下:
1)将icwb2-data语料库中,pku_training.txt作为训练集,pku_test.txt作为验证集
2)整理训练集、验证集的数据格式,设置标签0(不需要分词),1(需要分词),即逢1进行分词,由0和最近的1所代表的字组合成一个词语按照字为单位,如果需要分割,则设置为1,不需要分割,设置为0。(例:今天天气不错–>[010101])。
3)将训练集以及验证集的数据,按照2)的数据格式,计算机读取到内存中。


3.根据权利要求2所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤102读取语料库中的训练集和测试集,并训练语料库(测试集、验证集)得到中文词向量,具体包括:
对icwb2-data语料库训练集以及测试集所有语料进行读取,并训练词向量,具体操作如下:
1)使用gensim工具包的word2vec,训练步骤2中读取到的中词组,得到中文词向量库。
2)将训练集、验证集转换为中文词向量组成的矩阵,每一列代表一个中文词向量。


4.根据权利要求3所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤103建立BP神经网络学习模型,进行初步数据预测,包括步骤:
1)将训练集中每个中文词作为一种分词方案;
2)按照语句长度,设置标签0(不需要分词),1(需要分词),即逢1进行分词,由0和最近的1所代表的字组合成一个词语;
3)缺失值填充:将语料库最长的语句作为标准长度,长度不够的句子,右侧填充全0的词向量;
4)待BP网络训练结束后,读取测试语料,输入模型,得到初步分词结果。


5.根据权利要求4所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤104将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系,具体包括:
1)经由BP网络初步预测的结果,输出值大于0.7为1,小于0.3为0,在0.3~0.7之间的,使用《知网HowNet》计算两词之间的关系。
2)《知网HowNet》义原之间的关系
上下位:H;
对义:C;
反义:A;
相关:#;
部件:%;
属于:&;
宾语:$;
主语:*;
隐性:+;
很可能的:~;
时空:@;
材料:?;
典型属性:!;
表示否定:^;
3)输入:
概念1:ID1,DEF1;
概念2:ID2,DEF2;
关联度r=0;
首义原关联度权重mR=0;
非首义原关联度权重oR=0;
4)如果两词DE...

【专利技术属性】
技术研发人员:邱东闫睿腾
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1