【技术实现步骤摘要】
一种基于神经网络和模糊推理的中文分词方法、系统及介质
本专利技术属于机器学习、神经网络、人工智能
,自然语言处理领域,尤其是自然语言处理领域的中文分词方法。
技术介绍
当今社会计算机的应用日益广泛,己经渗透到各种传统行业;实现人与计算机之间高效和准确的信息交互,是当前计算机工作者的重要任务。据统计,在信息领域中80%以上的信息是以语言文字为载体的。这些语言信息的自动输入和输出、校对、分类和文摘、信息的检索和提取、语言翻译等技术都是国民经济信息化的重要基础。自然语言处理是一门语言学和计算机科学的交叉学科,着重处理人类语言的可计算的特性。它属于认知科学,并和人工智能的一些领域有一些交迭。现在的计算机不懂人类的语言,而人在理解计算机的语言方面也有困难,因为计算机的语言并不符合人的思考方式。近年来,自动分词己经引起多方面的关注,成为中文信息处理的一个前沿课题。中文自动分词研究是中文信息处理技术的基础工程,具有以下重要意义:(1)自动分词是语言学研究和中文信息处理应用进行资源共享的必要手段;(2)自动分词是对汉语进行定量分析的基础;(3)词是语法功能的载体,自动分词是句法分析的基础;(4)词是语义功能的载体,自动分词是语义研究的基础;(5)―以词定字”和―以词定音”等方法是进行文本校对、简繁转换、语音合成等的主要手段。中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉及到分词问题,如机器翻译、中文文献、自动文摘、自动分类、中文文献库。,现有的中文分词可以运用BP神经网络实现中文分 ...
【技术保护点】
1.一种基于神经网络和模糊推理的中文分词方法,用于计算机自然语言处理,其特征在于,包括以下步骤:/n101、计算机对语料库进行包括划分训练数据集、验证数据集、整理语料库格式、读取测试数据集、验证数据集在内的预处理操作;/n102、计算机读取语料库中的训练集和测试集,并训练文本语料库(icwb2-data)得到中文词向量,将训练集和验证集中所有的中文词都转换为词向量;/n103、计算机建立BP反向传播神经网络学习模型,将步骤102训练之后得到的学习结果对未分词的语句进行初步分词预测,得到模糊词组;/n104、计算机将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;/n105、计算机基于模糊词关系表示,采用模糊推理计算是否需要分词;/n106、通过建立BP-模糊推理-交叉验证模型,计算机对输入的语句进行分词预测。/n
【技术特征摘要】
1.一种基于神经网络和模糊推理的中文分词方法,用于计算机自然语言处理,其特征在于,包括以下步骤:
101、计算机对语料库进行包括划分训练数据集、验证数据集、整理语料库格式、读取测试数据集、验证数据集在内的预处理操作;
102、计算机读取语料库中的训练集和测试集,并训练文本语料库(icwb2-data)得到中文词向量,将训练集和验证集中所有的中文词都转换为词向量;
103、计算机建立BP反向传播神经网络学习模型,将步骤102训练之后得到的学习结果对未分词的语句进行初步分词预测,得到模糊词组;
104、计算机将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;
105、计算机基于模糊词关系表示,采用模糊推理计算是否需要分词;
106、通过建立BP-模糊推理-交叉验证模型,计算机对输入的语句进行分词预测。
2.根据权利要求1所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤101对语料库进行预处理操作,主要操作如下:
1)将icwb2-data语料库中,pku_training.txt作为训练集,pku_test.txt作为验证集
2)整理训练集、验证集的数据格式,设置标签0(不需要分词),1(需要分词),即逢1进行分词,由0和最近的1所代表的字组合成一个词语按照字为单位,如果需要分割,则设置为1,不需要分割,设置为0。(例:今天天气不错–>[010101])。
3)将训练集以及验证集的数据,按照2)的数据格式,计算机读取到内存中。
3.根据权利要求2所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤102读取语料库中的训练集和测试集,并训练语料库(测试集、验证集)得到中文词向量,具体包括:
对icwb2-data语料库训练集以及测试集所有语料进行读取,并训练词向量,具体操作如下:
1)使用gensim工具包的word2vec,训练步骤2中读取到的中词组,得到中文词向量库。
2)将训练集、验证集转换为中文词向量组成的矩阵,每一列代表一个中文词向量。
4.根据权利要求3所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤103建立BP神经网络学习模型,进行初步数据预测,包括步骤:
1)将训练集中每个中文词作为一种分词方案;
2)按照语句长度,设置标签0(不需要分词),1(需要分词),即逢1进行分词,由0和最近的1所代表的字组合成一个词语;
3)缺失值填充:将语料库最长的语句作为标准长度,长度不够的句子,右侧填充全0的词向量;
4)待BP网络训练结束后,读取测试语料,输入模型,得到初步分词结果。
5.根据权利要求4所述的一种基于神经网络和模糊推理的中文分词方法,其特征在于,所述步骤104将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系,具体包括:
1)经由BP网络初步预测的结果,输出值大于0.7为1,小于0.3为0,在0.3~0.7之间的,使用《知网HowNet》计算两词之间的关系。
2)《知网HowNet》义原之间的关系
上下位:H;
对义:C;
反义:A;
相关:#;
部件:%;
属于:&;
宾语:$;
主语:*;
隐性:+;
很可能的:~;
时空:@;
材料:?;
典型属性:!;
表示否定:^;
3)输入:
概念1:ID1,DEF1;
概念2:ID2,DEF2;
关联度r=0;
首义原关联度权重mR=0;
非首义原关联度权重oR=0;
4)如果两词DE...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。