当前位置: 首页 > 专利查询>云南大学专利>正文

一种求解中文分词中新词的遗传模拟退火方法技术

技术编号:13298255 阅读:112 留言:0更新日期:2016-07-09 16:18
本发明专利技术公开了一种求解中文分词中新词的遗传模拟退火方法,首先采用爬虫程序,对互联网信息进行了采集和智能搜索,完成数据准备;然后采用专有词库,对采集到的数据进行中文分词,即发现舆情;利用遗传算法的并行操作和全局收敛性的特性,结合模拟退火算法的局部收敛性,提出了遗传模拟退火算法,并针对舆情监测系统进行相关设计应用。本发明专利技术解决了中文信息处理领域中自动分词问题;针对随着社会和互联网发展不断出现的新词,组合遗传算法和模拟退火算法的求解策略,提高了分词的准确率,有效地解决了自动分词结果中出现的散串及分词错误问题,为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。

【技术实现步骤摘要】

本专利技术属于中文查阅和检索
,尤其涉及一种求解中文分词中新词的遗传模拟退火方法
技术介绍
随着我国综合国力的提高,中文在世界舞台中占据越来越重要的地位,同时伴随着互联网技术的发展中文信息也越来越多,中文查阅和检索技术也得到了很大的发展,而如何在浩瀚如海的中文信息世界里找寻到自己所需要的信息和资料成为一个越来越重要课题。在当今信息大爆炸的时代,要处理迅猛增长的海量信息,仅仅依靠人工已经变得不太现实。因此,出现了中文自动分词技术,中文自动分词是自然语言处理(NLP)的基础,是汉语分析的第一道工序。在自然语言处理技术中,西文处理技术的成熟程度远远超过中文处理技术,许多西文中的优秀处理方法中文都不能直接采用,这是由中文特殊的语料特性决定的,因此中文必需有分词这道工序才可以与世界接轨。中文自动分词的准确性和高效性能够保证汉语分析的准确性和高效性,而汉语分析的准确性和高效性不仅能帮助人们检索、分析和管理信息,而且可以解决当今社会信息丰富而知识贫乏的现状。当前中文自动分词已经拥有了很多成熟的分词系统,但是大多数分词系统都是基于词典分词。词典的优点是不言而喻的,但是同样的词典的缺点也是很明显的,例如:词典不能对新发现的词语进行处理,而每时每刻都会出现大量的新词语例如网络词语,专有词语等不存在于词典中的词语,这些词语统称为新词,如果依靠人工来处理,则工作量是不可估量的。但是又为了保证这种情况下中文自动分词的准确性,急切的需要一种可以专门来处理这些新词的方法和策略,基于这个背景,对于新词识别的研究已经变得迫不及待。中文文献检索技术从提出到发展至今,经过了很漫长的过程。1974年首次被提出,直到20世纪80年代才取得飞速的发展,到90年代又出现了新的基于中文检索的领域即情报检索,而情报检索的出现正是中文检索高速发展的催化剂。2001年百度的成立使中文检索达到了前所未有的高度,更是为当今的四大门户网站的产生和发展打下了坚实的基础。可以说从70年代开始到现在中文检索取得了前所未有的成就。中文自动分词直观来讲就是借助计算机自动处理给中文断句,使其能够正确的表达所要表达的意思。中文不同于西文,中文中没有空格作为分隔符,同时在文章中又存在大量的近义词和同义词等。因此,如何给中文自动分词、断句将是一个非常复杂和繁琐的问题,就算人工操作也经常会免不了出现各种各样的问题。当前分词系统中分词的算法灵活性较差,具有极强的领域性。
技术实现思路
本专利技术的目的在于提供一种求解中文分词中新词的遗传模拟退火方法,旨在解决当前分词系统中分词的算法灵活性较差,具有极强的领域性的问题。解决当前新词不断出现,自动分词结果中易出现“散串”及准确率不高的问题。本专利技术是这样实现的,一种求解中文分词中新词的遗传模拟退火方法,所述求解中文分词中新词的遗传模拟退火方法利用遗传算法的并行操作和全局收敛性的特性,结合模拟退火算法的局部收敛性,提出了遗传模拟退火算法,包括相关编码及生存策略、动态交叉和变异因子、多次升温及记忆函数控制策略,并针对舆情监测系统进行相关设计应用。进一步,所述求解中文分词中新词的遗传模拟退火方法具体包括以下步骤:步骤一,初始化编码串,利用随机数据补全剩余位数,生成新的字串,设置代数计数器k=0;设置最大进化代数MaxGeneration=100,根据以上定义的编码方式,将全部汉子进行编码;步骤二,设置参数:交叉概率C为0.6,交叉方式为单点交叉;变异概率B为0.001执行交叉变异,交叉率系数β,变异率系数γ,初始温度To和终止温度Te,降温系数α,升温次数L,初始化升温控制参数l=0,迭代次数k=0;步骤三,评价函数:根据个体适应度函数计算种群中每个个体的适应度f(i);步骤四,选择操作:将选择算子作用于种群,从种群中选出任意两个个体作为一个对父代,形成P/2组父代;步骤五,交叉操作:利用交叉率和交叉率系数对每一对个体交换部分染色体;步骤六,变异操作:根据变异率和变异率系数随机的改变父代中基因位的基因值;步骤七,生成新的种群:经过选择、交叉、变异生成了新的子代,计算子代中每个个体的适应度,根据Metropolis准则进行筛选最优解,形成新种群;步骤八,临时最优解处理:多次降温操作种群中个体是否发生变化,如果没有发生变化则将未发生变化的个体添加至临时最优解空间中;步骤九,降温控制:利用降温策略修改初始温度T=T*α;判断T是否大于Te,否则执行步骤十一;步骤十,终止条件判断:①l=L时候;②当种群中全部的适应度都大于0.6,并且连续标识为“1”的数量在区间(3,6)时跳出循环;跳转至步骤十二;步骤十一:多次升温操作:进行升温操作,l=l+1,初始温度T=To,跳转至步骤二;步骤十二:输出优化结果;步骤十三:将结果同临时最优解空间中的临时最优解进行比较,选择适应度高的解添加到新种群中;步骤十四:结束编译;生成的最优解结果;步骤十五:反编译:根据原始字串的长度,截取前11位,输出结果。进一步,所述遗传模拟退火的算法是用退火温度T作为控制函数,首先执行遗传操作,并产生新种群,然后针对新种群利用模拟退后算法中的Metropolis准则与原种群比较并取舍,然后直到T等于最低控制温度,采用了多次升温的策略使最终解更加准确,最终形成全局最优解;流程图的具体如下:1、输入系统原始数据并且进行编码;2、随机产生一定数量的个体生成满足约束条件的初始种群;3、初始化参数,设置控制参数和过程参数值,控制参数包括初始温度T0、终止温度Te、降温系数α和总升温次数L、种群遗传迭代次数N、遗传迭代中交叉率C、遗传迭代中变异率B、变化参数β、δ,交叉率和变异率根据当前执行的时期进行动态变化;令升温次数累计参数l=0,循环操作次数累计参数k=0;4、设定循环控制温度初值T=T0;5、是否满足终止条件,是则跳转转19;6、开始while循环函数,判定函数T>Te是则继续,否则跳转17;7、判定l是否大于等于L,是则跳转19;8、计算每一个个体的适应度;9、执行选择运算产生新种群,随机从种群中选取个体进行操作;10、对新种群执行交叉运算,利用交叉率来随机控制种群个体之间的交叉基因,交叉概率的变化为C=C×β;11、对新种群执行变异运算,根据变异率控制基因的变异,变异率的值设置的比较小,将算法分为搜索前期、中期和后期,其本文档来自技高网
...

【技术保护点】
一种求解中文分词中新词的遗传模拟退火方法,其特征在于,所述求解中文分词中新词的遗传模拟退火方法首先采用爬虫程序,对互联网信息进行了采集和智能搜索,完成数据准备;然后采用专有词库,对采集到的数据进行中文分词,即发现舆情;利用遗传算法的并行操作和全局收敛性的特性,结合模拟退火算法的局部收敛性,提出了遗传模拟退火算法,包括相关编码及生存策略、动态交叉和变异因子、多次升温及记忆函数控制策略,并针对舆情监测系统进行相关设计应用。

【技术特征摘要】
1.一种求解中文分词中新词的遗传模拟退火方法,其特征在于,所述求解
中文分词中新词的遗传模拟退火方法首先采用爬虫程序,对互联网信息进行了
采集和智能搜索,完成数据准备;然后采用专有词库,对采集到的数据进行中
文分词,即发现舆情;利用遗传算法的并行操作和全局收敛性的特性,结合模
拟退火算法的局部收敛性,提出了遗传模拟退火算法,包括相关编码及生存策
略、动态交叉和变异因子、多次升温及记忆函数控制策略,并针对舆情监测系
统进行相关设计应用。
2.如权利要求1所述的求解中文分词中新词的遗传模拟退火方法,其特征
在于,所述求解中文分词中新词的遗传模拟退火方法具体包括以下步骤:
步骤一,初始化编码串,利用随机数据补全剩余位数,生成新的字串,设
置代数计数器k=0;设置最大进化代数MaxGeneration=100,根据以上定义的编
码方式,将全部汉子进行编码;
步骤二,设置参数:交叉概率C为0.6,交叉方式为单点交叉;变异概率B
为0.001执行交叉变异,交叉率系数β,变异率系数γ,初始温度To和终止温
度Te,降温系数α,升温次数L,初始化升温控制参数l=0,迭代次数k=0;
步骤三,评价函数:根据个体适应度函数计算种群中每个个体的适应度f(i);
步骤四,选择操作:将选择算子作用于种群,从种群中选出任意两个个体
作为一个对父代,形成P/2组父代;
步骤五,交叉操作:利用交叉率和交叉率系数对每一对个体交换部分染色
体;
步骤六,变异操作:根据变异率和变异率系数随机的改变父代中基因位的
基因值;
步骤七,生成新的种群:经过选择、交叉、变异生成了新的子代,计算子
代中每个个体的适应度,根据Metropolis准则进行筛选最优解,形成新种群;
步骤八,临时最优解处理:多次降温操作种群中个体是否发生变化,如果
没有发生变化则将未发生变化的个体添加至临时最优解空间中;
步骤九,降温控制:利用降温策略修改初始温度T=T*α;判断T是否大于
Te,否则执行步骤十一;
步骤十,终止条件判断:①l=L时候;②当种群中全部的适应度都大于0.6,
并且连续标识为“1”的数量在区间(3,6)时跳出循环;跳转至步骤十二;
步骤十一:多次升温操作:进行升温操作,l=l+1,初始温度T=To,跳转至
步骤二;
步骤十二:输出优化结果;
步骤十三:将结果同临时最优解空间中的临时最优解进行比较,选择适应
度高的解添加到新种群中;
步骤十四:结束编译;生成的最优解结果;
步骤十五:反编译:根据原始字串的长度,截取前11位,输出结果。
3.如权利要求1所述的求解中文分词中新词的遗传模拟退火方法,其特征
在于,所述遗传模拟退火的算法是用退火温度T作为控制函数,首先执行遗传
操作,并产生新种群,然后针对新种群利用模拟退后算法中的Metropolis准则与
原种群比较并取舍,然后直到T等于最低控制温度,采用多次升温的策略使最
终解更加准确,最终形成全局最优解。
4.如权利要求1所述的求解中文分词中新词的遗传模拟退火方法,其特征
在于,所述遗传模拟退火的算法具体包括:
步骤一,输入系统原始数据并且进行编码;
步骤二,随机产生一定数量的个体生成满足约束条件的初始种群;
步骤三,初始化参数,设置控制参数和过程参数值,控制参数包括初始温
度T0、终止温度Te、降温系数α和总升温次数L、种群遗传迭代次数N、遗传迭
代中交叉率C、遗传迭代中变异率B、变化参数β、δ,交叉率和变异率根据当
前执行的时期进行动态变化;令升温次数累计参数l=0,循环操作次数累计参数
k=0;
步骤四,设定循环控制温度初值T=T0;
步骤五,是否满足终止条件,是则跳转转步骤十九;
步骤六,开始while循环函数,判定函数T>Te是则继续,否则跳转步骤十
七;
步骤七,判定l是否大于等于L,是则跳转步骤十九;
步骤八,计算每一个个体的适应度;
步骤九,执行选择运算产生新种群,随机从种群中选取个体进行操作;
步骤十,对新种群执行交叉运算,利用交叉率来随机控制种群个体之间的
交叉基因,交叉概率的变化为C=C×β;
步骤十一,对新种群执行变异运算,根据变异率控制基因的变异,变异率
的值设置的比较小,将算法分为搜索前期、中期和后期,其中变异率的变化为
B=B×δ;
步骤十二,计算新种群中每个个体的适应度;
步骤十三,根据Metropolis准则进行取舍父代和子代的存在性,并组成较优
新种群,完成该次循环;
步骤十四,对得到的新种群中的个体进行更新判断,即如果经过多次降温
操作该个体没有任何变化,则执行终止函数,将该个体添加到记忆最优解空间
中;
步骤十五,令k=k+1;并降低控制温度T=T×α;
步骤十六,判断T值是否达到终止温度Te即重新进入while循环判断T=Te,
否则转步骤五;
步骤十七,修正升温次数,l=l+1,进入到多次升温操作剔除局部最优解,
使算法向全局最优解靠近;
步骤十八,判断升温次数是否达到极限值L,若是,则...

【专利技术属性】
技术研发人员:康雁
申请(专利权)人:云南大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1