当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于启发式算法的模糊英文长句分词方法技术

技术编号:15690850 阅读:119 留言:0更新日期:2017-06-24 03:34
本发明专利技术公开了一种基于启发式算法的模糊英文长句分词方法,采用启发式算法中的模拟退火算法来处理模糊英文长句分词问题,以解决机器识别声音时,只能根据声音的停顿来区分单词无法对连读进行分词问题。基于启发式算法的模糊英文长句分词方法中将原模糊英文长句通过01编码,进行问题的抽象。通过模拟退火算法对解空间的搜索、计算评价函数值、判定是否接受当前解和退火降温一系列步骤的多次迭代,从而获得较好的分词效果,并根据本方法中所提出的可阅读性判定函数为依据,表明基于启发式算法的分词方法在解决模糊英文长句分词问题时具有较好的效果。

A fuzzy English long sentence segmentation method based on heuristic algorithm

The present invention discloses a kind of fuzzy English sentence segmentation method based on heuristic algorithm, the simulated annealing algorithm in heuristic algorithm to deal with fuzzy English sentence segmentation problem, to solve the machine recognition voice, only according to the voice of the pause to distinguish words cannot even read word problems. A fuzzy English long sentence segmentation method based on heuristic algorithm is used to abstract the original fuzzy long sentences in English through 01 encoding. The simulated annealing algorithm to search the solution space, calculated to determine whether to accept the current solution and annealing multiple iterations of a series of steps of the evaluation function value, and to obtain good segmentation results, and can be read according to the decision function on the basis of the proposed method, segmentation method BenQ heuristic algorithm has better effect on solving the problem of fuzzy English sentence segmentation.

【技术实现步骤摘要】
一种基于启发式算法的模糊英文长句分词方法
本专利技术涉及一种涉及人工智能和自然语言处理的分词技术,尤其是一种基于启发式算法的模糊英文长句分词方法。
技术介绍
在当今的信息社会中,人工智能和自然语言处理相关的研究和技术飞速发展,应用的范围也越来越广,本专利技术是考虑到一些特定的场景,例如,一般会议的记录都是人工记录,同时辅助以录音进行整理,对于会议报道和记录人员来说就不得不将大量的时间花费在整理会议相关发言上。如果采用更加智能的方法来代替人工,对会议发言进行整理,就需要让机器能够识别出一段口语中是如何进行分词的。自然语言处理中,分词主要面向的是类似汉语这样的象形文字,这些文字在组成句子时没有语法上的分割;对于类似于英语这样的拼音文字,通常不存在分词的问题。但是一旦遇到上述问题,往往解决的方法比较少。
技术实现思路
技术问题:本专利技术提供一种应对英文文本单词之间间隙不清或者难以识别的情况,减少了整理和编写语料库的复杂工作的基于启发式算法的模糊英文长句分词方法。技术方案:本专利技术的基于启发式算法的模糊英文长句分词方法,在某些特定的情况下,英文长句词与词之间的间隙不明显,需要进行长句分词,减少阅读的障碍。模糊英文长句分词方法是典型的NP-hard问题,适用于采用启发式算法来进行分词操作。使用启发式算法进行模糊英文长句分词之后,可阅读性得到显著提高。所述的基于启发式算法的模糊英文长句分词方法,所述的英文长句词与词之间的间隙不明显的特定情况包括:通过机器识别声音时,只能根据声音的停顿来区分单词,对于连词无法进行分词。本专利技术的基于启发式算法的模糊英文长句分词方法,包括以下步骤:1)对待分词的英文长句进行编码,编码后的文本作为启发式算法的输入;2)通过启发式算法对编码后的文本进行迭代计算,获得使得评价函数值达到最优的解;3)对所述步骤2)中启发式算法得出的解,恢复出新分词结果后的英文长句,并对恢复出的英文长句进行可阅读性计算。进一步的,本专利技术方法中,步骤1)中的对待分词的英文长句进行编码的具体方式为:采用对每个单词字符进行01编码的方式进行问题的抽象,‘0’表示该句子在当前位置没有进行分词,‘1’表示该句子在当前位置进行分词,通过这样的方法将原英文长句编码为01文本。进一步的,本专利技术方法中,步骤2)中的启发式算法采用模拟退火算法。进一步的,本专利技术方法中,模拟退火算法包括以下步骤:(1)解空间的搜索:使用模拟退火算法的非确定性搜索,随机扰动‘0’和‘1’,即以随机的概率将‘0’变为‘1’或者将‘1’变为‘0’,这种扰动是与当前的温度成正比,每次迭代的过程中,随着温度的降低,扰动的边界会逐渐缩小;(2)评价函数的设计:用分词结果的分词得分和分块得分的和作为评价函数,所述分词得分是指对分词结果中每个唯一的词算分的结果;所述分块得分是指每个分块中包含单词的数量;(3)接受准则:若当前解小于原始解,则接受当前解并进入下一次的迭代;若当前解大于原始解则以的概率接受当前解,T表示这次迭代的温度;(4)退火方式:用作为收敛函数,其中T0表示初始温度,t表示当前温度。本专利技术方法对恢复后的英文长句进行可阅读性计算,通过每个分块中包含单词数量与错误单词数量的加权和来进行衡量,以判断经过启发式算法之后的分词结果与完全正确的分词结果之间的吻合程度。引入可阅读性计算的目的是判断,经过启发式算法分词得出的结果与完全正确的分词结果之间的吻合度。非人工的分词方法目前还不能达到完全正确的结果。通过可阅读性计算,可以判断某一分词方式与完全正确的分词结果之间的相似程度,以判断这一分词方法的好坏程度。进一步的,本专利技术方法中,步骤3)中按照下式计算对恢复出的英文长句的可阅读性进行计算:其中readability为恢复出的英文长句的可阅读性,block_num表示分块的数量,即改英文长句分成多少个单词,word_num表示该英文长句中按完全正确的方式进行分词包含的单词数量,blockvalue表示每一分块的可阅读性,其计算公式为;其中,incorrect_num表示错误字符的数量,即这一个分块中不正确的字母的数量。有益效果:本专利技术与现有技术相比,具有以下优点:本专利技术有两个方面的优势,第一,传统的对于英文的分词研究较少,并且仅能够做到断句和去除停词等基本工作,而本方法实现了英文的分词。第二,传统的分词方法是基于词库和语料库的,比如斯坦福大学提供的分词工具NLTK,而本方法不依赖于任何的前期工作,仅从待分词的文本出发,减少了整理和编写语料库的复杂工作。附图说明图1是本专利技术分词操作的流程图。图2是本专利技术中模拟退火算法的算法应用框架图。图3是本专利技术评价函数模型示意图。具体实施方式下面结合实施例和说明书附图对本专利技术作进一步的说明。请参考图1,其示出了本专利技术进行分词操作的基本流程图。首先,根据输入的模糊英文长句文本,对其进行01编码并且计算当前解的评价函数值。随机扰动编码后文档中‘0’和‘1’的值,获得新的当前解,并计算当前解的评价函数值。将当前解的评价函数值和原解的评价函数值进行对比,如果当前解的评价函数值小于原解,说明当前解的分词效果更优,接纳当前解为最优解;如果当前解的评价函数值大于原解的评价函数值,以的概率接受当前解为最优解。之后判断是否达到每一温度下的迭代次数,如果未达到当前的迭代次数,重新进行解空间的搜索。否则判断是否达到了整个分词的终止条件,即当前的温度已经到达临界温度,则输出当前的最优解即为分词的最优解;否则执行收敛函数,改变温度值重新进行解空间的搜索以获得更优的解。最后通过本方法中的可阅读性度量来判断当前最优解是否能够满足正常人类阅读。请参考图2,其示出了本专利技术模拟退火算法的算法应用框架图。本专利技术中函数evaluate作为评价函数来计算分词的效果,函数flip_n用来搜索解空间以使得评价函数得到最优,如果当前解优于原解,则接受当前解;如果当前解的评价函数值大于原解的评价函数,则以概率来接受当前解从而避免局部优化。初始解由待分词的模拟录音的文本根据‘01’编码之后产生。搜索解空间的目的是为了寻找使得评价函数能够达到最优情况下,‘0’,‘1’编码的排列方式。针对某一短语,如a:doyouseethekitty(对应的编码:a:0000000000000001),我们没有可以参考的词典来辅助得到应当将这个短语从某一位置断开。使用模拟退火算法的非确定性搜索,即随机搜索的方法,随机扰动‘0’和‘1’,并且这种扰动是与当前的“温度T”成正比,每次迭代的过程中,随着温度的降低,扰动的边界会逐渐缩小。请参考图3,其示出了本专利技术评价函数模型示意图。SEGMENTATION表示的是一个分词的结果。在这个分词结果中唯一的词在LEXICON表中列出,并对每一个词进行算分,得分存在LEXICON中,DERIVATION是分块得分,其值为所有分块中包含的单词的数量之和。两者相加即为总得目标得分,该目标得分越小则分词效果就越好,也就越接近我们人工识别的目标。如‘doyou’的分词得分为单词长度5加上边界1即为6,其他词计算方法类似;分块得分就是每个块包含的单词数量,如第一个1|2|4|6,其得分为4,依次类推,最终得到分词得分为33,分块得分为14,两者相加即为总得目标得分,该目标得分越本文档来自技高网...
一种基于启发式算法的模糊英文长句分词方法

【技术保护点】
一种基于启发式算法的模糊英文长句分词方法,其特征在于,该方法包括以下步骤:1)对待分词的英文长句进行编码,编码后的文本作为启发式算法的输入;2)通过启发式算法对编码后的文本进行迭代计算,获得使得评价函数值达到最优的解;3)对所述步骤2)中启发式算法得出的解,恢复出新分词结果后的英文长句,并对恢复出的英文长句进行可阅读性计算。

【技术特征摘要】
1.一种基于启发式算法的模糊英文长句分词方法,其特征在于,该方法包括以下步骤:1)对待分词的英文长句进行编码,编码后的文本作为启发式算法的输入;2)通过启发式算法对编码后的文本进行迭代计算,获得使得评价函数值达到最优的解;3)对所述步骤2)中启发式算法得出的解,恢复出新分词结果后的英文长句,并对恢复出的英文长句进行可阅读性计算。2.如权利要求1所述的基于启发式算法的模糊英文长句分词方法,其特征在于,所述步骤1)中的对待分词的英文长句进行编码的具体方式为:采用对每个单词字符进行01编码的方式进行问题的抽象,‘0’表示该句子在当前位置没有进行分词,‘1’表示该句子在当前位置进行分词,通过这样的方法将原英文长句编码为01文本。3.如权利要求1所述的基于启发式算法的模糊英文长句分词方法,其特征在于,所述步骤2)中的启发式算法采用模拟退火算法。4.如权利要求3所述的基于启发式算法的模糊英文长句分词方法,其特征在于,所述模拟退火算法包括以下步骤:(1)解空间的搜索:使用模拟退火算法的非确定性搜索,随机扰动‘0’和‘1’,即以随机的概率将‘0’变为‘1’或者将‘1’变为‘0’,这种扰动是与当前的温度成正比,每次迭代的过程中,随着温度的降低,扰动的边界会逐渐缩小;(2)评价函数的设计:用分词结果的分词得分和分块得分的和作为评价函数,所述分词得分是指对分词结果中每...

【专利技术属性】
技术研发人员:段鹏飞李必信
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1