一种基于启发式算法的模糊英文长句分词方法技术

技术编号：15690850 阅读：124 留言：0更新日期：2017-06-24 03:34

本发明专利技术公开了一种基于启发式算法的模糊英文长句分词方法，采用启发式算法中的模拟退火算法来处理模糊英文长句分词问题，以解决机器识别声音时，只能根据声音的停顿来区分单词无法对连读进行分词问题。基于启发式算法的模糊英文长句分词方法中将原模糊英文长句通过01编码，进行问题的抽象。通过模拟退火算法对解空间的搜索、计算评价函数值、判定是否接受当前解和退火降温一系列步骤的多次迭代，从而获得较好的分词效果，并根据本方法中所提出的可阅读性判定函数为依据，表明基于启发式算法的分词方法在解决模糊英文长句分词问题时具有较好的效果。

A fuzzy English long sentence segmentation method based on heuristic algorithm

The present invention discloses a kind of fuzzy English sentence segmentation method based on heuristic algorithm, the simulated annealing algorithm in heuristic algorithm to deal with fuzzy English sentence segmentation problem, to solve the machine recognition voice, only according to the voice of the pause to distinguish words cannot even read word problems. A fuzzy English long sentence segmentation method based on heuristic algorithm is used to abstract the original fuzzy long sentences in English through 01 encoding. The simulated annealing algorithm to search the solution space, calculated to determine whether to accept the current solution and annealing multiple iterations of a series of steps of the evaluation function value, and to obtain good segmentation results, and can be read according to the decision function on the basis of the proposed method, segmentation method BenQ heuristic algorithm has better effect on solving the problem of fuzzy English sentence segmentation.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于启发式算法的模糊英文长句分词方法
本专利技术涉及一种涉及人工智能和自然语言处理的分词技术，尤其是一种基于启发式算法的模糊英文长句分词方法。
技术介绍
在当今的信息社会中，人工智能和自然语言处理相关的研究和技术飞速发展，应用的范围也越来越广，本专利技术是考虑到一些特定的场景，例如，一般会议的记录都是人工记录，同时辅助以录音进行整理，对于会议报道和记录人员来说就不得不将大量的时间花费在整理会议相关发言上。如果采用更加智能的方法来代替人工，对会议发言进行整理，就需要让机器能够识别出一段口语中是如何进行分词的。自然语言处理中，分词主要面向的是类似汉语这样的象形文字，这些文字在组成句子时没有语法上的分割；对于类似于英语这样的拼音文字，通常不存在分词的问题。但是一旦遇到上述问题，往往解决的方法比较少。
技术实现思路
技术问题：本专利技术提供一种应对英文文本单词之间间隙不清或者难以识别的情况，减少了整理和编写语料库的复杂工作的基于启发式算法的模糊英文长句分词方法。技术方案：本专利技术的基于启发式算法的模糊英文长句分词方法，在某些特定的情况下，英文长句词与词之间的间隙不明显，...
一种基于启发式算法的模糊英文长句分词方法

【技术保护点】
一种基于启发式算法的模糊英文长句分词方法，其特征在于，该方法包括以下步骤：1)对待分词的英文长句进行编码，编码后的文本作为启发式算法的输入；2)通过启发式算法对编码后的文本进行迭代计算，获得使得评价函数值达到最优的解；3)对所述步骤2)中启发式算法得出的解，恢复出新分词结果后的英文长句，并对恢复出的英文长句进行可阅读性计算。

【技术特征摘要】
1.一种基于启发式算法的模糊英文长句分词方法，其特征在于，该方法包括以下步骤：1)对待分词的英文长句进行编码，编码后的文本作为启发式算法的输入；2)通过启发式算法对编码后的文本进行迭代计算，获得使得评价函数值达到最优的解；3)对所述步骤2)中启发式算法得出的解，恢复出新分词结果后的英文长句，并对恢复出的英文长句进行可阅读性计算。2.如权利要求1所述的基于启发式算法的模糊英文长句分词方法，其特征在于，所述步骤1)中的对待分词的英文长句进行编码的具体方式为：采用对每个单词字符进行01编码的方式进行问题的抽象，‘0’表示该句子在当前位置没有进行分词，‘1’表示该句子在当前位置进行分词，通过这样的方法将原英文长句编码为01文本。3.如权利要求1所述的基于启发式算法的模糊英文长句分词方法，其特征在于，所述步骤2)中的启发式算法采用模拟退火算法。4.如权利要求3所述的基于启发式算法的模糊英文长句分词方法，其特征在于，所述模拟退火算法包括以下步骤：(1)解空间的搜索：使用模拟退火算法的非确定性搜索，随机扰动‘0’和‘1’，即以随机的概率将‘0’变为‘1’或者将‘1’变为‘0’，这种扰动是与当前的温度成正比，每次迭代的过程中，随着温度的降低，扰动的边界会逐渐缩小；(2)评价函数的设计：用分词结果的分词得分和分块得分的和作为评价函数，所述分词得分是指对分词结果中每...

【专利技术属性】
技术研发人员：段鹏飞，李必信，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人