The embodiment of the invention provides a text processing method and a terminal, which relates to the field of computer technology. The methods include: dividing the text to be processed into text sequences and obtaining the set of text sequences; converting the text sequences in the set of text sequences into pinyin sequences separately; transforming the Pinyin sequences into new text sequences by using pre-trained hidden Markov model, respectively; and generating new text sequence sets according to the set of new text sequences. Text. The embodiment of the present invention can effectively solve the problem of incorrect homonyms in texts, improve the time-consuming, energy-consuming and dictionary completeness problems of the existing method of processing homonyms in texts based on manual custom dictionary, and expand the application scenario and scope of homonym semantic disambiguation.
【技术实现步骤摘要】
一种文本处理方法及终端
本专利技术涉及计算机
,尤其涉及一种文本处理方法及终端。
技术介绍
随着互联网络的普及以及信息技术的快速发展,网络中的文本数据呈井喷式发展,如何从海量的文本数据中挖掘出有价值的信息是当前研究的热点之一。网络文本数据不同于传统的文本数据,由于网络用户表达方式的随意性以及用户文化水平参差不齐等特点,导致网络文本数据中充斥着大量的同音词问题,即用户习惯于用一个错误的词语来表达与其同音的词,例如:用户想输入词语“文化”结果往往会因为粗心输入成“文华”,考虑到绝大部分的同音词之间的语义差别很大,若不对网络文本中出现的这些错误的同音词进行语义消歧处理,往往会导致后续针对该文本的所有工作均徒劳。因此,针对网络文本数据存在的这些问题,在数据预处理阶段采用相应的语义消歧技术是非常必要和有价值的,它是文本数据分析及挖掘的基础。现有技术中一般采用建立同音和同义词词典来对网络文本中出现的错误的同音词进行语义消歧处理,这种方式的不足之处在于自定义词典需要耗费大量人工时间进行构建,同时词典的完备性严重制约了它的实际应用。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本处理方法及终端,旨在解决上述自定义词典需要耗费大量人工时间进行构建,同时词典的完备性严重制约了它的实际应用的问题。本专利技术实施例的第一方面提供了一种文本处理方法,包括:将待处理文本分割成文本序列,得到文本序列集合;分别将所述文本序列集合中的文本序列转换成拼音序列;采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;根据所述新的文本序列集合,生成新的文本 ...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:将待处理文本分割成文本序列,得到文本序列集合;分别将所述文本序列集合中的文本序列转换成拼音序列;采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;根据所述新的文本序列集合,生成新的文本。
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:将待处理文本分割成文本序列,得到文本序列集合;分别将所述文本序列集合中的文本序列转换成拼音序列;采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;根据所述新的文本序列集合,生成新的文本。2.根据权利要求1所述的文本处理方法,其特征在于,所述将待处理文本分割成文本序列,得到文本序列集合之前还包括:通过预设的文本语料和拼音词典训练得到所述隐马尔可夫模型。3.如权利要求2所述的文本处理方法,其特征在于,所述通过预设的文件语料和拼音词典训练得到所述隐马尔可夫模型包括:确定所述隐马尔可夫模型的可观测状态O和隐含状态S,所述可观测状态O为所述文本语料中所有拼音的集合,所述隐含状态S为所述文本语料中所有词或词语组成的集合;将所述预设的文本语料按照特定的标点符号分割成一段段的文本序列T,组成文本序列集合D;循环遍历所述文本序列集合D是否为空;若不为空,则逐条取出所述文本序列集合D中的文本序列T进行下一步处理;对所述文本序列T进行分词操作,形成文本分词词语集合U;遍历所述文本分词词语集合U是否为空;若不为空,则依次读取所述文本分词词语集合U中的词I;判断所述词I是否为所述文本序列中的第一个词;若是第一个词,则将所述词I添加至首词集合R中;若不是第一个词,则将所述词I与所述词I在所述文本序列中的前一个词K组成词组对(I,K),并将所述词组对(I,K)添加至词语集合N;统计所述词I在所述首词集合R中出现的次数和在所述文本语料中出现的次数,根据统计结果计算得出所述词I出现在所述文本序列T的起始位置处的概率,得到所述隐马尔可夫的初始状态概率矩阵F;统计所述词组对(I,K)和所述词I在所述文本语料中出现的次数,根据统计结果计算得出,词I出现在词K后的概率,得到所述隐马尔可夫模型的隐含状态转移概率矩阵M;通过拼音词典获取字典中每一个拼音对应的词,以组成“词—拼音”的关系矩阵,得到所述隐马尔可夫模型中的所述观测状态转移概率矩阵C。4.如权利要求1所述的文本处理方法,其特征在于,采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列包括:采用维特比Viterbi算法根据所述隐马尔可夫模型分别求解出所述拼音序列所对应的最优隐含状态序列,所述最优隐含状态序列即为所述拼音序列所对应的新的文本序列。5.一种终端,其特征在于,包括:文本分割单元,用于将待处理文本分割成文本序列,得到文本序列集合;拼音序列获取单元,用于分别将所述文本序...
【专利技术属性】
技术研发人员:刘辉,
申请(专利权)人:TCL集团股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。