一种文本处理方法及终端技术

技术编号:20177068 阅读:18 留言:0更新日期:2019-01-23 00:28
本发明专利技术实施例提供一种文本处理方法及终端,涉及计算机技术领域。其中方法包括:将待处理文本分割成文本序列,得到文本序列集合;分别将所述文本序列集合中的文本序列转换成拼音序列;采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;根据所述新的文本序列集合,生成新的文本。本发明专利技术实施例可以有效的解决文本中存在错误的同音词的问题,改善了现有的基于人工自定义词典处理文本中同音词的方法存在的耗时、耗力以及词典完备性的问题,扩大了同音词语义消歧的应用场景和应用范围。

A Text Processing Method and Terminal

The embodiment of the invention provides a text processing method and a terminal, which relates to the field of computer technology. The methods include: dividing the text to be processed into text sequences and obtaining the set of text sequences; converting the text sequences in the set of text sequences into pinyin sequences separately; transforming the Pinyin sequences into new text sequences by using pre-trained hidden Markov model, respectively; and generating new text sequence sets according to the set of new text sequences. Text. The embodiment of the present invention can effectively solve the problem of incorrect homonyms in texts, improve the time-consuming, energy-consuming and dictionary completeness problems of the existing method of processing homonyms in texts based on manual custom dictionary, and expand the application scenario and scope of homonym semantic disambiguation.

【技术实现步骤摘要】
一种文本处理方法及终端
本专利技术涉及计算机
,尤其涉及一种文本处理方法及终端。
技术介绍
随着互联网络的普及以及信息技术的快速发展,网络中的文本数据呈井喷式发展,如何从海量的文本数据中挖掘出有价值的信息是当前研究的热点之一。网络文本数据不同于传统的文本数据,由于网络用户表达方式的随意性以及用户文化水平参差不齐等特点,导致网络文本数据中充斥着大量的同音词问题,即用户习惯于用一个错误的词语来表达与其同音的词,例如:用户想输入词语“文化”结果往往会因为粗心输入成“文华”,考虑到绝大部分的同音词之间的语义差别很大,若不对网络文本中出现的这些错误的同音词进行语义消歧处理,往往会导致后续针对该文本的所有工作均徒劳。因此,针对网络文本数据存在的这些问题,在数据预处理阶段采用相应的语义消歧技术是非常必要和有价值的,它是文本数据分析及挖掘的基础。现有技术中一般采用建立同音和同义词词典来对网络文本中出现的错误的同音词进行语义消歧处理,这种方式的不足之处在于自定义词典需要耗费大量人工时间进行构建,同时词典的完备性严重制约了它的实际应用。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本处理方法及终端,旨在解决上述自定义词典需要耗费大量人工时间进行构建,同时词典的完备性严重制约了它的实际应用的问题。本专利技术实施例的第一方面提供了一种文本处理方法,包括:将待处理文本分割成文本序列,得到文本序列集合;分别将所述文本序列集合中的文本序列转换成拼音序列;采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;根据所述新的文本序列集合,生成新的文本。本专利技术实施例的第二方面提供了一种终端,包括:文本分割单元,用于将待处理文本分割成文本序列,得到文本序列集合;拼音序列获取单元,用于分别将所述文本序列集合中的文本序列转换成拼音序列;文本序列获取单元,用于采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;文本生成单元,用于根据所述新的文本序列集合,生成新的文本。本专利技术实施例的第三方面提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面所述的文本处理方法的步骤。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述第一方面所述的文本处理方法的步骤。本专利技术实施例与现有技术相比存在的有益效果是:本专利技术实施例由于先将文本分割成文本序列,然后将所述文本序列转换为拼音序列,再通过隐马尔可夫模型将拼音序列转换成新的文本序列,根据新的文本序列合成新的文本,从而可以有效的解决文本中存在错误的同音词的问题,改善了现有的基于人工自定义词典处理文本中同音词的方法存在的耗时、耗力以及词典完备性的问题,扩大了同音词语义消歧的应用场景和应用范围。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的一种文本处理方法的示意流程图;图2是本专利技术实施例二提供的一种文本处理方法的示意流程图;图3是本专利技术实施例二提供的一种文本处理方法中步骤S200的具体实现流程图;图4是本专利技术实施例三提供的一种终端的示意性框图;图5是本专利技术实施例四提供的一种终端的示意性框图;图6是本专利技术实施例五提供的一种终端的示意性框图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。图1是本专利技术实施例一提供的一种文本处理方法的示意流程图。参见图1所示,本实施例提供的一种文本处理方法,可以包括以下步骤:步骤S101,将待处理文本分割成文本序列,得到文本序列集合。在本实施例中,待处理文本为网络用户通过语音输入或者通过拼音输入法输入的文本。步骤S101具体包括:将待处理文本按照预设的标点符号分割成一段段的文本序列,得到文本序列集合。所述预设的标点符号包括但不限于逗号、句号等。步骤S102,分别将所述文本序列集合中的文本序列转换成拼音序列。在本实施中,文本和拼音是多对一的映射关系,其中组成文本的词或词语是有限的,具体数目由词库或词典决定。因此,将文本序列转换为拼音序列,比较容易实现,且准确率非常高。优选的,在本实施例中,通过文本分词工具将所述文本序列转换为拼音序列。所述文本分词工具包括但不限于开源的jieba分词工具、中科院的ICTCLLAS分词工具。步骤S103,采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合。其中,所述隐马尔可夫模型是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。模型中的隐含状态序列不能直接观察到,但能通过观察与之相关的观测序列推导获得。所述隐马尔可夫模型可以用五个元素来描述,包括2个状态集合和3个概率矩阵,具体如下:1)隐含状态S这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态,这些状态通常无法通过直接观测而得到,例如:S1、S2、S3等等。2)可观测状态O在模型中与隐含状态相关联,可通过直接观测而得到,例如:O1、O2、O3等等,可观测状态的数目不一定要和隐含状态的数目一致。3)初始状态概率矩阵F表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1、P(S2)=P2、P(S3)=p3,则初始状态概率矩阵F=[p1p2p3]。4)隐含状态转移概率矩阵M描述了HMM模型中各个状态之间的转移概率;其中Mij=P(Sj|Si),1≤i,j≤X。表示在t时刻、状态为Si的条件下,在t+1时刻状态是Sj的概率。5)观测状态转移概率矩阵C令X代表隐含状态数目,Y代表可观测状态数目,则:Bij=P(Oi|Sj),1≤i≤Y,1≤j≤X;表示在t时刻、隐含状态是Sj条件下,观察状态为Oi的概率。在本实施例中,在已知隐马尔可夫模型的参数条件下,只要给定拼音序列就能够获取其最优的文本序列,从而达到消除文本中存在的错误同音词的问题。优选的,在本实施例中,步骤S103具体包括:采用维特比Viterbi算法根据所述隐马尔可夫模型分别求解出所述拼音序列所对应的最优隐含状态序列,所述最优隐含状态序列即为所述拼音序列所对应的新的文本序列。其中,所述Viterbi算法采用动态规划路径的求解四路,即全局最优是由局部最优组合形成,同时隐含状态序列具有马尔可夫性质,基于局部最优之间存在相关性,可以确保最终获取的序列是全局最优,因此问题转化为求拼音序列中每一步的最优解。举例说明:假设已知假设已知观测序列A=[A1,A2,A3...An],隐含状态序列B=[B1,B2,本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:将待处理文本分割成文本序列,得到文本序列集合;分别将所述文本序列集合中的文本序列转换成拼音序列;采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;根据所述新的文本序列集合,生成新的文本。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:将待处理文本分割成文本序列,得到文本序列集合;分别将所述文本序列集合中的文本序列转换成拼音序列;采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列,生成新的文本序列集合;根据所述新的文本序列集合,生成新的文本。2.根据权利要求1所述的文本处理方法,其特征在于,所述将待处理文本分割成文本序列,得到文本序列集合之前还包括:通过预设的文本语料和拼音词典训练得到所述隐马尔可夫模型。3.如权利要求2所述的文本处理方法,其特征在于,所述通过预设的文件语料和拼音词典训练得到所述隐马尔可夫模型包括:确定所述隐马尔可夫模型的可观测状态O和隐含状态S,所述可观测状态O为所述文本语料中所有拼音的集合,所述隐含状态S为所述文本语料中所有词或词语组成的集合;将所述预设的文本语料按照特定的标点符号分割成一段段的文本序列T,组成文本序列集合D;循环遍历所述文本序列集合D是否为空;若不为空,则逐条取出所述文本序列集合D中的文本序列T进行下一步处理;对所述文本序列T进行分词操作,形成文本分词词语集合U;遍历所述文本分词词语集合U是否为空;若不为空,则依次读取所述文本分词词语集合U中的词I;判断所述词I是否为所述文本序列中的第一个词;若是第一个词,则将所述词I添加至首词集合R中;若不是第一个词,则将所述词I与所述词I在所述文本序列中的前一个词K组成词组对(I,K),并将所述词组对(I,K)添加至词语集合N;统计所述词I在所述首词集合R中出现的次数和在所述文本语料中出现的次数,根据统计结果计算得出所述词I出现在所述文本序列T的起始位置处的概率,得到所述隐马尔可夫的初始状态概率矩阵F;统计所述词组对(I,K)和所述词I在所述文本语料中出现的次数,根据统计结果计算得出,词I出现在词K后的概率,得到所述隐马尔可夫模型的隐含状态转移概率矩阵M;通过拼音词典获取字典中每一个拼音对应的词,以组成“词—拼音”的关系矩阵,得到所述隐马尔可夫模型中的所述观测状态转移概率矩阵C。4.如权利要求1所述的文本处理方法,其特征在于,采用预先训练的隐马尔可夫模型分别将所述拼音序列转换成新的文本序列包括:采用维特比Viterbi算法根据所述隐马尔可夫模型分别求解出所述拼音序列所对应的最优隐含状态序列,所述最优隐含状态序列即为所述拼音序列所对应的新的文本序列。5.一种终端,其特征在于,包括:文本分割单元,用于将待处理文本分割成文本序列,得到文本序列集合;拼音序列获取单元,用于分别将所述文本序...

【专利技术属性】
技术研发人员:刘辉
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1