一种文本规整方法、装置、设备及存储介质制造方法及图纸

技术编号:23288637 阅读:32 留言:0更新日期:2020-02-08 18:33
本申请提供了一种文本规整方法、装置、设备及存储介质,其中,文本规整方法包括:获取待规整文本;对待规整文本提取文本规整特征,其中,文本规整特征至少包括能够表征待规整文本语义的语义特征,以及能够表征待规整文本中重复部分的泛化特征;利用文本规整特征和预先建立的文本规整模型,确定待规整文本对应的规整文本。本申请提供的文本规整方法,可利用待规整文本的文本规整特征和预先建立的文本规整模型将待规整文本规整为句意清晰、可读性和逻辑性较强的文本。

A method, device, equipment and storage medium for text normalization

【技术实现步骤摘要】
一种文本规整方法、装置、设备及存储介质
本申请涉及自然语言处理
,尤其涉及一种文本规整方法、装置、设备及存储介质。
技术介绍
在某些应用场景中,可能会获得文本,且获得的文本可能需要提供给目标用户阅读,然而,由于某些原因,获得的文本可能存在可读性差、意义不清等问题,这导致目标用户很难读懂文本。以语音识别场景为例:语音输入是人机交互中最自然、最便捷的方式,在进行语音输入时,由于某些原因(比如,说话人附近的语音串入,说话人因自身紧张或思路不清发出一些无意义的语气词和重复词,说话人因为语言习惯会说一些普通人无法理解的网络词汇、个性化词汇等等),会出现语音识别系统对输入语音进行识别得到文本存在可读性差、意义不清等问题,读者根据这样的文本难以理解说话人想要表达的意思。
技术实现思路
有鉴于此,本申请提供了一种文本规整方法、装置、设备及存储介质,用以对存在可读性差、意义不清等问题的文本进行规整,以使读者能够读懂文本,其技术方案如下:一种文本规整方法,包括:获取待规整文本;对所述待规整文本提取文本规整特本文档来自技高网...

【技术保护点】
1.一种文本规整方法,其特征在于,包括:/n获取待规整文本;/n对所述待规整文本提取文本规整特征,其中,所述文本规整特征包括能够表征所述待规整文本语义的语义特征,以及能够表征所述待规整文本中重复部分的泛化特征;/n利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本。/n

【技术特征摘要】
1.一种文本规整方法,其特征在于,包括:
获取待规整文本;
对所述待规整文本提取文本规整特征,其中,所述文本规整特征包括能够表征所述待规整文本语义的语义特征,以及能够表征所述待规整文本中重复部分的泛化特征;
利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本。


2.根据权利要求1所述的文本规整方法,其特征在于,所述对所述待规整文本提取文本规整特征,包括:
针对所述待规整文本中的任一句子:
获取该句子的语义特征和泛化特征,并将该句子的语义特征和泛化特征拼接,拼接后的特征作为该句子的文本规整特征;
以得到所述待规整文本中每个句子的文本规整特征。


3.根据权利要求2所述的文本规整方法,其特征在于,所述获取该句子的语义特征,包括:
针对该句子中的任一词,获取该词的词向量和词性向量,并将该词的词向量和词性向量拼接,拼接后的向量作为该词的特征向量,以得到该句子中每个词的特征向量,其中,一个词的词性向量为表征该词的词性的向量;
将该句子中各个词的特征向量拼接,拼接后的向量作为该句子的语义特征。


4.根据权利要求2所述的文本规整方法,其特征在于,所述利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本,包括:
将所述待规整文本中各个句子的文本规整特征输入所述文本规整模型,获得所述待规整文本中各个句子分别对应的规整句子;
由所述待规整文本中各个句子分别对应的规整句子组成所述待规整文本对应的规整文本。


5.根据权利要求1所述的文本规整方法,其特征在于,预先构建文本规整模型的过程包括:
从预先构建的训练文本集中获取训练文本,其中,所述训练数据集中包括多个训练文本,每个训练文本对应有一标注文本,一训练文本对应的标注文本为该训练文本对应的真实规整文本;
利用获取的所述训练文本和其对应的标注文本,训练文本规整模型。


6.根据权利要求5所述的文本规整方法,其特征在于,所述利用获取的所述训练文本和其对应的标注文本,训练文本规整模型,包括:
对所述训练文本提取文本规整特征,作为训练文本规整特征;
确定所述训练文本对应的标注文本的掩膜向量,其中,所述掩膜向量能够表征所述训练文本对应的标注文本中需要替换的词和不需要替换的词;
利用所述训练文本规整特征、所述训练文本对应的标注文本和所述训练文本对应的标注文本的掩膜向量,训练文本规整模型。


7.根据权利要求6所述的文本规整方法,其特征在于,所述确定所述训练文本对应的标注文本的掩膜向量,包括:
确定所述训练文本对应的标注文本的概率向量,其中,所述概率向量由所述训练文本对应的标注文本中每个词的前缀序列的概率组成,一个词的前缀序列为该词之前的所有词组成的词序列;
根据所述训练文本对应的标注文本的概率向量,确定所述训练文本对应的标注文本的掩膜向量。


8.根据权利要求7所述的文本规整方法,其特征在于,所述根据所述训练文本对应的标注文本的概率向量,确定所述训练文本对应的标注文本的掩膜向量,包括:
对所述训练文本对应的标注文本的概率向量进行归一化,获得归一化后的概率向量;
对所述归一化后的概率向量进行一阶差分,获得一阶差分结果;
根据所述一阶差分结果,确定所述训练文本对应的标注文本的掩膜向量。


9.根据权利要求6所述的文本规整方法,其特征...

【专利技术属性】
技术研发人员:张强
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1