一种针对海量高噪音口语化短文本的文本筛选方法技术

技术编号:31226055 阅读:25 留言:0更新日期:2021-12-08 09:30
本发明专利技术提出一种针对海量高噪音口语化短文本的文本筛选方法,属于自然语言处理领域,通过对训练语料和待筛选的目标文本进行预处理;对预处理后的训练语料中的标注的正类语料进行句式信息提取,区分出业务强相关句式和弱相关句式;利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。本的文本筛选。本的文本筛选。

【技术实现步骤摘要】
一种针对海量高噪音口语化短文本的文本筛选方法


[0001]本专利技术涉及一种针对海量高噪声口语化短文本的筛选方法,可对高错误率的文本进行降噪,并根据语义相似度和句式信息进行文本筛选,属于自然语言处理领域。

技术介绍

[0002]随着通信技术的多样化和便捷化以及计算机网络的迅速发展,人们之间的远程交流变得更加低成本、高质量,互联网的发展也使人们可以更便捷的在线上发出自己的声音,这些交流和表达不同于书面文字,口语化短文本具有一些明显区别于常见书面语料的特征:
[0003]1.语法复杂且不规范:由于人们在说话时往往不如书面表达那样规范严谨,更多时候以便捷、符合习惯为主,口语化短文本中从句多、语序颠倒、指代不明确等情况十分常见;
[0004]2.用词口语化:语音交流尤其是非正式场合的日常交流,人们在用词方面可能习惯性带有许多口语化的词汇,比如方言特有词汇、常用英文词汇、缩略词汇以及流行词汇;
[0005]3.口音和方言:由于不同地方的人有不同的语言表达习惯,地域性差异极大,比如粤语的用词和语句句式,都和以北方方言为基础的普通话有相当大的差异,这些不同会造成口语化短文本在表达上的高差异性;
[0006]4.高噪声:由于部分口语化短文本可能来自于语音转译,语音信号传输依赖于通信环境,网络信号的不稳定以及环境噪声会极大地影响语音信号的质量,导致部分口语化短文本的错误和片段性遗漏。
[0007]5.语句长度较短:由于大多数情况下人们的口语表达不常用修饰繁复的复杂句式,偏向于使用简洁清晰的表达,并且其中包含许多仅表示应答的无意义词汇,如“嗯”“喂”,有效的语句长度普遍较短。
[0008]口语化短文本具有的高噪声、高错误率、规范性差、语句长度短等特点,给文本分类带来了极大的难度。
[0009]在自然语言处理任务中,文本分类是重要的一环。中文文本分类的步骤往往分为数据预处理、文本表示、使用分类模型分类三个。数据预处理包含数据清洗、中文分词、词性标注等工作。文本表示是将中文词汇数字化,以便于分类模型进行计算。文本分类模型主流的大致有基于统计学习的经典分类模型,如朴素贝叶斯分类器、支持向量机、Rocchio算法、KNN等,基于统计学习的方法计算量较小、复杂度低、且需要的训练预料较少,但这些算法的精度对文本质量的依赖很大,难以应对高复杂性和高差异性的文本,受文本噪音影响大,文本长度过短可能使分类准确度大大降低,不足以应对海量口语化短文本的分类。
[0010]近年来兴起的机器学习技术,尤其是利用高复杂度的神经网络实现的深度学习算法,在自然语言处理的多个任务分支中取得了极佳的效果,几乎成为了处理复杂的文本分类任务的不二选择。但这些深度学习算法在取得很好的成效的同时也有很大的成本和代价。(1)缺乏可解释性:高复杂度的神经网络的输入一般是将文本经过预处理得到的向量
(词向量或者句向量),将自然语言数字化,输出为预测结果或分类结果,中间过程模糊,不易理解和控制;(2)巨大的计算量:深层神经网络的训练往往需要巨大的计算量,训练时间动辄需要数天,参数往往也比较复杂,为了选择合适的参数需要很长的时间试错;(3)受限于训练语料:深度学习算法的最终效果与训练语料的质量和数量有很大关系,越是复杂的网络往往越是需要大量的训练数据,但口语化短文本使用人工标注的成本很高,且不能应对不同体裁不同领域的语料,想要解决某一领域的文本分类问题,只能花费大量时间构建该领域的语料库,如医学、新闻传媒等,再训练针对该领域语料的模型。

技术实现思路

[0011]本专利技术的目的就是实现一种针对海量高噪音口语化短文本的文本筛选方法,解决口语化短文本分类中噪声干扰大、训练语料需求量大、分类准确率低等问题,并可根据需要通过业务标注对模型进行提高和修正,进一步提高分类准确度。
[0012]为实现上述目的,本专利技术采用以下技术方案:
[0013]一种针对海量高噪音口语化短文本的文本筛选方法,包括以下步骤:
[0014]对训练语料和待筛选的目标文本进行预处理;
[0015]对预处理后的训练语料中的标注的正类语料进行句式信息提取,将含有所标注的关键词(亦即与业务相关)的句式作为业务强相关句式,将不含有所标注的关键词的句式作为业务弱相关句式;
[0016]利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;
[0017]对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;
[0018]使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。
[0019]进一步地,文本分类模型包括TextCNN、FastText、TextRNN、Hierarchical Attention Network、seq2seq with attention等模型,优选TextCNN模型。
[0020]进一步地,对目标文本进行文本筛选后,检测筛选结果是否含有标注信息,若有,则根据标注信息更新训练语料库,并对文本分类模型(如TextCNN模型)进行重新训练。
[0021]进一步地,预处理包括分词、降噪和拼音替代。
[0022]进一步地,预处理的步骤包括:
[0023]首先,通过jieba中文分词器切词;
[0024]其次,利用滑动窗口对文本进行错误检测,通过n-gram模型计算极大似然估计构造语言模型,若计算出的概率低于合法阈值,则判断滑动窗口处的文本出错;
[0025]再次,对于字粒度的错误,使用近音词词典取得候选集,通过n-gram模型计算滑动窗口内的句子合法度,对所有候选集结果进行比较并排序,得到最优纠正字;对于词粒度的错误,直接采用拼音替代该词。
[0026]进一步地,句式匹配的步骤包括:对文本中的句子进行句式提取;比较句式之间的相似度,选择相似度最大的句式进行匹配。
[0027]进一步地,句式提取的步骤包括:对句子进行分词,对词性进行标注;对于句子中的主语、宾语、宾补成分表示动作对象的部分,剔除包括人名、地名、组织机构名在内的名词
性成分,以其词性标签替代,保留代词;在状语中的时间地点用词性标签替代,定语中的修饰性成分替换为统一的字符表示;动词和连词部分形成备选词列表,句式以词汇和词性标签的列表表示。
[0028]进一步地,比较句式之间的相似度的步骤包括:将含有语义的词汇转化为词向量,基于编辑距离计算其词向量在向量空间中的欧式距离;将在同一个备选动词列表中的动词作为相同词汇,将不在备选词列表中的动词,选取与词汇列表中的最小距离的词汇,作为最大相似度的词汇,根据上述相同词汇或最大相似度的词汇进行句式匹配。
[0029]进一步地,文本处理是对文本进行长度限制,去口语词和合并重复词的操作。
[0030]进一步地,文本处理的步骤包括:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对海量高噪音口语化短文本的文本筛选方法,其特征在于,包括以下步骤:对训练语料和待筛选的目标文本进行预处理;对预处理后的训练语料中的标注的正类语料进行句式信息提取,将含有所标注的关键词的句式作为业务强相关句式,将不含有所标注的关键词的句式作为业务弱相关句式;利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。2.如权利要求1所述的方法,其特征在于,预处理包括分词、降噪和拼音替代。3.如权利要求2所述的方法,其特征在于,预处理的步骤包括:首先,通过jieba中文分词器切词;其次,利用滑动窗口对文本进行错误检测,通过n-gram模型计算极大似然估计构造语言模型,若计算出的概率低于合法阈值,则判断滑动窗口处的文本出错;再次,对于字粒度的错误,使用近音词词典取得候选集,通过n-gram模型计算滑动窗口内的句子合法度,对所有候选集结果进行比较并排序,得到最优纠正字;对于词粒度的错误,直接采用拼音替代该词。4.如权利要求1所述的方法,其特征在于,句式匹配的步骤包括:对文本中的句子进行句式提取;比较句式之间的相似度,选择相似度最大的句式进行匹配。5.如权利要求4所述的方法,其特征在于,句式提取的步骤包括:对句子进行分词,对词性进行标注;对于句子中的主语、宾语、宾补成分表示动作对象的部分,剔除包括人名、地名、组织机构名在内的名词性成分...

【专利技术属性】
技术研发人员:戚梦苑孙晓晨万辛李沁刘发强孙旭东倪善金吴广君梁睿琪
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1