一种针对海量高噪音口语化短文本的文本筛选方法技术

技术编号：31226055 阅读：25 留言：0更新日期：2021-12-08 09:30

本发明专利技术提出一种针对海量高噪音口语化短文本的文本筛选方法，属于自然语言处理领域，通过对训练语料和待筛选的目标文本进行预处理；对预处理后的训练语料中的标注的正类语料进行句式信息提取，区分出业务强相关句式和弱相关句式；利用提取的句式信息对预处理后的目标文本进行句式匹配，将业务强相关句式的匹配结果归为正类文本，对业务弱相关句式的匹配结果进行以下步骤的处理；对目标文本和训练语料都进行文本处理，将处理后的文本转化为词向量表示；使用训练语料的词向量表示训练文本分类模型，将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类，实现对目标文本的文本筛选。本的文本筛选。本的文本筛选。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对海量高噪音口语化短文本的文本筛选方法

[0001]本专利技术涉及一种针对海量高噪声口语化短文本的筛选方法，可对高错误率的文本进行降噪，并根据语义相似度和句式信息进行文本筛选，属于自然语言处理领域。

技术介绍

[0002]随着通信技术的多样化和便捷化以及计算机网络的迅速发展，人们之间的远程交流变得更加低成本、高质量，互联网的发展也使人们可以更便捷的在线上发出自己的声音，这些交流和表达不同于书面文字，口语化短文本具有一些明显区别于常见书面语料的特征：
[0003]1.语法复杂且不规范：由于人们在说话时往往不如书面表达那样规范严谨，更多时候以便捷、符合习惯为主，口语化短文本中从句多、语序颠倒、指代不明确等情况十分常见；
[0004]2.用词口语化：语音交流尤其是非正式场合的日常交流，人们在用词方面可能习惯性带有许多口语化的词汇，比如方言特有词汇、常用英文词汇、缩略词汇以及流行词汇；
[0005]3.口音和方言：由于不同地方的人有不同的语言表达习惯，地域性差异极大，比如粤语的用词和语句句式，都和以北方方言为基础的普通话有相当大的差异，这些不同会造成口语化短文本在表达上的高差异性；
[0006]4.高噪声：由于部分口语化短文本可能来自于语音转译，语音信号传输依赖于通信环境，网络信号的不稳定以及环境噪声会极大地影响语音信号的质量，导致部分口语化短文本的错误和片段性遗漏。
[0007]5.语句长度较短：由于大多数情况下人们的口语表达不常用修饰繁复的复杂句式，偏向于使用简洁清晰的表达，...

【技术保护点】

【技术特征摘要】
1.一种针对海量高噪音口语化短文本的文本筛选方法，其特征在于，包括以下步骤：对训练语料和待筛选的目标文本进行预处理；对预处理后的训练语料中的标注的正类语料进行句式信息提取，将含有所标注的关键词的句式作为业务强相关句式，将不含有所标注的关键词的句式作为业务弱相关句式；利用提取的句式信息对预处理后的目标文本进行句式匹配，将业务强相关句式的匹配结果归为正类文本，对业务弱相关句式的匹配结果进行以下步骤的处理；对目标文本和训练语料都进行文本处理，将处理后的文本转化为词向量表示；使用训练语料的词向量表示训练文本分类模型，将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类，实现对目标文本的文本筛选。2.如权利要求1所述的方法，其特征在于，预处理包括分词、降噪和拼音替代。3.如权利要求2所述的方法，其特征在于，预处理的步骤包括：首先，通过jieba中文分词器切词；其次，利用滑动窗口对文本进行错误检测，通过n-gram模型计算极大似然估计构造语言模型，若计算出的概率低于合法阈值，则判断滑动窗口处的文本出错；再次，对于字粒度的错误，使用近音词词典取得候选集，通过n-gram模型计算滑动窗口内的句子合法度，对所有候选集结果进行比较并排序，得到最优纠正字；对于词粒度的错误，直接采用拼音替代该词。4.如权利要求1所述的方法，其特征在于，句式匹配的步骤包括：对文本中的句子进行句式提取；比较句式之间的相似度，选择相似度最大的句式进行匹配。5.如权利要求4所述的方法，其特征在于，句式提取的步骤包括：对句子进行分词，对词性进行标注；对于句子中的主语、宾语、宾补成分表示动作对象的部分，剔除包括人名、地名、组织机构名在内的名词性成分...

【专利技术属性】
技术研发人员：戚梦苑，孙晓晨，万辛，李沁，刘发强，孙旭东，倪善金，吴广君，梁睿琪，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人