文本编码方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：28321559 阅读：18 留言：0更新日期：2021-05-04 13:01

本申请提供了一种文本编码方法，包括：将目标文本进行规则匹配，若匹配成功，则生成目标文本的第一编码结果；利用至少两个文本分类模型对目标文本进行分类，若至少两个文本分类模型对目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值，则将目标文本的模型编码结果作为第二编码结果；根据第一编码结果与第二编码结果，生成目标文本的最终编码结果。本申请基于自然语言处理技术的相关算法对目标文本进行处理，可以使最终编码结果的查准率和查全率大大提升。

全部详细技术资料下载

【技术实现步骤摘要】
文本编码方法、装置、设备及计算机可读存储介质
本申请涉及控制
，特别涉及一种文本编码方法、装置、设备及计算机可读存储介质。
技术介绍
汽车行业存在大量的客户反馈，涉及产品评价及体验评价等，由于汽车厂商和经销商都非常注重提高客户的整体体验，所以，让计算机理解海量客户反馈，并从客户反馈中提炼有价值的信息，帮助汽车厂商和经销商提升产品与服务的水平变得尤为重要。目前，针对客户反馈文本的编码方式，主要是采用人工编码的方式，但人工编码成本高、处理海量数据效率低且基于个人理解的编码结果不稳定，信息提炼有偏差。此外，现有文本编码的技术主要是规则编码，规则编码主要是依据关键词或者关键表达式结构提取文本信息，但规则编码的查准率较高、但查全率非常低；而且，一种意思常常有多种表达方式且文本存在感情色彩，单纯的利用规则编码很难精准把握文本涵义；同时，关键词和关键表达式编码也会导致文本大量漏编。并且，仅用规则编码对于文本信息的处理效率是不高的。
技术实现思路
本申请提供了一种文本编码方法、装置、设备及计算机可读存储介质，能够提升编码结果的准确性以及全面性。第一方面，本申请提供了一种文本编码方法，包括：将目标文本进行规则匹配，若匹配成功，则生成所述目标文本的第一编码结果，所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设正则表达式；利用至少两个文本分类模型对所述目标文本进行分类，若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置...

【技术保护点】
1.一种文本编码方法，其特征在于，包括：/n将目标文本进行规则匹配，若匹配成功，则生成所述目标文本的第一编码结果，所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设正则表达式；/n利用至少两个文本分类模型对所述目标文本进行分类，若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值，则将所述目标文本的模型编码结果作为第二编码结果；/n根据所述第一编码结果与所述第二编码结果，生成所述目标文本的最终编码结果。/n

【技术特征摘要】
1.一种文本编码方法，其特征在于，包括：
将目标文本进行规则匹配，若匹配成功，则生成所述目标文本的第一编码结果，所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设正则表达式；
利用至少两个文本分类模型对所述目标文本进行分类，若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值，则将所述目标文本的模型编码结果作为第二编码结果；
根据所述第一编码结果与所述第二编码结果，生成所述目标文本的最终编码结果。

2.根据权利要求1所述的方法，其特征在于，所述将目标文本进行规则匹配之前，还包括：
获取待编码的初始文本；
去除所述初始文本中的停用词和/或无意义的标点符号，得到目标文本。

3.根据权利要求2所述的方法，其特征在于，所述得到目标文本之前，还包括：
删除所述初始文本中的惯用句。

4.根据权利要求1所述的方法，其特征在于，所述将目标文本进行规则匹配，包括：
将目标文本与码框中的各个预设关键词以及各个预设正则表达式进行规则匹配，其中，所述码框用于将收集的大量文本语料转化为数据的标准架构。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述至少两个文本分类模型，包括：
基于支持向量机SVM的tgrocery模型、基于神经网络的长短时记忆网络LSTM模型和fasttext模型中的至少两个模型。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述第一编码结果与所述第二编码结果，生成所述目标文本的最终编码结果，包括：
若存在相同编码结果和不同编码结果，则将所述相同编码结果和所述不同编码结果，作为所述目标文本中的最终编码结果；
其中，所述相同编码结果为所述目标...

【专利技术属性】
技术研发人员：陈文斌，王腾飞，魏帮国，
申请(专利权)人：北京光速斑马数据科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人