文本编码方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:28321559 阅读:18 留言:0更新日期:2021-05-04 13:01
本申请提供了一种文本编码方法,包括:将目标文本进行规则匹配,若匹配成功,则生成目标文本的第一编码结果;利用至少两个文本分类模型对目标文本进行分类,若至少两个文本分类模型对目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将目标文本的模型编码结果作为第二编码结果;根据第一编码结果与第二编码结果,生成目标文本的最终编码结果。本申请基于自然语言处理技术的相关算法对目标文本进行处理,可以使最终编码结果的查准率和查全率大大提升。

【技术实现步骤摘要】
文本编码方法、装置、设备及计算机可读存储介质
本申请涉及控制
,特别涉及一种文本编码方法、装置、设备及计算机可读存储介质。
技术介绍
汽车行业存在大量的客户反馈,涉及产品评价及体验评价等,由于汽车厂商和经销商都非常注重提高客户的整体体验,所以,让计算机理解海量客户反馈,并从客户反馈中提炼有价值的信息,帮助汽车厂商和经销商提升产品与服务的水平变得尤为重要。目前,针对客户反馈文本的编码方式,主要是采用人工编码的方式,但人工编码成本高、处理海量数据效率低且基于个人理解的编码结果不稳定,信息提炼有偏差。此外,现有文本编码的技术主要是规则编码,规则编码主要是依据关键词或者关键表达式结构提取文本信息,但规则编码的查准率较高、但查全率非常低;而且,一种意思常常有多种表达方式且文本存在感情色彩,单纯的利用规则编码很难精准把握文本涵义;同时,关键词和关键表达式编码也会导致文本大量漏编。并且,仅用规则编码对于文本信息的处理效率是不高的。
技术实现思路
本申请提供了一种文本编码方法、装置、设备及计算机可读存储介质,能够提升编码结果的准确性以及全面性。第一方面,本申请提供了一种文本编码方法,包括:将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设正则表达式;利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果;根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果。第二方面,本申请提供了一种文本编码装置,包括:第一编码单元,用于将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设关键表达式;第二编码单元,用于利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果;第三编码单元,用于根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果。第三方面,本申请提供了一种电子设备,包括:处理器、存储器;所述存储器,用于存储计算机程序;所述处理器,用于通过调用所述计算机程序,执行上述文本编码方法。第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述文本编码方法。在以上本申请提供的技术方案中,将目标文本进行规则匹配,若匹配成功,则生成目标文本的第一编码结果;利用至少两个文本分类模型对目标文本进行分类,若至少两个文本分类模型对目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将目标文本的模型编码结果作为第二编码结果;根据第一编码结果与第二编码结果,生成目标文本的最终编码结果。可见,本申请基于自然语言处理技术的相关算法,将多种算法优化结合对目标文本进行分类,即利用多个文本分类模型进行文本分类,并基于分类结果选择是否使用模型编码结果,继而可以基于模型编码结果以及规则编码结果,生成目标文本的最终编码结果,可以使最终编码结果的查准率和查全率大大提升。附图说明图1为本申请示出的一种文本编码方法的流程示意图;图2为本申请示出的多级码示意图;图3为本申请示出的查准率和查全率的分析示意图;图4为本申请示出的一种文本编码装置的组成示意图;图5为本申请示出的一种电子设备的结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。参见图1,为本申请实施例提供的一种文本编码方法的流程示意图,该方法包括以下步骤S101-S103:S101:将目标文本进行规则匹配,若匹配成功,则生成目标文本的第一编码结果,其中,匹配成功是指从目标文本中匹配到至少一个预设关键词和/或至少一个预设关键表达式。在本申请实施例中,目标文本可以是原始的初始文本、也可以是对初始文本进行预处理后的文本。需要说明的是,本申请实施例不对初始文本所属的文本领域进行限定,比如,该初始文本可以是汽车销售服务的客户反馈文本。此外,本申请实施例也不对初始文本的文本长度进行限定,比如,初始文本是一句话、或一段话。由于可以对某初始文本进行预处理,从而得到目标文本,故而,在本申请实施例的一种实现方式中,S101中的“将目标文本进行规则匹配”之前,还可以包括:获取待编码的初始文本;去除该初始文本中的停用词和/或无意义的标点符号,得到目标文本。在本实现方式中,可以对初始文本进行数据清洗,以去除该初始文本中的无意义的标点符号和/或停用词,其中,为了去除初始文本中的停用词,可以预先创建一个停用词表,通过遍历停用词表,将初始文本与停用词表进行匹配,将匹配到的各个停用词从初始文本中删除;此外,还可以通过文本匹配或语义识别等方式,从初始文本中去除其它干扰句意的词句,以减少无意义词带来的干扰。这样,通过上述一种或多种处理后,即可得到目标文本,这使得后续基于目标文本进行的文本编码结果更为准确。进一步地,还可以按照一定规则删除无意义且不需要编码的惯用句,例如:句子1:客户表示保养的速度很快。句子2:此问题已由JOY自行解决。句子3:客户表示如果有不懂的,会联系经销店。其中,句子1不是惯用句,需要进行编码;句子2和句子3是惯用句,不需要进行编码。那么,对于上述初始文本来讲,该初始文本可能包含一个或多个句子。当该初始文本包含一个句子、且该句子为惯用句时,后续将不对该初始文本进行编码,反之,当该初始文本包含一个句子、且该句子不是惯用句时,后续将会对本文档来自技高网...

【技术保护点】
1.一种文本编码方法,其特征在于,包括:/n将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设正则表达式;/n利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果;/n根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果。/n

【技术特征摘要】
1.一种文本编码方法,其特征在于,包括:
将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设正则表达式;
利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果;
根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果。


2.根据权利要求1所述的方法,其特征在于,所述将目标文本进行规则匹配之前,还包括:
获取待编码的初始文本;
去除所述初始文本中的停用词和/或无意义的标点符号,得到目标文本。


3.根据权利要求2所述的方法,其特征在于,所述得到目标文本之前,还包括:
删除所述初始文本中的惯用句。


4.根据权利要求1所述的方法,其特征在于,所述将目标文本进行规则匹配,包括:
将目标文本与码框中的各个预设关键词以及各个预设正则表达式进行规则匹配,其中,所述码框用于将收集的大量文本语料转化为数据的标准架构。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述至少两个文本分类模型,包括:
基于支持向量机SVM的tgrocery模型、基于神经网络的长短时记忆网络LSTM模型和fasttext模型中的至少两个模型。


6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果,包括:
若存在相同编码结果和不同编码结果,则将所述相同编码结果和所述不同编码结果,作为所述目标文本中的最终编码结果;
其中,所述相同编码结果为所述目标...

【专利技术属性】
技术研发人员:陈文斌王腾飞魏帮国
申请(专利权)人:北京光速斑马数据科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1