问句标注方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:29134030 阅读:15 留言:0更新日期:2021-07-02 22:29
本发明专利技术公开了一种问句标注方法、装置、设备、存储介质及程序产品,所述方法包括:计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。本发明专利技术实现了在保证了标注准确率的同时,提高了标注效率。

【技术实现步骤摘要】
问句标注方法、装置、设备、存储介质及程序产品
本专利技术涉及自然语言处理
,尤其涉及一种问句标注方法、装置、设备、存储介质及程序产品。
技术介绍
现有的客服系统多轮对话中,客户与客服的对话往往是与上下文相关的,客服往往需要根据上下文的信息来回答客户的问题,因此在机器人客服系统中,如何识别哪些问句是与上下文相关的是多轮对话中的一个难点。现有技术中采用机器学习模型来识别文本是否与上下文相关,但是机器学习模型需要大量的训练样本进行训练才能达到较高的识别准确率,而大量的训练样本需要人工来进行训练标签的标注,标注难度大、效率低。
技术实现思路
本专利技术的主要目的在于提供一种问句标注方法、装置、设备、存储介质及程序产品,旨在解决上下文相关性识别模型的训练样本标注难度大、效率低的技术问题。为实现上述目的,本专利技术提供一种问句标注方法,所述方法包括以下步骤:计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。可选地,所述信息量指标值至少包括信息熵指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:计算所述待标注问句对应的答句的信息熵;对所述信息熵进行归一化处理,得到所述答句的信息熵指标值。可选地,所述信息量指标值至少包括词分布最大概率,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:从所述待标注问句对应的答句的各个词中选取词分布概率最大的目标词;基于所述目标词的词分布概率得到所述答句的词分布最大概率。可选地,所述信息量指标值至少包括长度指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:当所述待标注问句所对应的答句有多个时,将多个所述答句的长度的平均值作为所述答句的长度指标值;当所述待标注问句所对应的答句有一个时,将所述答句的长度作为所述答句的长度指标值。可选地,所述信息量指标值至少包括指示代词比例,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:提取所述待标注问句对应的答句中的指示代词;基于所述指示代词的数量和所述答句的总词数量计算得到所述答句的指示代词比例。可选地,所述信息量指标值至少包括领域关键词比例,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:提取所述待标注问句对应的答句中的领域关键词;基于所述领域关键词的数量和所述答句的总词数量计算得到所述答句的领域关键词比例。可选地,所述信息量指标值至少包括词性种类数量指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:对所述待标注问句对应的答句中各个词的词性进行统计,得到词性种类数量;基于所述词性种类数量得到所述答句的词性种类数量指标值。可选地,所述基于所述信息量指标值进行分类得到所述待标注问句的标注结果的步骤之后,还包括:将所述待标注问句和所述标注结果作为训练数据;采用所述训练数据对预设的分类模型进行训练,并采用训练完成的分类模型对待分类问句进行分类得到所述待分类问句的分类结果,其中,所述分类结果表征所述待分类问句是否属于与上下文相关的问句。可选地,所述采用训练完成的分类模型对待分类问句进行分类得到所述待分类问句的分类结果的步骤之后,还包括:当根据所述分类结果确定所述待分类问句属于与上下文相关的问句时,获取所述待分类问句的上下文信息;从所述上下文信息中提取关键词,基于所述关键词和所述待分类问句在预设知识库中检索得到所述待分类问句的答句,以基于所述答句回复所述待分类问句。为实现上述目的,本专利技术还提供一种问句标注装置,所述装置包括:计算模块,用于计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;分类模块,用于基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。为实现上述目的,本专利技术还提供一种问句标注设备,所述问句标注设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问句标注程序,所述问句标注程序被所述处理器执行时实现如上所述的问句标注方法的步骤。此外,为实现上述目的,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有问句标注程序,所述问句标注程序被处理器执行时实现如上所述的问句标注方法的步骤。此外,为实现上述目的,本专利技术还提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的问句标注方法的步骤。本专利技术中,通过对问句的答句计算能够反映其信息量大小的信息量指标值,基于该信息量指标值来分类计算出问句是否是上下文相关的,从而能够基于分类结果对问句打标注,在保证了标注准确率的同时,提高了标注效率。附图说明图1为本专利技术实施例方案涉及的硬件运行环境的结构示意图;图2为本专利技术问句标注方法第一实施例的流程示意图;图3为本专利技术实施例涉及的一种客服答复确定方法的流程示意图;图4为本专利技术问句标注装置较佳实施例的功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境的设备结构示意图。需要说明的是,本专利技术实施例问句标注设备可以是智能手机、个人计算机和服务器等设备,在此不做具体限制。如图1所示,该问句标注设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的设备结构并不构成对问句标注设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及问句标注程序。操作系统是管理和控制设备硬件和软件资源的程序,支持问句标注程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器本文档来自技高网...

【技术保护点】
1.一种问句标注方法,其特征在于,所述方法包括以下步骤:/n计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;/n基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。/n

【技术特征摘要】
1.一种问句标注方法,其特征在于,所述方法包括以下步骤:
计算待标注问句所对应的答句的信息量指标值,其中,所述信息量指标值表征所述答句的信息量大小;
基于所述信息量指标值进行分类得到所述待标注问句的标注结果,其中,所述标注结果表征所述待标注问句是否属于与上下文相关的问句。


2.如权利要求1所述的问句标注方法,其特征在于,所述信息量指标值至少包括信息熵指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:
计算所述待标注问句对应的答句的信息熵;
对所述信息熵进行归一化处理,得到所述答句的信息熵指标值。


3.如权利要求1所述的问句标注方法,其特征在于,所述信息量指标值至少包括词分布最大概率,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:
从所述待标注问句对应的答句的各个词中选取词分布概率最大的目标词;
基于所述目标词的词分布概率得到所述答句的词分布最大概率。


4.如权利要求1所述的问句标注方法,其特征在于,所述信息量指标值至少包括长度指标值,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:
当所述待标注问句所对应的答句有多个时,将多个所述答句的长度的平均值作为所述答句的长度指标值;
当所述待标注问句所对应的答句有一个时,将所述答句的长度作为所述答句的长度指标值。


5.如权利要求1所述的问句标注方法,其特征在于,所述信息量指标值至少包括指示代词比例,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:
提取所述待标注问句对应的答句中的指示代词;
基于所述指示代词的数量和所述答句的总词数量计算得到所述答句的指示代词比例。


6.如权利要求1所述的问句标注方法,其特征在于,所述信息量指标值至少包括领域关键词比例,所述计算待标注问句所对应的答句的信息量指标值的步骤包括:
提取所述待标注问句对应的答句中的领域关键词;
基于所述领域关键词的数量和所述答句的总词数量计算得到所述答句的领域关键词比例。


7.如权利要求1所述的问句标注方法,其特征在于,所述信息量指标值至少包括词性种类数量指标值,...

【专利技术属性】
技术研发人员:蔡林杨海军徐倩杨强
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1