问句语义解析规则模板的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:26171151 阅读:24 留言:0更新日期:2020-10-31 13:42
本发明专利技术提供了问句语义解析规则模板的生成方法、装置、设备及存储介质,方法包括:采集线上问句,对每个所述问句进行分词、词性及词语拼音识别;统计各词语的词频,基于所述词频及词性,确定重要词语列表,确定所述重要词语列表中各词语出当前问句中的百分比位置信息及方差;遍历每个线上问句,基于所述重要词语列表生成泛化规则模版;基于泛化能力对所述泛化规则模版进行筛选得到第一过滤规则模版;基于匹配准确率对所述第一过滤规则模版进行筛选得到问句语义解析规则模板。本发明专利技术从线上问句库中,自动挖掘产生高质量规则匹配模板,并通过自动策略产生一个泛化力、解析准确率都较高的规则模板,从而从根源上解决了现有的线上问句解析问题。

【技术实现步骤摘要】
问句语义解析规则模板的生成方法、装置、设备及存储介质
本专利技术属于语义解析
,具体涉及一种问句语义解析规则模板的生成方法、装置、设备及存储介质。
技术介绍
人机对话系统的常见场景有三种,分别为:闲聊型(Chatbot)、问答型(QA)、任务型(VPA)。将用户问句解析为库中存在的标准问句适用于QA系统中的封闭域问答。在语音智能对话系统中,问句的正确理解对整个对话交互的流畅性至关重要。但电话语音,用户语义表达的多样性、口语化、吐字不清晰、噪声因素、或方言等多因素影响,使得语音转文本出现错误字眼,进一步导致问句理解不准确错误。针对上述情况,目前常见解决的方式可分为规则模板方式与统计模型方式两类。规则模板方式,一般是通过人工运营来增加规则模版,来进行精准匹配或模糊匹配的,从而解决语义理解的问题。但目前该方法普遍存在,泛化能力不强,或者太过泛化的问题,并且存在事先准备不足的情况,需要根据线上问答情况让运营人员实时修正调整解析规则模板。统计模型方式,一般是根据相似问法的语义标注结果,通过向量模型来进行用户问句到当前标准问句库的相似本文档来自技高网...

【技术保护点】
1.一种问句语义解析规则模板的生成方法,其特征在于,包括步骤:/nS1、采集线上问句,对每个所述问句进行分词、词性及词语拼音识别;/nS2、统计各词语的词频,基于所述词频及词性,确定重要词语列表,确定所述重要词语列表中各词语出当前问句中的百分比位置信息及方差;/nS3、遍历每个线上问句,基于所述重要词语列表生成泛化规则模版;/nS4、基于泛化能力对所述泛化规则模版进行筛选得到第一过滤规则模版;/nS5、基于匹配准确率对所述第一过滤规则模版进行筛选得到问句语义解析规则模板。/n

【技术特征摘要】
1.一种问句语义解析规则模板的生成方法,其特征在于,包括步骤:
S1、采集线上问句,对每个所述问句进行分词、词性及词语拼音识别;
S2、统计各词语的词频,基于所述词频及词性,确定重要词语列表,确定所述重要词语列表中各词语出当前问句中的百分比位置信息及方差;
S3、遍历每个线上问句,基于所述重要词语列表生成泛化规则模版;
S4、基于泛化能力对所述泛化规则模版进行筛选得到第一过滤规则模版;
S5、基于匹配准确率对所述第一过滤规则模版进行筛选得到问句语义解析规则模板。


2.根据权利要求1所述的生成方法,其特征在于,所述生成方法还包括:
S6、判断所述问句语义解析规则模板的匹配准确率是否高于第四阈值,若是,将相应的问句语义解析规则模板存入规则模版库,若否,执行步骤S7;
S7、将相应的问句语义解析规则模板发送至运营人员,当所述运营员的审核结果为通过时,将相应的问句语义解析规则模板存入规则模版库。


3.根据权利要求1所述的生成方法,其特征在于,所述步骤S2包括:
S21、判断词语的词频是否小于预设词频阈值,若否,将词语加入候选重要词语列表;
S22、判断所述候选重要词语列表中词语的词性是否属于重要词性,若是,将词语加入重要词语列表;
S23、基于n-gram模型生成多个n-gram,对每个n-gram进行频度统计,选择频度大于频度阈值的n-gram加入所述重要词语列表;
S24、接收运营人员输入的词语列表,加入所述重要词语列表;
S25、计算所述问句中重要词语的百分比位置信息及方差。


4.根据权利要求1所述的生成方法,其特征在于,所述步骤S3包括:
S31、基于所述重要词语列表,识别每个线上问句中的重要词语,判断所述问句中是否包括重要词语,若是,执行步骤S32;
S32、基于所有问句中重要词语的百分比位置信息及方差,计算每个重要词语的平均百分比位置信息及平均方差;
S33、基于所述平均百分比位置信息及平均方差确定当前问句中重要词语的泛化窗口;
S34、基于所述泛化窗口进行每个重要词语进行泛化,通过关联信息的组合,确定多个泛化规则模版;
S35、为每个泛化规则模版建立索引,与当前问句关联存储。


5.根据权利要求1所述的生成方法,其特征在于,所述步骤S5包括:基于所述第一过滤规则模版匹配的问句意图一致性对第一过滤规则模版进行筛选和/或基于所述第一过滤规则模版匹配的问句聚类结果一致性对第一过滤规则模版进行过滤。


6.根据权利要求5所述的生成方法,其特征在于,所述基于所述第一过滤规则模版匹配的问句意图一致性对第一过滤规则模版进行筛选具体为:
S511、获取所述第一过滤规则模版对应的第一问句列表,利用规则解析系统对所述第一问句列表中的问句进行解析,确定问句意图;
S512、判断第一问句列表对应的问句意图...

【专利技术属性】
技术研发人员:高鹏康维鹏周伟华潘晶袁兰高峰
申请(专利权)人:杭州摸象大数据科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1