一种基于短会话的新词发现方法、存储介质和电子装置制造方法及图纸

技术编号:24091426 阅读:29 留言:0更新日期:2020-05-09 08:15
本发明专利技术公开一种基于短会话的新词发现方法,获取会话内容;分词处理,对所述获取的会话内容进行分词,对分词结果进行处理得到具有业务含义的目标词汇,所述目标词汇由基础单一词汇独立或组合形成;候选词汇筛选,获取所述目标词汇的属性和词频,根据所述目标词汇的属性和词频将符合预定条件的目标词汇作为候选词汇;成词指标计算,计算所述候选词汇的互信息值和左右熵值;候选新词筛选,将满足预设互信息阈值和左右熵阈值的候选词汇作为候选新词;输出新词,对所述候选新词按照词频排序,输出预定数量的新词。结合多重阈值筛选策略进行新词发现,覆盖了单一成词和组合成词的范围,提高了新词发现的可能性。

A new word discovery method, storage medium and electronic device based on short conversation

【技术实现步骤摘要】
一种基于短会话的新词发现方法、存储介质和电子装置
本专利技术涉及人工智能领域,尤其是涉及一种基于短会话的新词发现方法、存储介质和电子装置。
技术介绍
特定领域内的客服机器人使用场景中,例如购物、理财、政务等,客户会话内容通常具有简短、相似性高、干扰信息多、有一定的节奏性等特点。通过对这些短会话分析,及时准确发现新的业务词汇,能高效收集业务素材,有效促进问答知识库相关内容完善,更精准理解用户意图,提升客服机器人服务水平和交互体验。中国专利CN106126606A公开了一种短文本新词发现方法,从当前短文本中提取一字符串s,计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s);取左邻熵HL(s)和右邻熵HL(s)的较小值,记为BE(s);计算该字符串s的成词概率Prword(s),根据Prword(s)的值确定词s是否为新词。上述专利公开的技术方案主要针对文本中字符串做处理,具有一定的盲目性,对于大部分由组合词形成的新词不能做到很好的针对性。基于当前智能学习的深入和客服机器人自主学习要求的提高,亟本文档来自技高网...

【技术保护点】
1.一种基于短会话的新词发现方法,其特征在于:/n获取会话内容;/n分词处理,对所述获取的会话内容进行分词,对分词结果进行处理得到具有业务含义的目标词汇,所述目标词汇由基础单一词汇独立或组合形成;/n候选词汇筛选,获取所述目标词汇的属性和词频,根据所述目标词汇的属性和词频将符合预定条件的目标词汇作为候选词汇;/n成词指标计算,计算所述候选词汇的互信息值和左右熵值;/n候选新词筛选,将满足预设互信息阈值和左右熵阈值的候选词汇作为候选新词;/n输出新词,对所述候选新词按照词频排序,输出预定数量的新词。/n

【技术特征摘要】
1.一种基于短会话的新词发现方法,其特征在于:
获取会话内容;
分词处理,对所述获取的会话内容进行分词,对分词结果进行处理得到具有业务含义的目标词汇,所述目标词汇由基础单一词汇独立或组合形成;
候选词汇筛选,获取所述目标词汇的属性和词频,根据所述目标词汇的属性和词频将符合预定条件的目标词汇作为候选词汇;
成词指标计算,计算所述候选词汇的互信息值和左右熵值;
候选新词筛选,将满足预设互信息阈值和左右熵阈值的候选词汇作为候选新词;
输出新词,对所述候选新词按照词频排序,输出预定数量的新词。


2.根据权利要求1所述的新词发现方法,其特征在于:所述目标词汇包括:一元词汇、二元词汇或者三元词汇,所述一元词汇为能单独成词且具有业务含义的基础单一词汇;所述二元词汇为由两个所述一元词汇组成的具有业务含义的词汇;所述三元词汇为一个所述一元词汇和一个所述二元词汇或者三个所述一元词汇组成具有业务含义的词汇。


3.根据权利要求1所述的新词发现方法,其特征在于:目标词汇的属性包括词名称、左邻词汇集或右邻词汇集。


4.根据权利要求1所述的新词发现方法,其特征在于:所述候选词汇的互信息值计算方式为:



其中Mi(x,y)为词汇x和词汇y的互信息值,x,y指两个相邻的词汇,P(x,y)代表词汇x和词汇y同时出现的概率,P(x)代表词汇x出现的概率,P(y)代表词汇y出现的概率;
所述候选词汇的左右熵值计算方式为:






其中El(w)为词汇w的左熵值,P(aw|w)为词汇a和词汇w组合的词汇aw出现频率与w的总出现频率的比值,a为词汇w左相邻词汇,Er(w)为词汇w的右熵值,P(wb|w)为词汇b和词汇w组...

【专利技术属性】
技术研发人员:杨雷李昱王全礼张晨唐汇
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1