【技术实现步骤摘要】
信息挖掘方法和装置
本专利技术涉及信息检索
,尤其涉及一种信息挖掘方法和装置。
技术介绍
在人机交互系统中,用户对于机器人交互的需求表达多种多样。现有的基于模板解析模块需要有全量的用户提问查询语句(query),才能提高用户理解的召回率和解析准确率。这些用户表达有以下几个特点,造成使用传统的人工富集规则和词表,存在很多问题。(1)表达方式多种多样,同个问题用户的表达形式各种各样,不同用户的表达习惯也多种多样,在这种情况下,人工富集构建无法覆盖所有表达。(2)表达偏口语化,用户表达形式口语化严重,人工富集的模板无法覆盖。(3)每一维度的词表数量庞大,人工没法构建如此庞大数量级的词表。由于用户表达的以上特点,如果使用人工富集规则和词表,存在时间和人力成本高、效率低、解析效果差等问题,会导致用户理解模块效果差,人机交互体验差。此外,富集词表无法富集大规模全量词表,导致解析召回率低。富集表达方式无法富集大规模全量表达模板、口语化表达,导致解析召回率和准确率低,不能理解用户表达,无法提供准确答案,导致用户满意度低。
技术实现思路
本专利技术实施例提供一种信息挖掘方法和装置 ...
【技术保护点】
1.一种信息挖掘方法,其特征在于,包括:从搜索日志中挖掘每个特定类别的各查询语句;给定所述特定类别的种子实体;根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。
【技术特征摘要】
1.一种信息挖掘方法,其特征在于,包括:从搜索日志中挖掘每个特定类别的各查询语句;给定所述特定类别的种子实体;根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板。2.根据权利要求1所述的方法,其特征在于,根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板,包括:如果所述特定类别的查询语句中包括种子实体,则将所述种子实体采用通配图代替,得到对应的表达模板。3.根据权利要求1所述的方法,其特征在于,还包括:利用各表达模板,从所述搜索日志中挖掘出各种实体,以得到高频词和/或口语化词;和/或从选定网站的全量数据中抽取属于所述特定类别的全量词。4.根据权利要求3所述的方法,其特征在于,还包括:对挖掘出的各种实体的表达模板进行可缩放矢量图形SVG降维处理,得到对应的特征向量;将多个表达模板对应的特征向量进行聚类,得到所述特定类别包括的表达模板。5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:对所述搜索日志进行筛选,得到相关的查询语句和表达模板。6.根据权利要求5所述的方法,其特征在于,根据各类别的查询语句及其对应的表达模板,从所述搜索日志中挖掘得到高频查询语句和高频表达模板,包括:从相关的查询语句中,获取已标注的查询语句,所述已标注的查询语句中包括类别标签;根据已标注的查询语句中两个查询语句的词向量计算二者的语义相似度;如果所述两个查询语句的语义相似度大于阈值,则建立二者之间的链接;根据各查询语句之间的链接,以及每个查询语句与其对应的表达模板之间的连接关系,建立语句模板关系图;根据已标注的查询语句中每个查询语句的类别标签和已标注的查询语句的总数,计算随机算法的参数;在所述语句模板关系图中采用所述随机算法,得到各查询语句及其对应的表达模板的排序;根据排序结果筛选出高频查询语句和高频查询模板。7.一种信息挖掘装置,其特征在于,包括:语句挖掘模块,用于从搜索日志中挖掘每个特定类别的各查询语句;实体给定模块,用于给定所述特定类别的种子实体;模板生成模块,用于根据所述特定类别的种子实体和各查询语句,生成所述特定类别的各查询语句对应的表达模板;高频挖掘模块,...
【专利技术属性】
技术研发人员:王文敏,纪友升,凌光,徐威,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。