基于人工智能的词汇类别挖掘方法、装置及存储介质制造方法及图纸

技术编号:17654994 阅读:46 留言:0更新日期:2018-04-08 08:21
本发明专利技术公开了基于人工智能的词汇类别挖掘方法、装置及存储介质,其中方法包括:从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立词汇与其所在主语句之间的对应关系;从挖掘出的主语句中筛选出主语描述句,主语描述句为能够体现其对应的词汇所属类别的主语句;针对每个词汇,分别通过对词汇对应的主语描述句进行分析,确定出词汇所属的类别。应用本发明专利技术所述方案,能够节省人力成本,提高挖掘效率,并具有普遍适用性。

【技术实现步骤摘要】
基于人工智能的词汇类别挖掘方法、装置及存储介质
本专利技术涉及计算机应用技术,特别涉及基于人工智能的词汇类别挖掘方法、装置及存储介质。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。随着人工智能的发展,文本理解技术变得越来越重要,文本理解技术中很重要的一点就是要理解文本中每个词汇的含义,其中,建立词汇的上位类别是词汇理解的基础。比如,在资讯推荐系统中,词汇类别可用于精准理解资讯主题,在对话系统中,词汇类别可用于精准理解用户意图。相应地,则需要进行词汇类别挖掘,常用的词汇类别挖掘方式主要有以下两种:1)文本关系抽取方式:即从显式描述了词汇关系的句子中直接抽取词汇关系,比如,可从句子“苦瓜是一种蔬菜”中抽取出词汇“苦瓜”所属的类别为“蔬菜”;2)领域词表构建方式:即人工构建领本文档来自技高网...
基于人工智能的词汇类别挖掘方法、装置及存储介质

【技术保护点】
一种基于人工智能的词汇类别挖掘方法,其特征在于,包括:从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立所述词汇与其所在主语句之间的对应关系;从挖掘出的主语句中筛选出主语描述句,所述主语描述句为能够体现其对应的词汇所属类别的主语句;针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别。

【技术特征摘要】
1.一种基于人工智能的词汇类别挖掘方法,其特征在于,包括:从待挖掘语料中挖掘出包含主语的主语句,并将每个主语句中的主语分别作为一个词汇,建立所述词汇与其所在主语句之间的对应关系;从挖掘出的主语句中筛选出主语描述句,所述主语描述句为能够体现其对应的词汇所属类别的主语句;针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别。2.根据权利要求1所述的方法,其特征在于,所述从挖掘出的主语句中筛选出主语描述句包括:针对每个主语句,分别利用预先设定的规则集来确定出所述主语句是否为主语描述句;或者,针对每个主语句,分别利用预先训练得到的二分类模型,确定出所述主语句是否为主语描述句。3.根据权利要求1所述的方法,其特征在于,所述针对每个词汇,分别通过对所述词汇对应的主语描述句进行分析,确定出所述词汇所属的类别包括:针对每个词汇,分别进行以下处理:根据所述词汇对应的主语描述句进行粗粒度分类,确定出所述词汇所属的粗粒度类别;根据所述词汇对应的主语描述句对所述粗粒度类别进行细化,确定出所述词汇所属的细粒度类别;所述细粒度类别为所述粗粒度类别的下位类别。4.根据权利要求3所述的方法,其特征在于,所述根据所述词汇对应的主语描述句进行粗粒度分类,确定出所述词汇所属的粗粒度类别包括:根据所述词汇对应的主语描述句,通过预先训练得到的第一分类模型,确定出所述词汇所属的粗粒度类别。5.根据权利要求3所述的方法,其特征在于,所述根据所述词汇对应的主语描述句对所述粗粒度类别进行细化,确定出所述词汇所属的细粒度类别包括:利用所述粗粒度类别的下位类别构成一个集合A;确定所述词汇对应的主语描述句中是否包含所述集合A中的类别名称;如果是,则利用文本关系抽取方式,从所述词汇对应的主语描述句中抽取出所述词汇所属的细粒度类别;如果否,则根据所述词汇对应的主语描述句,通过预先训练得到的第二分类模型,确定出所述词汇所属的细粒度类别。6.一种基于人工智能的词汇类别挖掘装置,其特征在于,包括:获取单元、筛选单元以及分类单元;所述获取单元,用于从待挖掘语料中挖掘出包含...

【专利技术属性】
技术研发人员:赵岷
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1