The invention discloses an entity extraction method for BOT system, which discovers new entities from BOT_CHAT Q&A log through NEW_ENTITY_EXTRACT module, and adds new entities to the entity dictionary of BOT_KMS knowledge management system, which is provided for dictionary recognition AHOCORASICK module to use. The invention mainly overcomes the problem of cold start of BOT system facing users in new fields by identifying/extracting the co-occurrence words in question and answer, automatically discovers new entities from BOT logs, supplements the shortcomings of the existing entity recognition system, does not require a lot of manual labeling, and extracts efficiently.
【技术实现步骤摘要】
一种用于BOT系统的实体抽取方法
本专利技术涉及一种BOT系统,具体是一种用于BOT系统的实体抽取方法。
技术介绍
在BOT对话系统中,实体识别/抽取在用户意图识别/问题语义解析方面都起着重要的作用。但是BOT系统用户通常来自不同的领域,每个领域都有大量新的专有实体名词,比如新的公司名、新的产品名。这些专有名词使用的实体识别/抽取方法会失效。当前的实体识别/抽取主要有词典方法、基于机器学习方法和基于规则模板的方法。现有技术一的实现方案基于词典的实体识别/抽取方法主要通过用户问题匹配实体词库中的实体词得到。现有技术一的缺点:没有泛化能力,不能冷启动。需要BOT系统用有实体标注的专业知识,同时需要花费大量的人力进行实体整理,然后加入到实体词库。现有技术二的实现方案基于机器学习方法主要使用序列标注算法,比如HMM、CRF以及深度学习想结合的算法CNN+BILSTM+CRF等。现有技术二的缺点:没有泛化能力,不能冷启动。需要BOT系统用有实体标注的专业知识,同时需要花费大量的人力进行实体整理,然后加入到实体词库。现有技术三的实现方案基于规则模板的方法主要从问题中提取句法/文法规则。先对问题进行词性标注、依存句法分析,然后结合问题中的关系词和词性标注/依存句法分析结果提取模板。现有技术三的缺点:由于BOT系统中的对话篇口语化,规则分析往往失效。同时对新领域的大量新词,词性标注和依存句法分析错误率很高。
技术实现思路
本专利技术的目的在于提供一种用于BOT系统的实体抽取方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种用于BOT系统的实 ...
【技术保护点】
1.一种用于BOT系统的实体抽取方法,其特征在于,通过NEW_ENTITY_EXTRACT模块从BOT_CHAT的问答日志中发现新实体并将新发现实体加入到知识管理系统BOT_KMS的实体词典中,提供给词典识别AHOCORASICK模块使用。
【技术特征摘要】
1.一种用于BOT系统的实体抽取方法,其特征在于,通过NEW_ENTITY_EXTRACT模块从BOT_CHAT的问答日志中发现新实体并将新发现实体加入到知识管理系统BOT_KMS的实体词典中,提供给词典识别AHOCORA...
【专利技术属性】
技术研发人员:陈国锋,
申请(专利权)人:北京捷易迅信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。