基于智能问答系统会话历史的新词发现方法及系统技术方案

技术编号：14852222 阅读：63 留言：0更新日期：2017-03-18 15:02

本发明专利技术提供一种基于智能问答系统会话历史的新词发现方法，分析了新词的四个重要特征，即含有多个字、在一定数量的文本中出现多次、具有较高的凝固度，具有较高的自由度，通过数学语言进行定义，使计算机可以直接计算给定文本中的给定的若干候选字是否满足新词的特征，从而对新词进行识别。本发明专利技术还提供了一种基于智能问答系统会话历史的新词发现系统，将新词发现系统融合到智能问答系统中，使得智能问答系统具备自动发现新词的功能，持续完善和提高了智能问答系统的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能问答领域，特别是一种基于智能问答系统会话历史的新词发现方法及系统。
技术介绍
智能问答系统，又称智能机器人，可以接受用户的自然语言输入，分析用户的真实意图，得到唯一的答案返回给用户。随着人工智能技术的进步，智能问答系统，迎来了新一轮的发展热潮。国内外软件公司纷纷推出多款产品，这其中，有以GoogleNow,微软小冰，百度的小度机器人为代表的聊天机器人，可以满足用户生活、娱乐的需要；也有以北京中科汇联科技股份有限公司研发的微喂智能机器人、爱客服智能机器人为代表的专业智能客服机器人，可以满足企事业单位客户服务工作的需要，帮助企事业单位提升客户服务满意度，提高客户服务工作效率，降低客户服务成本。智能问答系统，已经在人们的工作和生活中扮演越来越重要的角色，也正因为此，智能问答系统被称为人工智能皇冠上的明珠，成为科研界、企业界持续关注的热点方向。智能问答系统是一个非常复杂的软件系统，使用了几乎所有的自然语言处理和深度学习技术，比如分词、词性标注、命名实体识别、语法分析、句法分析、卷积神经网络、递归神经网络等等。这其中，分词是一项最为基础的工作，分词结果的好坏直接决定了智能问答系统能否正确的理解用户输入。目前，所有主流的分词器都有内置的词典，词典包含所有已知词语的条目。如果句子中的所有词都在词典中已经收录，主流分词器将该句话进行正确分词的概率在95％以上。如果句子中的某个词在词典中未收录，则分词器很可能无法...
基于智能问答系统会话历史的新词发现方法及系统

【技术保护点】
一种基于智能问答系统会话历史的新词发现方法，其特征在于，所述方法包括如下步骤：S1、对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词；S2、依次遍历索引中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候选词的出现频度低于预设的频度阈值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阈值，则执行步骤S3；S3、计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阈值，则判断该候选词不是新词，如果候选词的凝固度不低于所述凝固度阈值，则执行步骤S4；S4、计算候选词的自由度，如果候选词的自由度低于预设的自由度阈值，则判断该候选词不是新词，如果候选词的自由度不低于所述自由度阈值，则判断该候选词为新词。

【技术特征摘要】
1.一种基于智能问答系统会话历史的新词发现方法，其特征在于，所述方法包括如下
步骤：
S1、对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词；
S2、依次遍历索引中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候
选词的出现频度低于预设的频度阈值，则判断该候选词不是新词，如果候选词的出现频度
不低于所述频度阈值，则执行步骤S3；
S3、计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阈值，则判断该候选
词不是新词，如果候选词的凝固度不低于所述凝固度阈值，则执行步骤S4；
S4、计算候选词的自由度，如果候选词的自由度低于预设的自由度阈值，则判断该候选
词不是新词，如果候选词的自由度不低于所述自由度阈值，则判断该候选词为新词。
2.根据权利要求1所述的方法，其特征在于，所述对智能问答系统的会话历史建立索
引，所述索引中包含新词的候选词包括：
S11、建立索引；
S12、提取会话历史中的词语，判断所述词语是否已经存在于所述智能问答系统的系统
词表中，如果已经存在，则判断所述词语不是新词的候选词，否则，判断所述词语是新词的
候选词，并将其加入索引中。
3.根据权利要求2所述的方法，其特征在于，所述步骤S12中的词语由任意连续出现的2
个字、3个字、4个字或5个字组成。
4.根据权利要求1或2所述的方法，其特征在于，所述步骤S1之前还包括：智能问答系统
定时检测会话历史数据的大小，当检测到会话历史数据超过预设的数据阈值时，触发新词
发现流程。
5.根据权利要求1所述的方法，其特征在于，所述候选词的凝固度的计算公式为：
SolidRate(W1W2...Wn)=P(W1W2...Wn)/max(P(∀Division(W1W2...Wn)))]]>其中，n为候选词的总
字数，分子部分P(W1W2...Wn)表示n个字在会话历史中连续出现的概率，Division
(W1W2...Wn)表示候选词的一个划分，表示候选词的任意划分，
表示候选词的任意划分的概率，表
示候选词的所有划分的概率的最大值。
6.根据权利要求1所述的方法，其特征在于，所述候选词的自由度的计算公式为：
FlexibilityRate(W1W2...Wn)＝min(Entropy(Lef...

【专利技术属性】
技术研发人员：游世学，杜新凯，
申请(专利权)人：北京中科汇联科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人