【技术实现步骤摘要】
本专利技术涉及智能问答领域,特别是一种基于智能问答系统会话历史的新词发现方法及系统。
技术介绍
智能问答系统,又称智能机器人,可以接受用户的自然语言输入,分析用户的真实意图,得到唯一的答案返回给用户。随着人工智能技术的进步,智能问答系统,迎来了新一轮的发展热潮。国内外软件公司纷纷推出多款产品,这其中,有以GoogleNow,微软小冰,百度的小度机器人为代表的聊天机器人,可以满足用户生活、娱乐的需要;也有以北京中科汇联科技股份有限公司研发的微喂智能机器人、爱客服智能机器人为代表的专业智能客服机器人,可以满足企事业单位客户服务工作的需要,帮助企事业单位提升客户服务满意度,提高客户服务工作效率,降低客户服务成本。智能问答系统,已经在人们的工作和生活中扮演越来越重要的角色,也正因为此,智能问答系统被称为人工智能皇冠上的明珠,成为科研界、企业界持续关注的热点方向。智能问答系统是一个非常复杂的软件系统,使用了几乎所有的自然语言处理和深度学习技术,比如分词、词性标注、命名实体识别、语法分析、句法分析、卷积神经网络、递归神经网络等等。这其中,分词是一项最为基础的工作,分词结果的好坏直接决定了智能问答系统能否正确的理解用户输入。目前,所有主流的分词器都有内置的词典,词典包含所有已知词语的条目。如果句子中的所有词都在词典中已经收录,主流分词器将该句话进行正确分词的概率在95%以上。如果句子中的某个词在词典中未收录,则分词器很可能无法 ...
【技术保护点】
一种基于智能问答系统会话历史的新词发现方法,其特征在于,所述方法包括如下步骤:S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则执行步骤S3;S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。
【技术特征摘要】
1.一种基于智能问答系统会话历史的新词发现方法,其特征在于,所述方法包括如下
步骤:
S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;
S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候
选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度
不低于所述频度阈值,则执行步骤S3;
S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选
词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;
S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选
词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。
2.根据权利要求1所述的方法,其特征在于,所述对智能问答系统的会话历史建立索
引,所述索引中包含新词的候选词包括:
S11、建立索引;
S12、提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统
词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的
候选词,并将其加入索引中。
3.根据权利要求2所述的方法,其特征在于,所述步骤S12中的词语由任意连续出现的2
个字、3个字、4个字或5个字组成。
4.根据权利要求1或2所述的方法,其特征在于,所述步骤S1之前还包括:智能问答系统
定时检测会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,触发新词
发现流程。
5.根据权利要求1所述的方法,其特征在于,所述候选词的凝固度的计算公式为:
SolidRate(W1W2...Wn)=P(W1W2...Wn)/max(P(∀Division(W1W2...Wn)))]]>其中,n为候选词的总
字数,分子部分P(W1W2...Wn)表示n个字在会话历史中连续出现的概率,Division
(W1W2...Wn)表示候选词的一个划分,表示候选词的任意划分,
表示候选词的任意划分的概率,表
示候选词的所有划分的概率的最大值。
6.根据权利要求1所述的方法,其特征在于,所述候选词的自由度的计算公式为:
FlexibilityRate(W1W2...Wn)=min(Entropy(Lef...
【专利技术属性】
技术研发人员:游世学,杜新凯,
申请(专利权)人:北京中科汇联科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。