基于智能问答系统会话历史的新词发现方法及系统技术方案

技术编号:14852222 阅读:63 留言:0更新日期:2017-03-18 15:02
本发明专利技术提供一种基于智能问答系统会话历史的新词发现方法,分析了新词的四个重要特征,即含有多个字、在一定数量的文本中出现多次、具有较高的凝固度,具有较高的自由度,通过数学语言进行定义,使计算机可以直接计算给定文本中的给定的若干候选字是否满足新词的特征,从而对新词进行识别。本发明专利技术还提供了一种基于智能问答系统会话历史的新词发现系统,将新词发现系统融合到智能问答系统中,使得智能问答系统具备自动发现新词的功能,持续完善和提高了智能问答系统的性能。

【技术实现步骤摘要】

本专利技术涉及智能问答领域,特别是一种基于智能问答系统会话历史的新词发现方法及系统
技术介绍
智能问答系统,又称智能机器人,可以接受用户的自然语言输入,分析用户的真实意图,得到唯一的答案返回给用户。随着人工智能技术的进步,智能问答系统,迎来了新一轮的发展热潮。国内外软件公司纷纷推出多款产品,这其中,有以GoogleNow,微软小冰,百度的小度机器人为代表的聊天机器人,可以满足用户生活、娱乐的需要;也有以北京中科汇联科技股份有限公司研发的微喂智能机器人、爱客服智能机器人为代表的专业智能客服机器人,可以满足企事业单位客户服务工作的需要,帮助企事业单位提升客户服务满意度,提高客户服务工作效率,降低客户服务成本。智能问答系统,已经在人们的工作和生活中扮演越来越重要的角色,也正因为此,智能问答系统被称为人工智能皇冠上的明珠,成为科研界、企业界持续关注的热点方向。智能问答系统是一个非常复杂的软件系统,使用了几乎所有的自然语言处理和深度学习技术,比如分词、词性标注、命名实体识别、语法分析、句法分析、卷积神经网络、递归神经网络等等。这其中,分词是一项最为基础的工作,分词结果的好坏直接决定了智能问答系统能否正确的理解用户输入。目前,所有主流的分词器都有内置的词典,词典包含所有已知词语的条目。如果句子中的所有词都在词典中已经收录,主流分词器将该句话进行正确分词的概率在95%以上。如果句子中的某个词在词典中未收录,则分词器很可能无法对这句话进行正确的分词。互联网的普及,知识的爆炸性增长和不断创造,使得新的词汇不断涌现,比如“大众创业”、“万众创新”、“然并卵”、“duang”,这里面既有政府政策和工作中出现的新提法,也有忽然之间发端于互联网的新表达。海量新词的发现使得分词效果面临极大的挑战,进而影响到了智能问答系统的语义理解水平。以“然并卵”为例,只有将其作为一个词看待,才有可能从语义上理解出这个词表达的含义是“然而并没有什么卵用”。那么,如何发现和识别新的词语就成为一个亟待解决的问题。一种解决方法是通过人工筛选的方法来发现和识别新词,但是随着信息的爆炸式增长,新的词语也注定层出不穷,随着中国劳动人口的减少和工作收入的增加,依靠人力的方法成本高昂,以致于难以负担。
技术实现思路
为了克服现有技术的不足,专利技术人对互联网涌现的新词汇进行深入研究,发现用户无论通过何种途经学习到的新的词语,最终都会应用到自己与人、或者机器人的交互过程中。智能问答系统的会话历史是用户与机器聊天的完整记录。将大量用户与智能问答系统的会话历史进行汇总,就能得到人们日常生活工作中经常使用的字、词、句的语料库,这其中自然也会包含人们对新词的使用,并且,越是常用的新词,它出现的频率就会越高,出现在不同搭配和句式中的次数也会越多。专利技术人进一步对这些出现在语料库中的新词语进行分析,总结得到这些新词的的四个鲜明特征:(1)一个词由若干个字组成,(2)一个词在一定规模的语料中肯定会多次出现;(3)词语具有较好的凝固度,即作为词语的若干个字在一个规模较大的语料中连续出现的概率要远大于不作为词语的若干个字在一个规模较大的语料中连续出现的概率;(4)词语具有较好的自由度,即作为词语的若干个字,可以和其它的字、词进行各种不同的搭配和组合,如若不然,此连续出现的若干个字很可能只是一个真正词语的子串。也就是说,只有同时满足了上述四个鲜明的特征的若干个字,才可能是一个新词。本专利技术正是基于此,提出计算新词特征的方法,并应用此方法从智能问答系统的会话历史中发现新词,以提高智能问答系统的语义分析效果,持续完善和提高智能问答系统的性能。本专利技术提供一种基于智能问答系统会话历史的新词发现方法,所述方法包括如下步骤:S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则执行步骤S3;S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。具体地,所述对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词包括:S11、建立索引;S12、提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的候选词,并将其加入索引中。优选地,所述步骤S12中的词语由任意连续出现的2个字、3个字、4个字或5个字组成。优选地,所述步骤S1之前还包括:智能问答系统定时检测会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,则触发新词判断流程。进一步地,所述候选词的凝固度的计算公式为:SolidRate(W1W2...Wn)=P(W1W2...Wn)/max(P(∀Division(W1W2...Wn)))]]>其中,n为候选词的总字数,分子部分P(W1W2...Wn)表示n个字在会话历史中连续出现的概率,Division(W1W2...Wn)表示候选词的一个划分,表示候选词的任意划分,表示候选词的任意划分的概率,表示候选词的所有划分的概率的最大值。进一步地,所述候选词的自由度的计算公式为:FlexibilityRate(W1W2...Wn)=min(Entropy(LeftNeighbourWordSet),Entropy(RightNeighbourWordSet))其中,Entropy(LeftNeighbourWordSet)表示候选词左邻接字集的熵,Entropy(RightNeighbourWordSet)表示候选词右邻接字集的熵,候选词的自由度为左邻接字集的熵和右邻接字集的熵中的最小值。进一步地,所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合,所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合;所述左邻接字集或右邻接字集的熵通过邻接字集熵的计算公式计算得到,邻接字集熵的计算公式为:Entropy=∑(-PWilogPWi),其中PWi表示邻接字集中某个字的概率。优选地,所述步骤S4之后还包括:将判断为本文档来自技高网
...
基于智能问答系统会话历史的新词发现方法及系统

【技术保护点】
一种基于智能问答系统会话历史的新词发现方法,其特征在于,所述方法包括如下步骤:S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则执行步骤S3;S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。

【技术特征摘要】
1.一种基于智能问答系统会话历史的新词发现方法,其特征在于,所述方法包括如下
步骤:
S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;
S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候
选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度
不低于所述频度阈值,则执行步骤S3;
S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选
词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;
S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选
词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。
2.根据权利要求1所述的方法,其特征在于,所述对智能问答系统的会话历史建立索
引,所述索引中包含新词的候选词包括:
S11、建立索引;
S12、提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统
词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的
候选词,并将其加入索引中。
3.根据权利要求2所述的方法,其特征在于,所述步骤S12中的词语由任意连续出现的2
个字、3个字、4个字或5个字组成。
4.根据权利要求1或2所述的方法,其特征在于,所述步骤S1之前还包括:智能问答系统
定时检测会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,触发新词
发现流程。
5.根据权利要求1所述的方法,其特征在于,所述候选词的凝固度的计算公式为:
SolidRate(W1W2...Wn)=P(W1W2...Wn)/max(P(∀Division(W1W2...Wn)))]]>其中,n为候选词的总
字数,分子部分P(W1W2...Wn)表示n个字在会话历史中连续出现的概率,Division
(W1W2...Wn)表示候选词的一个划分,表示候选词的任意划分,
表示候选词的任意划分的概率,表
示候选词的所有划分的概率的最大值。
6.根据权利要求1所述的方法,其特征在于,所述候选词的自由度的计算公式为:
FlexibilityRate(W1W2...Wn)=min(Entropy(Lef...

【专利技术属性】
技术研发人员:游世学杜新凯
申请(专利权)人:北京中科汇联科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1