基于改进词频的余弦相似度进行在线问答问题匹配的方法技术

技术编号:35904480 阅读:14 留言:0更新日期:2022-12-10 10:41
本发明专利技术涉及一种基于改进词频的余弦相似度进行在线问答问题匹配的方法,可最大限度的匹配出用户问题,包括步骤:维护分词字典,为每条题库问题生成题库问题词汇表。对用户问题和每条题库问题进行归一化匹配,获得备选问题清单。本发明专利技术可通过业务分词字典和停用词字典,对用户问题和题库问题进行分词处理时,过滤干扰词汇,识别出有效的业务词汇,提高问题的匹配概率。同时将词汇出现次数进行归一化处理,只要词汇出现在问题描述中,不论出现次数,将其出现次数统一设置为1,否则设置为0,提高了备选问题的匹配数量。备选问题的匹配数量。备选问题的匹配数量。

【技术实现步骤摘要】
基于改进词频的余弦相似度进行在线问答问题匹配的方法


[0001]本专利技术涉及一种基于改进词频的余弦相似度进行在线问答问题匹配的方法。

技术介绍

[0002]维护在线问答问题库,使用余弦相似度方法进行问题匹配的方式,构建在线智能问答客服系统,因其实现难度低等因素仍然被很多项目采用。为了降低人工干预解决用户问题的比例,提高用户问题的解决效率,需要系统能够尽可能的自动匹配用户提出的问题,对问题匹配处理进行了改进处理。首先对问题词汇进行有效化处理:根据业务特性,制定特定业务的业务分词字典,提取题库问题描述和问题答案的词汇时,根据业务分词字典能够更准确的进行分词,对用户问题进行分词处理后,剔除类似客套话的词汇,将影响问题匹配的非关键词语过滤出运算环节,保证参与问题匹配的词汇有效性,提高了问题的匹配概率。其次对问题词汇进行归一化处理:使用业务词汇是否出现替代出现次数参与计算,即对于问题中的词汇,只要出现,不论出现次数,将其出现次数统一设置为1,否则设置为0。归一化处理明显提高了备选问题的匹配数量,可以得到选择更大范围的备选问题清单,由用户选择需要了解的问题并查看问题答案。
[0003]用户在线提出问题时,存在用户问题匹配题库问题的匹配度偏低的问题。用户在线提出问题时,系统按一定算法将题库问题按需匹配出来,提供全面的匹配问题清单给用户选择,尽最大可能解决用户的问题。如果用户在匹配问题清单中找不到自己需要咨询的问题,只能通过人工提问的方式在线提出问题,不仅沟通效率有所降低,而且会增加后台人员的工作量。

技术实现思路

[0004]本专利技术的目的是提供一种基于改进词频的余弦相似度进行在线问答问题匹配的方法。通过对在线问答的题库问题和用户问题中的词汇进行有效性识别和词汇出现频率的归一化处理,提高了用户问题匹配概率和备选问题数量,提高了沟通效率,降低了后台人员的工作量。
[0005]本专利技术的目的通过以下技术方案实现:
[0006]一种基于改进词频的余弦相似度进行在线问答问题匹配的方法,其特征在于,包括如下步骤:
[0007](1)维护分词字典,为每条题库问题生成题库问题有效词汇表;
[0008](2)对用户问题和每条题库问题进行归一化匹配,获得备选问题清单。
[0009]分词字典包括业务分词字典和停用词字典,业务分词字典是根据实际的业务处理过程中,参照收集的问题描述和问题答案进行制定,停用词字典是非业务方面的客套词语。
[0010]步骤(1)中,根据题库中每条题库问题的问题描述和问题答案,使用中文分词工具,结合业务分词字典,生成对应题库问题的业务词汇表;具体如下:
[0011](1

1)维护业务分词字典和停用词字典。
[0012]业务分词字典是系统在对问题进行分词处理时,确保业务领域内的特定名词不被分成多个词汇。停用词字典是系统在对用户问题进行分词处理时,将识别出的停用词剔除,降低停用词对问题匹配的影响。
[0013](1

2)维护在线问答题库,为每条题库问题生成题库问题有效词汇表。
[0014]收集在线问答问题信息,根据问题描述和问题答案,使用中文分词工具,结合业务分词字典,生成题库问题的词汇表。对于题库问题词汇表进行了归一化处理,不统计该词汇在问题描述和问题答案中出现的次数,只统计该词汇是否在问题描述和问题答案中出现。
[0015]步骤(1)中,对用户问题,使用中文分词工具,结合业务分词字典和停用词字典,生成用户问题词汇表。再分别计算题库问题和用户问题的归一化词频向量,使用余弦相似度计算题库问题和用户问题的相似度,将符合要求的题库问题加入备选问题清单,最后返回备选问题清单。具体如下:
[0016](2

1)获取用户问题,生成用户问题有效词汇表。
[0017]获取用户在线提出的问题,使用中文分词工具,结合业务分词字典和停用词字典,生成用户问题词汇表。同样对于用户问题词汇表也进行了归一化处理,不统计该词汇在用户问题中出现的次数,只统计该词汇是否在用户问题中出现,得到用户问题的词汇表集合。
[0018](2

2)确定题库问题和用户问题词汇表合集。
[0019]从在线问答题库中取出一条题库问题,同时得到该题库问题的词汇表集合。再取题库问题词汇表集合和用户问题词汇表集合的词汇合集。
[0020](2

3)分别计算每条题库问题和用户问题的归一化词频向量。
[0021]根据题库问题和用户问题的词汇表信息,得到题库问题和用户问题是否在词汇合集中出现,用0表示未出现,1表示出现,从而可以分别得到题库问题和用户问题词频向量。
[0022](2

4)使用余弦相似度公式计算题库问题和用户问题的相似度。
[0023]两个向量的相似性可通过余弦函数计算得到,计算公式如下:
[0024][0025][0026]其中A表示题库问题识别词汇在词汇合集中是否出现的向量,B表示用户问题识别词汇在词汇合集中是否出现的向量。词汇合集是当前题库问题识别词汇和用户问题识别词汇的归一化合集。
[0027]经过计算,得到当前示例题库问题和用户问题的相似性结果,如果该结果低于系统设置的相似性阈值,则认为该题库问题和用户问题差异太大而舍弃,否则认为该问题和用户问题存在一定的相似性,将该题库问题加入到备选问题清单。
[0028](2

5)将所有符合要求的题库问题加入备选问题清单并返回。
[0029]依次从在线问答题库中取出题库问题,重复执行上述获取词汇合集、计算相似结果,得到题库中所有满足相似性要求的题库问题,形成完整的备选问题清单并返回。
[0030]本专利技术用以解决用户在线提出问题时,用户问题匹配题库问题的匹配度偏低的问题。用户在线提出问题时,系统按一定算法将题库问题按需匹配出来,提供全面的匹配问题
清单给用户选择,尽最大可能解决用户的问题。如果用户在匹配问题清单中找不到自己需要咨询的问题,只能通过人工提问的方式在线提出问题,不仅沟通效率有所降低,而且会增加后台人员的工作量,提高了用户问题匹配概率和备选问题数量。
[0031]本专利技术的有益效果是:
[0032]本专利技术可通过业务分词字典和停用词字典,对用户问题和题库问题进行分词处理时,过滤干扰词汇,识别出有效的业务词汇,提高问题的匹配概率。同时将词汇出现次数进行归一化处理,只要词汇出现在问题描述中,不论出现次数,将其出现次数统一设置为1,否则设置为0,提高了备选问题的匹配数量。本专利技术提高了沟通效率,降低了后台人员的工作量。
附图说明
[0033]图1是本专利技术的处理流程图。
具体实施方式
[0034]一种基于改进词频的余弦相似度进行在线问答问题匹配的方法,包括如下步骤:
[0035](1)维护分词字典,为每条题库问题生成题库问题有效词汇表;
[0036](2)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进词频的余弦相似度进行在线问答问题匹配的方法,其特征在于,包括如下步骤:(1)维护分词字典,为每条题库问题生成题库问题有效词汇表;(2)对用户问题和每条题库问题进行归一化匹配,获得备选问题清单。2.根据权利要求1所述的基于改进词频的余弦相似度在线问答问题匹配的方法,其特征在于,步骤(1)中,根据题库中每条题库问题的问题描述和问题答案,使用中文分词工具,结合业务分词字典,生成对应题库问题的业务词汇表;具体如下:(1

1)维护业务分词字典和停用词字典;业务分词字典是系统在对问题进行分词处理时,确保业务领域内的特定名词不被分成多个词汇;停用词字典是系统在对用户问题进行分词处理时,将识别出的停用词剔除,降低停用词对问题匹配的影响;(1

2)维护在线问答题库,为每条题库问题生成题库问题有效词汇表;收集在线问答问题信息,根据问题描述和问题答案,使用中文分词工具,结合业务分词字典,生成题库问题的词汇表;对于题库问题词汇表进行归一化处理,不统计该词汇在问题描述和问题答案中出现的次数,只统计该词汇是否在问题描述和问题答案中出现。3.根据权利要求1所述的基于改进词频的余弦相似度在线问答问题匹配的方法,其特征在于,步骤(2)中,对用户问题,使用中文分词工具,结合业务分词字典和停用词字典,生成用户问题词汇表;再分别计算题库问题和用户问题的归一化词频向量,使用余弦相似度计算题库问题和用户问题的相似度,将符合要求的题库问题加入备选问题清单,最后返回备选问题清单;具体如下:(2

1)获取用户问题,生成用户问题有效词汇表;获取用户在线提出的问题,使用中文分词工具,结合业务分词字典和停用词字典,生成用户问题词汇表;对于用户问题词汇表也进行归一化处理,不统计该词汇在用户问...

【专利技术属性】
技术研发人员:张震宇冯曙明胡天牧时晨
申请(专利权)人:江苏电力信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1