基于TF-IDF算法的校园机器人算法优化方法和系统技术方案

技术编号:23983684 阅读:15 留言:0更新日期:2020-04-29 12:30
本发明专利技术实施例提供一种基于TF‑IDF算法的校园机器人算法优化方法和系统,其中,所述算法优化方法包括:对句子中的预设词汇进行标识,并进行赋值,以提高所述预设词汇的权重占比;写入校园通用易错词数据包;根据所述校园通用易错词数据包对所述拆词后的词组进行自动纠错处理,对偏差模糊度进行二次计算。该方法克服现有技术中TF‑IDF应用到校园项目中还是有一定的缺陷,比如校园项目中特殊冗余词的剔除问题,特殊句的拆词问题。

Optimization method and system of campus robot algorithm based on TF-IDF algorithm

【技术实现步骤摘要】
基于TF-IDF算法的校园机器人算法优化方法和系统
本专利技术涉及机器人
,具体地涉及一种基于TF-IDF算法的校园机器人算法优化系方法和系统。
技术介绍
随着人工智能技术的不断发展,各行各业都出现了功能多样的智能机器人。智慧校园建设本着将科技融入校园的这一初衷,也推出了面向广大学生的智能机器人。这些机器人配备了自动问答系统来回答学生的大部分问题,例如:学分问题,入学缴费问题,毕业问题等。自动问答系统是指以自然语言理解技术为核心,使得机器人能够理解学生的语音内容,实现人与机器人之间的有效交流沟通。而现有技术中的自动问答方法主要是机器人获取学生的提问语句,将提问语句与问答库中的问题进行对比,获取相应的答案。然而针对复杂的问题问法,例如口语化,用户的语言个性化等,现有的自动问答系统难以匹配问答库中的问题从而无法得到合适的答案,为了优化自动问答系统,使答案具有更高准确性,增强学生使用智能机器人的体验。我们需要引进一种TF-IDF的技术作为基础支撑。TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF代表词频(TermFrequency),表示语料出现的次数除以该问答库中的总句数。然而TF-IDF应用到校园项目中还是有一定的缺陷,比如校园项目中特殊冗余词的剔除问题,特殊句的拆词问题。因此,提供一种在使用过程中可以有效地克服TF-IDF应用到校园项目中存在的一定缺陷,对机器人问答预料配置的算法进行优化的基于TF-IDF算法的校园机器人算法优化方法和系统是本专利技术亟需解决的问题。
技术实现思路
针对上述技术问题,本专利技术的目的是克服现有技术中TF-IDF应用到校园项目中还是有一定的缺陷,比如校园项目中特殊冗余词的剔除问题,特殊句的拆词问题,从而提供一种在使用过程中可以有效地克服TF-IDF应用到校园项目中存在的一定缺陷,对机器人问答预料配置的算法进行优化的基于TF-IDF算法的校园机器人算法优化方法和系统。为了实现上述目的,本专利技术实施例提供一种基于TF-IDF算法的校园机器人算法优化方法,所述算法优化方法包括:对句子中的预设词汇进行标识,并进行赋值,以提高所述预设词汇的权重占比;写入校园通用易错词数据包;根据所述校园通用易错词数据包对所述拆词后的词组进行自动纠错处理,对偏差模糊度进行二次计算。优选地,在所述对所述偏差模糊度进行二次计算之后,所述方法还包括:所述句子中冗余词进行剔除。优选地,所述对所述句子中冗余词进行剔除包括以下步骤:在所述拆词模型进行拆词后,对拆词后的词组与预设冗余词进行匹配;删除匹配成功的词组在所述偏差模糊度中的得分。优选地,所述预设词汇的赋值至少为2.0。优选地,在所述写入校园通用易错词数据包之前,所述方法还包括:对所述句子进行拆词,并使用余弦相似度算法计算拆词后的词组的偏差模糊度。本专利技术还提供了一种基于TF-IDF算法的校园机器人算法优化系统,所述系统包括:分词权重设置模块,用于对句子中的预设词汇进行标识,并进行赋值,以提高所述预设词汇的权重占比;拆词优化模块,用于写入校园通用易错词数据包,根据所述校园通用易错词数据包对所述拆词后的词组进行自动纠错处理,对偏差模糊度进行二次计算。优选地,所述系统还包括:冗余词剔除模块,用于对所述句子中冗余词进行剔除处理。优选地,所述剔除处理为对匹配成功的冗余词在所述偏差模糊度中的得分进行删除处理。优选地,分词权重设置模块对所述预设词汇的赋值至少为2.0。优选地,所述系统还包括:拆词模块,用于对所述句子进行拆词,并使用余弦相似度算法计算拆词后的词组的偏差模糊度。根据上述技术方案,本专利技术提供的基于TF-IDF算法的校园机器人算法优化方法在使用时的有益效果为:通过分词权重的设置,可以提高重要关键词的权重,从而提高通过重要关键字匹配正确答案的正确率;通过拆词模型优化,可以避免一些校园场景的特定词不会被拆分,以免遗漏了一些重要的信息,通过以上优化可以提高学生的问题在问答库中的匹配度,提高答案的准确性,使学生拥有更良好的体验度,克服现有技术中TF-IDF应用到校园项目中还是有一定的缺陷,比如校园项目中特殊冗余词的剔除问题,特殊句的拆词问题。本专利技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术实施例,但并不构成对本专利技术实施例的限制。在附图中:图1是本专利技术的一种优选的实施方式中提供的基于TF-IDF算法的校园机器人算法优化方法的流程图;图2是本专利技术的一种优选的实施方式中提供的基于TF-IDF算法的校园机器人算法优化系统的结构图;图3是本专利技术的一种优选的实施方式中提供的基于TF-IDF算法中实体词匹配统计表;图4是本专利技术的一种优选的实施方式中提供的基于TF-IDF算法中语料匹配通过率统计表;以及图5是本专利技术的一种优选的实施方式中提供的基于TF-IDF算法中冗余词匹配比对表。具体实施方式以下结合附图对本专利技术实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术实施例,并不用于限制本专利技术实施例。方法实施例如图1所示,本专利技术提供了一种基于TF-IDF算法的校园机器人算法优化方法,所述算法优化方法包括:对句子中的预设词汇进行标识,并进行赋值,以提高所述预设词汇的权重占比;写入校园通用易错词数据包;根据所述校园通用易错词数据包对所述拆词后的词组进行自动纠错处理,对偏差模糊度进行二次计算。在本专利技术的一种优选的实施方式中,在所述对所述偏差模糊度进行二次计算之后,所述方法还包括:所述句子中冗余词进行剔除。在本专利技术的一种优选的实施方式中,所述对所述句子中冗余词进行剔除包括以下步骤:在所述拆词模型进行拆词后,对拆词后的词组与预设冗余词进行匹配;删除匹配成功的词组在所述偏差模糊度中的得分。在本专利技术的一种优选的实施方式中,所述预设词汇的赋值至少为2.0。在本专利技术的一种优选的实施方式中,在本专利技术的一种优选的实施方式中,在所述写入校园通用易错词数据包之前,所述方法还包括:对所述句子进行拆词,并使用余弦相似度算法计算拆词后的词组的偏差模糊度。以下举例说明本专利技术提供的基于TF-IDF算法的校园机器人算法优化方法的原理:分词权重的设置:原始TF-IDF算法一般用于文本模糊度的匹配,主要逻辑是通过对句子进行拆词,并根据词序、词频构建词组相似度的余弦夹角,依据夹角的大小判定两个文本的相似度。这种算法在词组量较大的文本中准确度较高,但在较小词组量的问答句中,往往因为非关键词组占本文档来自技高网
...

【技术保护点】
1.一种基于TF-IDF算法的校园机器人算法优化方法,其特征在于,所述算法优化方法包括:/n对句子中的预设词汇进行标识,并进行赋值,以提高所述预设词汇的权重占比;/n写入校园通用易错词数据包;/n根据所述校园通用易错词数据包对所述拆词后的词组进行自动纠错处理,对偏差模糊度进行二次计算。/n

【技术特征摘要】
1.一种基于TF-IDF算法的校园机器人算法优化方法,其特征在于,所述算法优化方法包括:
对句子中的预设词汇进行标识,并进行赋值,以提高所述预设词汇的权重占比;
写入校园通用易错词数据包;
根据所述校园通用易错词数据包对所述拆词后的词组进行自动纠错处理,对偏差模糊度进行二次计算。


2.根据权利要求1所述的基于TF-IDF算法的校园机器人算法优化方法,其特征在于,在所述对所述偏差模糊度进行二次计算之后,所述方法还包括:
所述句子中冗余词进行剔除。


3.根据权利要求2所述的基于TF-IDF算法的校园机器人算法优化方法,其特征在于,
所述对所述句子中冗余词进行剔除包括以下步骤:
在所述拆词模型进行拆词后,对拆词后的词组与预设冗余词进行匹配;
删除匹配成功的词组在所述偏差模糊度中的得分。


4.根据权利要求1所述的基于TF-IDF算法的校园机器人算法优化方法,其特征在于,所述预设词汇的赋值至少为2.0。


5.根据权利要求1所述的基于TF-IDF算法的校园机器人算法优化方法,其特征在于,在所述写入校园通用易错词数据包之前,所述方法还包括:
对所述句子进行拆词,并使用余弦相似...

【专利技术属性】
技术研发人员:汪忠国
申请(专利权)人:安徽信息工程学院
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1