一种基于TFIDF与规则引擎的无监督相似文本推荐方法技术

技术编号:33029824 阅读:13 留言:0更新日期:2022-04-15 09:05
本发明专利技术公开了一种基于TFIDF与规则引擎的无监督相似文本推荐方法,它包括以下步骤:步骤1:通过数据预处理模块对原始的企业经营范围文本数据进行处理,得到干净并分好词的文本数据,步骤2:利用预处理后的文本数据,通过TFIDF并结合规则引擎建立业务标签抽取模型。有益效果在于:本发明专利技术通过基于TFIDF与规则引擎来建立无监督相似文本推荐方法,使得本发明专利技术在相似文本推荐的过程中完全不需要人工提取复杂特征与人工标注数据,满足工程应用,不仅能加速项目开发进度,而且还可以推动人工智能在自然语言领域的行业应用。在自然语言领域的行业应用。在自然语言领域的行业应用。

【技术实现步骤摘要】
一种基于TFIDF与规则引擎的无监督相似文本推荐方法


[0001]本专利技术涉及到信息查找
,尤其涉及一种基于TFIDF与规则引擎的无监督相似文本推荐方法。

技术介绍

[0002]在信息检索与抽取领域中,往往需要根据搜索出来的结果关联或推荐相关的其他结果,间接提高检索的召回率与多样性。
[0003]虽然目前已有较多的推荐算法可以满足要求,但大部分算法都需要大量数据来训练模型,或者需要进行复杂的特征工程等前期工作;对于少量样本数据或数据不均衡模型的效果可能不尽如人意,而复杂的特征工程会加大模型的开发难度,影响项目进度。

技术实现思路

[0004]本专利技术的目的就在于为了解决上述问题而提供一种基于TFIDF与规则引擎的无监督相似文本推荐方法。
[0005]本专利技术通过以下技术方案来实现上述目的:
[0006]一种基于TFIDF与规则引擎的无监督相似文本推荐方法,步骤1:通过数据预处理模块对原始的企业经营范围文本数据进行处理,得到干净并分好词的文本数据;
[0007]步骤2:利用预处理后的文本数据,通过TFIDF并结合规则引擎建立业务标签抽取模型;
[0008]步骤3:将步骤2抽取出来的业务标签建立业务标签词典,并利用TFIDF来训练业务相似度模型;
[0009]步骤4:遍历所有经营范围,结合步骤3训练的TFIDF模型预测结果与杰卡德距离计算的相似度结果,对最终的相似经营范围进行排序,根据阈值或最大相似样本量来进行取舍。
[0010]进一步的,所述步骤2中的规则引擎可自动修正TFIDF模型抽取的业务标签的权重,从而得到更加精准的业务标签,确保业务标签抽取模型的精准度。
[0011]进一步的,所述步骤2中的TFIDF用于实现文本数据的挖掘,能够实现业务标签抽取模型的快速建立。
[0012]进一步的,所述步骤3中的TFIDF主要通过信息检索来训练业务相似度模型,能够确保业务相似度模型的高效训练。
[0013]进一步的,杰卡德距离(j
δ
)的计算公式如下,主要用来衡量两家企业的业务标签的相似程度。
[0014][0015]最终,相似度得分计算公式如下:
[0016][0017]其中,N表示业务标签数量,tfidf_score表示TFIDF模型计算得到的相似得分。
[0018]本专利技术的有益效果在于:
[0019]本专利技术通过基于TFIDF与规则引擎来建立无监督相似文本推荐方法,使得本专利技术在相似文本推荐的过程中完全不需要人工提取复杂特征与人工标注数据,满足工程应用,不仅能加速项目开发进度,而且还可以推动人工智能在自然语言领域的行业应用。
附图说明
[0020]图1为本专利技术所述的一种基于TFIDF与规则引擎的无监督相似文本推荐方法的流程图。
具体实施方式
[0021]一种基于TFIDF与规则引擎的无监督相似文本推荐方法,它包括以下步骤
[0022]步骤1:利用数据预处理模块对原始文本数据进行统一处理,得到较为干净的并分好词的文本数据。
[0023]步骤2:通过TFIDF与规则引擎建立业务标签抽取模型,其中规则引擎的引入可自动调整TFIDF抽取的业务标签的权重,从而影响标签排序的结果,进而可抽取出更加符合输入文本的业务标签,同时规则引擎的加入可增加对结果的可控性与解释性。
[0024]其中,规则引擎中自动修正业务标签抽取权重部分规则如下:
[0025][0026]该公式所体现的含义主要考虑的是业务标签所处位置越靠前,而且长度越长,则权重越大;因为在企业经营范围描述中,排在前面的经营范围都是跟本企业特别相关的,也是最能体现本企业的特征的。
[0027]步骤3:根据步骤2抽取出来的业务标签,利用TFIDF建立相似度计算模型。
[0028]步骤4:针对每家企业的经营范围,遍历其余的经营范围数据,根据步骤3的相似度模型并结合两家企业业务标签的杰卡德距离得到最终两家企业的相似度值,进而根据相似度阈值或最大相似企业量对结果进行取舍。
[0029]本实施例中,所述步骤2中的TFIDF用于实现文本数据的挖掘,能够实现业务标签抽取模型的快速建立。
[0030]本实施例中,所述步骤3中的TFIDF主要通过信息检索来训练业务相似度模型,能够确保业务相似度模型的高效训练。
[0031]本实施例中,杰卡德距离(j
δ
)的计算公式如下,主要用来衡量两家企业的业务标签的相似程度。
[0032][0033]最终,相似度得分计算公式如下:
[0034][0035]其中,N表示业务标签数量,tfidf_score表示TFIDF模型计算得到的相似得分。
[0036]以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于TFIDF与规则引擎的无监督相似文本推荐方法,其特征在于:它包括以下步骤:步骤1:通过数据预处理模块对原始的企业经营范围文本数据进行处理,得到干净并分好词的文本数据;步骤2:利用预处理后的文本数据,通过TFIDF并结合规则引擎建立业务标签抽取模型;步骤3:将步骤2抽取出来的业务标签建立业务标签词典,并利用TFIDF来训练业务相似度模型;步骤4:遍历所有经营范围,结合步骤3训练的TFIDF模型预测结果与杰卡德距离计算的相似度结果,对最终的相似经营范围进行排序,根据阈值或最大相似样本量来...

【专利技术属性】
技术研发人员:胡华龚梁孙平黄腾达
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1