一种基于TFIDF与规则引擎的无监督相似文本推荐方法技术

技术编号：33029824 阅读：13 留言：0更新日期：2022-04-15 09:05

本发明专利技术公开了一种基于TFIDF与规则引擎的无监督相似文本推荐方法，它包括以下步骤：步骤1：通过数据预处理模块对原始的企业经营范围文本数据进行处理，得到干净并分好词的文本数据，步骤2：利用预处理后的文本数据，通过TFIDF并结合规则引擎建立业务标签抽取模型。有益效果在于：本发明专利技术通过基于TFIDF与规则引擎来建立无监督相似文本推荐方法，使得本发明专利技术在相似文本推荐的过程中完全不需要人工提取复杂特征与人工标注数据，满足工程应用，不仅能加速项目开发进度，而且还可以推动人工智能在自然语言领域的行业应用。在自然语言领域的行业应用。在自然语言领域的行业应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于TFIDF与规则引擎的无监督相似文本推荐方法

[0001]本专利技术涉及到信息查找
，尤其涉及一种基于TFIDF与规则引擎的无监督相似文本推荐方法。

技术介绍

[0002]在信息检索与抽取领域中，往往需要根据搜索出来的结果关联或推荐相关的其他结果，间接提高检索的召回率与多样性。
[0003]虽然目前已有较多的推荐算法可以满足要求，但大部分算法都需要大量数据来训练模型，或者需要进行复杂的特征工程等前期工作；对于少量样本数据或数据不均衡模型的效果可能不尽如人意，而复杂的特征工程会加大模型的开发难度，影响项目进度。

技术实现思路

[0004]本专利技术的目的就在于为了解决上述问题而提供一种基于TFIDF与规则引擎的无监督相似文本推荐方法。
[0005]本专利技术通过以下技术方案来实现上述目的：
[0006]一种基于TFIDF与规则引擎的无监督相似文本推荐方法，步骤1：通过数据预处理模块对原始的企业经营范围文本数据进行处理，得到干净并分好词的文本数据；
[0007]步骤2：利用预处理后的文本数据，通过TFIDF并结合规则引擎建立业务标签抽取模型；
[0008]步骤3：将步骤2抽取出来的业务标签建立业务标签词典，并利用TFIDF来训练业务相似度模型；
[0009]步骤4：遍历所有经营范围，结合步骤3训练的TFIDF模型预测结果与杰卡德距离计算的相似度结果，对最终的相似经营范围进行排序，根据阈值或最大相似样本量来进行取舍。
[0010]进一步的...

【技术保护点】

【技术特征摘要】
1.一种基于TFIDF与规则引擎的无监督相似文本推荐方法，其特征在于：它包括以下步骤：步骤1：通过数据预处理模块对原始的企业经营范围文本数据进行处理，得到干净并分好词的文本数据；步骤2：利用预处理后的文本数据，通过TFIDF并结合规则引擎建立业务标签抽取模型；步骤3：将步骤2抽取出来的业务标签建立业务标签词典，并利用TFIDF来训练业务相似度模型；步骤4：遍历所有经营范围，结合步骤3训练的TFIDF模型预测结果与杰卡德距离计算的相似度结果，对最终的相似经营范围进行排序，根据阈值或最大相似样本量来...

【专利技术属性】
技术研发人员：胡华，龚梁，孙平，黄腾达，
申请(专利权)人：武汉烽火普天信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人