【技术实现步骤摘要】
一种基于TFIDF与规则引擎的无监督摘要抽取方法
[0001]本专利技术涉及金融证券信息
,具体为一种基于TFIDF与规则引擎的无监督摘要抽取方法。
技术介绍
[0002]在金融证券领域,每天都会产生大量的新闻资讯文本,对于需要从文本中获取信息的相关人员来说,自动抽取文本摘要会节省大量人工成本,目前摘要抽取分为抽取式与生成式两大类,针对金融证券领域,生成式摘要抽取可能会自由发挥出一些非原文词语,如果修改了数字指标或重要信息,可能会导致摘要与原文不对应。而且生成式摘要需要大量的标注样本进行训练,对于少量样本数据,模型效果可能不尽如人意。因此针对金融证券领域,特别是针对样本数据缺失的场景,抽取式摘要可能更为适合,而现有的抽取式摘要抽取算法只考虑了内容本身,对于新闻资讯标题考虑较少。基于此,本专利技术提出一种基于TFIDF与规则引擎的无监督摘要抽取方法,可以解决金融证券领域摘要抽取的不足,并且满足系统对模型性能的要求。
技术实现思路
[0003](一)解决的技术问题
[0004]针对现有技术的不足,本 ...
【技术保护点】
【技术特征摘要】
1.一种基于TFIDF与规则引擎的无监督摘要抽取方法,其特征在于:包括离线无监督模型训练方法和在线预测方法两部分,所述离线无监督模型训练方法具体包括以下步骤:S1、将大量业务领域文本进行数据预处理,得到干净文本语料;S2、对预处理后的文本语料进行分词;S3、统计分词后文本语料中词语的词频,并根据TFIDF公式计算各词语的IDF值,并保存TFIDF模型;所述在线预测方法具体包括以下步骤:T1、利用数据预处理模块对原始文本数据进行统一处理,得到较为干净的文本数据;T2、根据语料特点选择对应的断句标点集,利用文本分割模块对预处理后的文本数据进行句子切割,得到句子集合列表;T3、利用TFIDF模型提取标题、正文及各个句子的top10关键词及其对应的IDF值;T4、遍历句子集合列表,计算每个句子与标题、首句及正文的相似度;T5、根据业务规则对步骤T4中计算出来的各个维度的相似度值,并结合位置权重进行加权相加,得到最终的相似度结果,然后根据加权相加后的结果进行句子重要程度排序,选取top5的句子作为候选摘要集合;T6、利用摘要连贯性模块对候选摘要集合进行处理,选取符合条件的句子作为最终摘要输出。2.根据权利要求1所述的一种基于TFIDF与规则引擎的无监督摘要抽取方法,其特征在于:所述步骤S1中对大量业务领域文本进行数据预处理具体为:利用数据预处理模块对大量的新闻资讯文本进行过滤。3.根据权利要求1所述的一种基于TFIDF与规则引擎的无监督摘要抽取方法,其特征在于:所述步骤S3中TFIDF公式为其中,分子n
i,j
表示词语t
i
在文件d
j
中的频次,而分母则表示在文件d
j
中所有词语的频次之和。4.根据权利要求1所述的一种基于TFIDF与规则引...
【专利技术属性】
技术研发人员:朱其斯,
申请(专利权)人:武汉市灯塔互动文化传播有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。