一种基于税务咨询问题的热句排序方法技术

技术编号：27617288 阅读：60 留言：0更新日期：2021-03-10 10:50

本发明专利技术涉及一种基于税务咨询问题的热句排序方法。本发明专利技术考虑了关键词频次对热度的影响，对原始文本进行正则匹配、去停用词等方法预处理，然后通过统计的词语的频次数据建立词袋模型，并映射词语得到句子向量。计算出句子向量的模值表示句子的热度，并通过一个修正参数修正对长短不齐的句子的热度。通过计算句子两两之间的jaccard相似度和词向量模型的句子向量余弦相似度对数据集去重。并给重复句子给予额外的热度值奖励。结合词语和语义两个层面的重复程度，最终得到按照热度排序的文本，更加准确、高效。高效。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于税务咨询问题的热句排序方法

[0001]本专利技术涉及人工智能的自然语言处理
，更具体的说，它涉及一种基于税务咨询问题的热句排序方法。

技术介绍

[0002]税收是国家治理的基础，在社会经济生活中发挥着巨大的作用。营改增、电子发票、金税三期，以及房产税、各税等税制改革的不断深化，预示着税务行业正迎来有史以来最辉煌的“互联网+”时代。
[0003]与之伴随的是，互联网上税务问题咨询的数量日益增长，这给有限税务客服解决大量的税务咨询问题带来了困难。因此，提取税务问题的热点问题，并直接给有相关税务问题咨询需求的人提供标准答案可以有效提高税务问题咨询应答的效率。
[0004]目前基于关键词的热点提取方法，最后提取出来的都是热门关键词，这对于表现问题的完整内容是有不足的，可能存在信息缺失的情况。比如，对于税务问题，仅仅提取出关键词是不够的，更重要的是意思明确地组合成句。例如同样是发票问题，如何开具发票和认证发票完全是两个答案。这就涉及到将打乱的句子按照关联词的权重进行重新组合，生成句子向量并对句子进行热度排序，并将热度靠前且语义不重复的句子提取出来的问题。

技术实现思路

[0005]本专利技术克服了现有技术的不足，提供了一种设计简单、提高效率的一种基于税务咨询问题的热句排序方法。
[0006]为了解决上述技术问题，本专利技术的技术方案如下：
[0007]一种基于税务咨询问题的热句排序方法，具体包括如下步骤：
[0008]1)获取初级文本数据集步骤：将由个体或...

【技术保护点】

【技术特征摘要】
1.一种基于税务咨询问题的热句排序方法，其特征在于，具体包括如下步骤：1)获取初级文本数据集步骤：将由个体或企业提出的中文税务相关问题作为原始数据，对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表，获得初级文本数据集；2)句子向量步骤：统计步骤1)统计初级文本数据集中的词频，构建词袋模型，将词语转化为词袋模型的词向量；统计每个词语在初级文本数据集中的频数；对每个文本中的该词向量和频数加权得到包含每个关键词信息的向量，作为用于计算热度的句子向量；通过已经预训练的word2vec模型，把词语转化成词向量模型的词向量称为嵌入词向量，对嵌入词向量加权TF-IDF值得到用于去重的...

【专利技术属性】
技术研发人员：王晶，苏文强，
申请(专利权)人：杭州孚嘉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人