一种基于税务咨询问题的热句排序方法技术

技术编号:27617288 阅读:60 留言:0更新日期:2021-03-10 10:50
本发明专利技术涉及一种基于税务咨询问题的热句排序方法。本发明专利技术考虑了关键词频次对热度的影响,对原始文本进行正则匹配、去停用词等方法预处理,然后通过统计的词语的频次数据建立词袋模型,并映射词语得到句子向量。计算出句子向量的模值表示句子的热度,并通过一个修正参数修正对长短不齐的句子的热度。通过计算句子两两之间的jaccard相似度和词向量模型的句子向量余弦相似度对数据集去重。并给重复句子给予额外的热度值奖励。结合词语和语义两个层面的重复程度,最终得到按照热度排序的文本,更加准确、高效。高效。

【技术实现步骤摘要】
一种基于税务咨询问题的热句排序方法


[0001]本专利技术涉及人工智能的自然语言处理
,更具体的说,它涉及一种基于税务咨询问题的热句排序方法。

技术介绍

[0002]税收是国家治理的基础,在社会经济生活中发挥着巨大的作用。营改增、电子发票、金税三期,以及房产税、各税等税制改革的不断深化,预示着税务行业正迎来有史以来最辉煌的“互联网+”时代。
[0003]与之伴随的是,互联网上税务问题咨询的数量日益增长,这给有限税务客服解决大量的税务咨询问题带来了困难。因此,提取税务问题的热点问题,并直接给有相关税务问题咨询需求的人提供标准答案可以有效提高税务问题咨询应答的效率。
[0004]目前基于关键词的热点提取方法,最后提取出来的都是热门关键词,这对于表现问题的完整内容是有不足的,可能存在信息缺失的情况。比如,对于税务问题,仅仅提取出关键词是不够的,更重要的是意思明确地组合成句。例如同样是发票问题,如何开具发票和认证发票完全是两个答案。这就涉及到将打乱的句子按照关联词的权重进行重新组合,生成句子向量并对句子进行热度排序,并将热度靠前且语义不重复的句子提取出来的问题。

技术实现思路

[0005]本专利技术克服了现有技术的不足,提供了一种设计简单、提高效率的一种基于税务咨询问题的热句排序方法。
[0006]为了解决上述技术问题,本专利技术的技术方案如下:
[0007]一种基于税务咨询问题的热句排序方法,具体包括如下步骤:
[0008]1)获取初级文本数据集步骤:将由个体或企业提出的中文税务相关问题作为原始数据,对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表,获得初级文本数据集;
[0009]2)句子向量步骤:统计步骤1)统计初级文本数据集中的词频,构建词袋模型,将词语转化为词袋模型的词向量;统计每个词语在初级文本数据集中的频数;对每个文本中的该词向量和频数加权得到包含每个关键词信息的向量,作为用于计算热度的句子向量;通过已经预训练的word2vec模型,把词语转化成词向量模型的词向量称为嵌入词向量,对嵌入词向量加权TF-IDF值得到用于去重的词向量模型的句子向量;
[0010]3)初步热点排序步骤:计算出每个词袋模型句子向量的模作为句子热度的指标;统计初级文本中序列的平均长度,并将每个序列的长度和平均长度的差值的对数作为一个热度修正参数,通过该参数修正每个句子热度;通过对每个句子的热度逆序排序得到初步热点排序的数据集;
[0011]4)进一步修正热点排序步骤:先通过计算句子两两之间的Jaccard相似度和词向量模型的词向量的余弦相似度的综合结果,对相似句子进行去重;对重复的句子按照重复
数的一定比例增大其热度值;对句子热度值逆序排序,得到最终热点问题的排序结果。
[0012]进一步的,序列为文本的有效长度,含关键词信息的长度。
[0013]本专利技术相比现有技术优点在于:
[0014]本专利技术先对原始文本进行正则匹配、去停用词、同义词替换、jieba分词等方法预处理,然后通过统计的词语的频次数据建立词袋模型,并映射词语得到句子向量。计算出句子向量的模值表示句子的热度,并通过一个修正参数修正对长短不齐的句子的热度。再通过计算句子两两之间的jaccard相似度和词向量模型的句子向量余弦相似度对数据集去重,最终得到按照热度排序的文本。热度的计算过程先是考虑了关键词频次对热度的影响,并通过修正系数减少句子长短不一对最终结果的影响,然后通过计算jacacard和词向量模型的句子向量余弦分别从语言表面和语义的层面上对相似问题进行去重。并给重复句子给予额外的热度值奖励。结合词语和语义两个层面的重复程度,得到综合的热度值。
附图说明
[0015]图1为本专利技术的框架流程图;
[0016]图2为本专利技术的如30个示例用户提问图表;
[0017]图3为本专利技术基于图2进行的提取统计图表;
[0018]图4为本专利技术基于图2进行的热句统计图表。
具体实施方式
[0019]下面结合附图和具体实施方式对本专利技术进一步说明。本专利技术未做详细描述的部分均可采用常规技术方式进行实现,不在进行详细描述。
[0020]如图1至图4所示,一种基于税务咨询问题的热句排序方法,具体包括如下步骤:
[0021]1)获取初级文本数据集步骤:将由个体或企业提出的中文税务相关问题作为原始数据,对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表,得到获得初级文本数据集。
[0022]具体是对提出的税务问题通过正则表达式提取关键词、jieba分词、同义词替换、去停用词的预处理操作。用正则表达式提取文本中的日期信息,如xxxx年、xx月、xx日;时间长度,如xx年、xx个月、xx天、xx周;提取姓+称谓的词组并删除,如x先生、x小姐、x老师;提取文本中的单位费用词组,如xx元/月,xx万元/年;提取文本中的金额,如xx万、x千;提取并删除手机号码和税号;提取文本中的纯数字。
[0023]用jieba对提取后的文本进行分词,jieba先读取税务的专业词汇表的词汇再分词。对jieba分词的结果先通过停用词表删除停用词,再对jieba分词的结果判断是否在同义词表中,如果是则换成同义词。对同一个序列中的重复出现的词语去重(并不会维持句子原来的顺序)。最终得到初级文本数据集。
[0024]如图2所示是30个示例用户提问,用户提问的句子是经过“分词”、“同义词替换”、“删除停用词”、“句子内词语去重”的步骤后得到句子的分词结果。再统计所有用户问中词语的词频,如图3所示,删除频次小于3的词语,保留分词结果中频次大于3的词语作为有效词语。以图2中的“企业如何开通电子发票?开具完后如何申领?”这句话为例,分词之后应该是“[

企业



如何



开通



电子发票







开具











如何



申领

]”。其
中,“企业”、“开通”、“完”、是频次小于3的无效词语;“如何”、“?”、“后”是停用词被删掉;“电子发票”被同义词表替换成“增值税电子普通发票”、“申领”被同义词表替换成“领取”且都是频次小于3的无效词语,所以这句话最终的有效分词结果是[“开具”]。
[0025]2)句子向量步骤:统计步骤1)统计的初级文本数据集中每个词语的词频,构建词袋模型,将词语转化词袋模型的词向量。统计每个词语在初级文本数据集中的频数。对每个文本序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于税务咨询问题的热句排序方法,其特征在于,具体包括如下步骤:1)获取初级文本数据集步骤:将由个体或企业提出的中文税务相关问题作为原始数据,对原始数据进行包括分词、去停用词、同义词替换、正则表达式提取关键信息等预处理方法将句子切分成词语列表,获得初级文本数据集;2)句子向量步骤:统计步骤1)统计初级文本数据集中的词频,构建词袋模型,将词语转化为词袋模型的词向量;统计每个词语在初级文本数据集中的频数;对每个文本中的该词向量和频数加权得到包含每个关键词信息的向量,作为用于计算热度的句子向量;通过已经预训练的word2vec模型,把词语转化成词向量模型的词向量称为嵌入词向量,对嵌入词向量加权TF-IDF值得到用于去重的...

【专利技术属性】
技术研发人员:王晶苏文强
申请(专利权)人:杭州孚嘉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1