一种道路运输常态化问题诉求发现方法及系统技术方案

技术编号:36575554 阅读:19 留言:0更新日期:2023-02-04 17:33
本发明专利技术公开一种道路运输常态化问题诉求发现方法及系统,构建道路运输工单文本语料库;对道路运输工单文本语料库进行预处理,得到处理道路运输工单文本语料库;基于处理道路运输工单文本语料库,得到处理道路运输工单文本的低维文本向量特征;构建道路运输工单文本主题划分模型,得到文本所属主题标签;获取文本所属主题标签的Top10关键词,实现主题提取和精简。本发明专利技术克服了传统人工发现方法效率低、查全率低、主观性强的缺点;能够快速、准确、全面发现道路运输本文中的常态化问题诉求,为行业管理部门梳理诉求主题分类架构,进而把握和跟踪行业热点问题并有针对性地开展答复工作奠定基础,有助于提升交通运输行业治理能力和公共服务水平。和公共服务水平。和公共服务水平。

【技术实现步骤摘要】
一种道路运输常态化问题诉求发现方法及系统


[0001]本专利技术涉及自然语言处理技术在道路运输行业应用领域,特别涉及一种道路运输常态化问题诉求发现方法及系统。

技术介绍

[0002]各个行业领域中的热线电话是广大人民群众表达意愿心声、反映利益诉求、参与行业治理的重要渠道。
[0003]当前,热线电话所搜集到的各类诉求的工单文本主要由全国各地业务人员梳理生成,具有数据量大、诉求主题多样、文本长度参差不齐、文本表述丰富等特点,且主要依赖人工查看或简单的文本分词统计发现,发现效率、查全率均较低。显然,借助机器学习、自然语言处理技术挖掘工单文本常态化问题诉求更具优势。
[0004]诉求发现属于机器学习和自然语言处理技术中主题模型、文本聚类领域应用,主要涉及分词、词向量表示、LSI、LDA、K

means等算法或过程。但常规的诉求发现算法和流程并不能适应本应用场景,主要原因包括:(1)常用工单文本长度以长文本为主,而LSI、LDA等模型对长文本的处理能力较弱,容易导致主题划分效果不佳;(2)工单文本诉求主题多样、内容表述丰富,当前LSI、LDA等基于浅层语义的模型并不能适应中文表述复杂多样,影响主题划分精度。
[0005]综上所述,为解决当前热线电话服务中人工发现方法效率、查全率低,采用传统主题发现方法精度低的问题,提供一种集成深度学习的新的道路运输常态化问题诉求发现方法尤为必要。

技术实现思路

[0006]为解决上述现有技术中所存在的问题,本专利技术提供一种道路运输常态化问题诉求发现方法及系统,以实现快速、准确、全面发现热线电话工单文本中的常态化问题诉求。
[0007]一方面,为了实现上述技术目的,本专利技术提供了一种道路运输常态化问题诉求发现方法,包括:S1,获取道路运输工单文本,构建道路运输工单文本语料库;S2,对所述道路运输工单文本语料库进行预处理,得到处理道路运输工单文本语料库;S3,基于所述处理道路运输工单文本语料库中的处理道路运输工单文本,得到所述处理道路运输工单文本的包含深层语义的低维文本向量特征;S4,基于所述低维文本向量特征,构建道路运输工单文本主题划分模型,得到所述处理道路运输工单文本的文本所属主题标签;S5,获取所述文本所属主题标签的Top10关键词,实现主题提取和精简。
[0008]可选地,所述道路运输工单文本语料库包括:话术规则库、分词词典和停用词表;所述话术规则库由所述道路运输工单文本中的话术梳理形成的短语或正则表达
式构成;所述分词词典由道路运输术语、地点名称、工单信息以及利用新词发现技术梳理的未登录词汇构成;所述停用词表为通过将收集的各大公开停用词语料进行去重操作后,再添加工单信息词汇形成的专用停用词表。
[0009]可选地,所述预处理为去除所述道路运输工单文本中的冗余语句和字符,包括:S21,以所述话术规则库中的所述短语或所述正则表达式为标准,采用正则匹配过滤所述道路运输工单文本中的无效话术语句;S22,基于所述分词词典,采用结巴分词方法,对过滤后的所述道路运输工单文本进行分词处理,得到道路运输工单文本分词结果;S23,基于所述停用词表,剔除所述道路运输工单文本分词结果中的冗余字符,得到所述处理道路运输工单文本语料库。
[0010]可选地,所述S3包括:S31,采用自训练词向量模型,生成所述处理道路运输工单文本的静态向量矩阵,将所述静态向量矩阵输入至文本深度学习模型中,提取所述处理道路运输工单文本的静态语义向量特征;S32,采用Bert预训练模型,生成所述处理道路运输工单文本的动态向量矩阵,将所述动态向量矩阵输入至所述文本深度学习模型中,提取所述处理道路运输工单文本的动态语义向量特征;S33,采用连接方式集成所述静态语义向量特征和所述动态语义向量特征,形成所述低维文本向量特征。
[0011]可选地,所述S4包括:S41,以所述低维文本向量特征为输入,采用Canopy算法进行预聚类,得到聚类个数和初始簇心;S42,以所述聚类个数和所述初始簇心为输入,采用K

means算法进行二次聚类,构建得到所述道路运输工单文本主题划分模型,获得所述处理道路运输工单文本的所述文本所属主题标签。
[0012]另一方面,为了实现上述技术目的,本专利技术提供了一种道路运输常态化问题诉求发现系统,包括:语料库构建模块、预处理模块、特征提取和集成模块、聚类模块和主题提取精简模块;所述语料库构建模块用于获取道路运输工单文本,构建道路运输工单文本语料库;所述预处理模块用于对所述道路运输工单文本语料库进行预处理,得到处理道路运输工单文本语料库;所述特征提取和集成模块用于基于所述处理道路运输工单文本语料库中的处理道路运输工单文本,得到所述处理道路运输工单文本的包含深层语义的低维文本向量特征;所述聚类模块用于基于所述低维文本向量特征,构建道路运输工单文本主题划分模型,得到所述处理道路运输工单文本的文本所属主题标签;
所述主题提取精简模块用于获取所述文本所属主题标签的Top10关键词,实现主题提取和精简。
[0013]可选地,所述语料库构建模块包括:话术规则库构建单元、分词词典构建单元和停用词表构建单元;所述话术规则库构建单元用于将所述道路运输工单文本中的话术梳理成短语或正则表达式,形成话术规则库;所述分词词典构建单元用于将道路运输术语、地点名称、工单信息以及利用新词发现技术梳理的未登录词汇整合为分词词典;所述停用词表构建单元用于将收集的各大公开停用词语料进行去重操作后,添加工单信息词汇,形成停用词表。
[0014]可选地,所述预处理模块包括:话术清洗单元、分词单元和停用词剔除单元;所述话术清洗单元用于以所述话术规则库中所述短语或所述正则表达式为标准,采用正则匹配过滤所述道路运输工单文本中的无效的话术语句;所述分词单元用于基于所述分词词典,采用结巴分词方法,对过滤后的所述道路运输工单文本进行分词处理,得到道路运输工单文本分词结果;所述停用词剔除单元用于基于所述停用词表,剔除所述道路运输工单文本分词结果中的冗余字符,得到所述处理道路运输工单文本语料库。
[0015]可选地,所述特征提取和集成模块包括:静态语义向量特征提取单元、动态语义向量特征提取单元和特征集成单元;所述静态语义向量特征提取单元用于采用自训练词向量模型,生成所述处理道路运输工单文本的静态向量矩阵,将所述静态向量矩阵输入至文本深度学习模型中,提取所述处理道路运输工单文本的静态语义向量特征;所述动态语义向量特征提取单元用于采用Bert预训练模型,生成所述处理道路运输工单文本的动态向量矩阵,将所述动态向量矩阵输入至所述文本深度学习模型中,提取所述处理道路运输工单文本的动态语义向量特征;所述特征集成单元用于采用连接方式集成所述静态语义向量特征和所述动态语义向量特征,形成所述低维文本向量特征。
[0016]可选地,所述聚类模块包括:预聚类单元和二次聚类单元;所述预聚类单元用于以所述低维文本向量特征为输入,采用Canopy算法进行预聚类,得到聚类个数和初本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种道路运输常态化问题诉求发现方法,其特征在于,包括以下步骤:S1,获取道路运输工单文本,构建道路运输工单文本语料库;S2,对所述道路运输工单文本语料库进行预处理,得到处理道路运输工单文本语料库;S3,基于所述处理道路运输工单文本语料库中的处理道路运输工单文本,得到所述处理道路运输工单文本的包含深层语义的低维文本向量特征;S4,基于所述低维文本向量特征,构建道路运输工单文本主题划分模型,得到所述处理道路运输工单文本的文本所属主题标签;S5,获取所述文本所属主题标签的Top10关键词,实现主题提取和精简。2.根据权利要求1所述的道路运输常态化问题诉求发现方法,其特征在于,所述道路运输工单文本语料库包括:话术规则库、分词词典和停用词表;所述话术规则库由所述道路运输工单文本中的话术梳理形成的短语或正则表达式构成;所述分词词典由道路运输术语、地点名称、工单信息以及利用新词发现技术梳理的未登录词汇构成;所述停用词表为通过将收集的各大公开停用词语料进行去重操作后,再添加工单信息词汇形成的专用停用词表。3.根据权利要求2所述的道路运输常态化问题诉求发现方法,其特征在于,所述预处理为去除所述道路运输工单文本中的冗余语句和字符,包括:S21,以所述话术规则库中的所述短语或所述正则表达式为标准,采用正则匹配过滤所述道路运输工单文本中的无效话术语句;S22,基于所述分词词典,采用结巴分词方法,对过滤后的所述道路运输工单文本进行分词处理,得到道路运输工单文本分词结果;S23,基于所述停用词表,剔除所述道路运输工单文本分词结果中的冗余字符,得到所述处理道路运输工单文本语料库。4.根据权利要求1所述的道路运输常态化问题诉求发现方法,其特征在于,所述S3包括:S31,采用自训练词向量模型,生成所述处理道路运输工单文本的静态向量矩阵,将所述静态向量矩阵输入至文本深度学习模型中,提取所述处理道路运输工单文本的静态语义向量特征;S32,采用Bert预训练模型,生成所述处理道路运输工单文本的动态向量矩阵,将所述动态向量矩阵输入至所述文本深度学习模型中,提取所述处理道路运输工单文本的动态语义向量特征;S33,采用连接方式集成所述静态语义向量特征和所述动态语义向量特征,形成所述低维文本向量特征。5.根据权利要求1所述的道路运输常态化问题诉求发现方法,其特征在于,所述S4包括:S41,以所述低维文本向量特征为输入,采用Canopy算法进行预聚类,得到聚类个数和初始簇心;S42,以所述聚类个数和所述初始簇心为输入,采用K

means算法进行二次聚类,构建得
到所述道路运输工单文本主题划分模型,获得所述处理道路运输工单文本的所述文本所属主题标签。6.一种道路运输常态化问题诉求发现系统,其特征在于,包括:语料库构建模块、预处理模块、特征提取和集成模块、聚类模块和主题提取精简模块;所述语料库构建模块用于获取道路运输工单文本,构建道路运输工单文本语料库;所述预处理模块用于...

【专利技术属性】
技术研发人员:贾红周炜董轩汪旗航
申请(专利权)人:交通运输部公路科学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1