一种基于最大熵的园区产业招商智能咨询方法及系统技术方案

技术编号:33709026 阅读:66 留言:0更新日期:2022-06-06 08:37
本发明专利技术提出了一种基于最大熵的园区产业招商智能咨询方法及系统,其方法包括:收集与园区产业招商相关的历史招商数据,对历史招商数据进行预处理,得到句子集合;将句子集合输入到信息抽取器中提取目标数据,将目标数据存储到招商信息库中;对招商信息库中的所有目标数据进行分词处理和词性识别,得到基本特征分词集合;建立最大熵模型,基于基本特征分词集合对最大熵模型进行训练,得到智能咨询模型,并根据智能咨询模型进行疑问点标注;获取当前用户提出的问题,并输入至智能咨询模型中进行问题分类和回答。本发明专利技术基于最大熵建立智能咨询模型,将触发词与对应的事件类型进行匹配,能够在用户咨询时迅速并准确地进行答复,具有较高的灵活性。较高的灵活性。较高的灵活性。

【技术实现步骤摘要】
一种基于最大熵的园区产业招商智能咨询方法及系统


[0001]本专利技术涉及信息处理
,尤其是涉及一种基于最大熵的园区产业招商智能咨询方法及系统。

技术介绍

[0002]经济的发展离不开产业园区的合理规划,近年来,越来越多的产业园区通过各种优惠政策吸引产业关联的大量企业入驻园区,使得企业集聚,最终形成产业集群,同时,园区内的企业之间相互竞争、合作,进而实现知识、信息的共享,从而实现生产力的快速发展,因此,园区产业招商尤其重要。
[0003]随着信息技术的发展,园区招商引资的信息量剧增,用户咨询业务的任务量繁重,咨询类型也逐渐增加,传统的计算机辅助招商软件在处理这些巨量信息咨询任务时,逐渐表现出时间长、智能化程度底的局限性,不能及时地对客户提出的问题进行答复,需要研究出一种灵活度更高的招商智能咨询方法。

技术实现思路

[0004]有鉴于此,本申请提出了一种基于最大熵的园区产业招商智能咨询方法及系统,用于解决传统的招商系统在处理大量信息咨询任务时反应时间长且智能化程度低的问题。
[0005]本专利技术的技术方案是这样实现的:
[0006]本专利技术提出了一种基于最大熵的园区产业招商智能咨询方法,所述方法包括:
[0007]S1,收集与园区产业招商相关的历史招商数据,对历史招商数据进行预处理,得到句子集合;
[0008]S2,建立招商信息库,将句子集合输入到信息抽取器中提取目标数据,将目标数据存储到招商信息库中;
[0009]S3,对招商信息库中的所有目标数据进行分词处理和词性识别,得到基本特征分词集合;
[0010]S4,建立最大熵模型,基于基本特征分词集合对最大熵模型进行训练,得到智能咨询模型,并根据智能咨询模型进行疑问点标注,生成问句库;
[0011]S5,获取当前用户提出的问题,并输入至智能咨询模型中进行问题分类和回答,完成园区产业招商的智能咨询。
[0012]在以上技术方案的基础上,优选的,步骤S1具体包括:
[0013]获取历史招商数据中的所有句子,所有句子中包括若干个相邻句子,判断两个相邻句子是否应当接续,若两个相邻句子应当接续,则进行接续操作,得到接续后的句子;反之不进行接续操作,得到原句子;
[0014]将所有接续后的句子和原句子汇集在一起构成句子集合。
[0015]在以上技术方案的基础上,优选的,判断两个相邻句子是否应当接续具体包括:
[0016]两个相邻句子包括第一句子和第二句子,第一句子在第二句子的前面,当第一句
子的句末标点符号不为句号时,则其应与第二句子接续;
[0017]当第一句子中存在若干个标点符号对,标点符号对包括左半边与右半边,若第一句子中仅存在左半边且无右半边,则其应与第二句子接续;
[0018]当第二句子中存在若干个标点符号对,标点符号对包括左半边与右半边,若第二句子中仅存在右半边且无左半边,则其应与第一句子接续。
[0019]在以上技术方案的基础上,优选的,步骤S2具体包括:
[0020]基于历史招商数据设置若干个提取目标,基于若干个提取目标建立若干个正则表达式并构成信息抽取器,将句子集合中的各句子与信息抽取器中的各正则表达式依次匹配,将匹配成功的句子作为目标数据存储到招商信息库中。
[0021]在以上技术方案的基础上,优选的,将匹配成功的句子作为目标数据存储到招商信息库中之前还包括:
[0022]判断招商信息库中是否已存在目标数据,若存在,则将目标数据舍弃;若不存在,则将目标数据存储至招商信息库中。
[0023]在以上技术方案的基础上,优选的,步骤S4中,建立最大熵模型,基于基本特征分词集合对最大熵模型进行训练,得到智能咨询模型具体包括:
[0024]基于历史招商数据构建触发词词典和事件词典,触发词词典中包括若干个触发词,事件词典中包括若干个事件类别,每一个触发词对应一个事件类别;
[0025]将基本特征分词集合与触发词词典中的触发词进行比对,判断基本特征分词集合中是否包含触发词,若包含触发词,则将该基本特征分词作为候选事件,将候选事件输入到最大熵模型中进行事件分类;
[0026]设置标准阈值,当所有基本特征分词集合都分类完成后,计算当前用于分类的最大熵模型的分类准确概率,将分类准确概率与标准阈值进行比对,若分类准确概率大于标准阈值,则将当前用于分类的最大熵模型作为智能咨询模型;否则,调整当前用于分类的最大熵模型的参数,重新输入基本特征分词集合进行训练。
[0027]在以上技术方案的基础上,优选的,基于历史招商数据构建触发词词典和事件词典具体包括:
[0028]设置初始触发词词典和初始事件词典,对于初始触发词词典中的每一个触发词,通过匹配同义的方法得到其所有的同义词语和近义词语,进行触发词扩充;对于初始事件词典中的每一个事件类别,通过匹配同义的方法得到其所有的同义词语和近义词语,进行事件类别的扩充。
[0029]在以上技术方案的基础上,优选的,步骤S4中,根据智能咨询模型进行疑问点标注,生成问句库具体包括:
[0030]采集并分析不同应用场景下的疑问句,建立疑问句数据库,根据若干现代汉语中常用的疑问词组成建立疑问点标注集合;根据疑问句数据库和疑问点标注集合对触发词词典中的触发词进行标注,得到特征疑问句;基于若干个特征疑问句构建问句库。
[0031]在以上技术方案的基础上,优选的,采集并分析不同应用场景下的疑问句,建立疑问句数据库,根据若干现代汉语中常用的疑问词组成建立疑问点标注集合具体包括:
[0032]采集若干个不同应用场景下的疑问句,根据语义提取和归纳法总结适用于不同应用场景下的疑问句组合方式并构成疑问句数据库;
[0033]疑问点标注集合中包含人物疑问代词、事物疑问代词、动作疑问代词、时间疑问代词、地点疑问代词以及数目疑问代词。
[0034]本专利技术还提出了一种基于最大熵的园区产业招商智能咨询系统,所述系统包括:
[0035]招商数据录入模块,用于收集与园区产业招商相关的历史招商数据,对历史招商数据进行预处理,得到句子集合;
[0036]招商信息库组建模块,用于建立招商信息库,将句子集合输入到信息抽取器中提取目标数据,将目标数据存储到招商信息库中;
[0037]数据分词处理模块,用于对招商信息库中的所有目标数据进行分词处理和词性识别,得到基本特征分词集合;
[0038]模型训练模块,用于建立最大熵模型,基于基本特征分词集合对最大熵模型进行训练,得到智能咨询模型,并根据智能咨询模型进行疑问点标注,生成问句库;
[0039]智能咨询模块,用于获取当前用户提出的问题,并输入至智能咨询模型中进行问题分类和回答,完成园区产业招商的智能咨询。
[0040]本专利技术的一种基于最大熵的园区产业招商智能咨询方法及系统,相对于现有技术,具有以下有益效果:
[0041](1)将园区产业招商中的关键信息抽取出来,得到触本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最大熵的园区产业招商智能咨询方法,其特征在于,所述系统包括:S1,收集与园区产业招商相关的历史招商数据,对历史招商数据进行预处理,得到句子集合;S2,建立招商信息库,将句子集合输入到信息抽取器中提取目标数据,将目标数据存储到招商信息库中;S3,对招商信息库中的所有目标数据进行分词处理和词性识别,得到基本特征分词集合;S4,建立最大熵模型,基于基本特征分词集合对最大熵模型进行训练,得到智能咨询模型,并根据智能咨询模型进行疑问点标注,生成问句库;S5,获取当前用户提出的问题,并输入至智能咨询模型中进行问题分类和回答,完成园区产业招商的智能咨询。2.如权利要求1所述的一种基于最大熵的园区产业招商智能咨询方法,其特征在于,步骤S1具体包括:获取历史招商数据中的所有句子,所有句子中包括若干个相邻句子,判断两个相邻句子是否应当接续,若两个相邻句子应当接续,则进行接续操作,得到接续后的句子;反之不进行接续操作,得到原句子;将所有接续后的句子和原句子汇集在一起构成句子集合。3.如权利要求2所述的一种基于最大熵的园区产业招商智能咨询方法,其特征在于,判断两个相邻句子是否应当接续具体包括:两个相邻句子包括第一句子和第二句子,第一句子在第二句子的前面,当第一句子的句末标点符号不为句号时,则其应与第二句子接续;当第一句子中存在若干个标点符号对,标点符号对包括左半边与右半边,若第一句子中仅存在左半边且无右半边,则其应与第二句子接续;当第二句子中存在若干个标点符号对,标点符号对包括左半边与右半边,若第二句子中仅存在右半边且无左半边,则其应与第一句子接续。4.如权利要求1所述的一种基于最大熵的园区产业招商智能咨询方法,其特征在于,步骤S2具体包括:基于历史招商数据设置若干个提取目标,基于若干个提取目标建立若干个正则表达式并构成信息抽取器,将句子集合中的各句子与信息抽取器中的各正则表达式依次匹配,将匹配成功的句子作为目标数据存储到招商信息库中。5.如权利要求4所述的一种基于最大熵的园区产业招商智能咨询方法,其特征在于,将匹配成功的句子作为目标数据存储到招商信息库中之前还包括:判断招商信息库中是否已存在目标数据,若存在,则将目标数据舍弃;若不存在,则将目标数据存储至招商信息库中。6.如权利要求1所述的一种基于最大熵的园区产业招商智能咨询方法,其特征在于,步骤S4中,建立最大熵模型,基于基本特征分词集合对最大熵模型进行训练,得到智能咨询模型具体包括:基于历史招商数据构建触发词词典和事件词典,触发词词典中包括若干个触发词,事件词典中包括若干个事件类别,每一个触发词对应一个事件类别;
将基本特征分词...

【专利技术属性】
技术研发人员:杜登伟杜登斌杜乐杜小军
申请(专利权)人:武汉东湖大数据交易中心股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1