基于制造技术

技术编号:39490391 阅读:6 留言:0更新日期:2023-11-24 11:12
本发明专利技术提供了一种基于

【技术实现步骤摘要】
基于solr的语义分析方法、系统、介质及设备


[0001]本专利技术涉及语义分析
,具体地,涉及基于
solr
的语义分析方法

系统

介质及设备,更为具体地,涉及基于
solr
的语音助手


技术介绍

[0002]一般的语义分析采用的是文本输入,对用户输入的文本进行分词,然后根据分词的结果去索引库中匹配文档,以达到语义分析的目的

[0003]专利文献
CN103838833A(
申请号:
201410061245.5)
公开了一种基于相关词语语义分析的全文检索系统,包括查询信息接收模块

基于相关词语的概念语义分析模块

语义知识库模块

检索模块

索引库

索引模块

基于相关词语的主题语义分析模块

结果集处理模块和数据服务器

该文献是对传统互联网搜索引擎的改进,能够对文档进行基于相关词语的概念语义分析和基于相关词语的主题语义分析,从而使用户可得到更准确

更全面

更智能化的查询结果

[0004]本专利技术采用的是语音转换文本,相较于文本输入,语音转换的文本会因为用户发音的不标准伴随着大量错别字,仅通过分词进行语义分析无法达到理想的效果

因此通过使用r/>solr、
数据库相结合的方式,先从转换的语音文本中提取关键字,再通过
solr
将关键词转换为用户真正需求的信息,最后根据获取到的信息去数据库中查询数据,在提高了命中率的同时,用户也拥有了更加便捷的体验


技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种基于
solr
的语义分析方法

系统

介质及设备

[0006]根据本专利技术提供的一种基于
solr
的语义分析方法,包括:
[0007]步骤
S1
:将用户的语音转化为语音文本;
[0008]步骤
S2
:基于语音文本提取关键词;
[0009]步骤
S3
:基于提取的关键词通过
solr
进行关键词匹配从而获取用户真正需求信息;
[0010]步骤
S4
:根据获取的用户真正需求信息进行相应操作

[0011]优选地,所述步骤
S2
采用:
[0012]步骤
S2.1
:根据预设词库对语音文本进行初步的分词转换,得到预处理后的语音文本;
[0013]步骤
S2.2
:提取预处理后的语音文本中的用户意图词,确定用户意图,并将用户意图词从语音文本中移除;
[0014]步骤
S2.3
:对移除后的语音文本进行分词处理,并根据用户意图提取关键词

[0015]优选地,所述步骤
S3
采用:
[0016]步骤
S3.1
:在
solr
中配置数据库字段与
solr
文档中域的映射关系,通过
dataImport
将数据库中的数据以文档的形式导入到
solr
中,
solr
会根据域与数据库字段之间的映射关系,对数据库中的字段进行分词和过滤处理,最后将分词过滤的结果建立索引存储到
solr
的索引库中;
[0017]步骤
S3.2
:将关键词作为查询条件,设置查询参数通过
HttpSolrClient

Solr
发送
http
请求,查询
Solr
中满足条件的数据;
[0018]步骤
S3.3

Solr
接收到
http
请求后,根据查询条件的域,对查询条件的值进行分词

过滤,将分词

过滤后的结果与
Solr
索引库中的索引进行匹配;
Solr
根据请求中设置的查询参数对数据按照分数从大到小方式的将文档进行排序,获取
Solr
查询到的结果集

[0019]步骤
S3.4
:基于获取的
Solr
查询到的结果集进行进一步筛选,获取用户真正需求信息

[0020]优选地,所述步骤
S3.4
采用:
[0021]步骤
S3.4.1
:基于获取到的结果集截取结果集中分数为最大分数的子结果集;
[0022]步骤
S3.4.2
:将子结果集中的各个结果分别与关键词依次进行相似度计算获取最大相似度;
[0023]步骤
S3.4.3
:将最大相似度对应的结果作为查询条件去数据库中查询数据,获取到数据后,将数据拼接为字符串

[0024]根据本专利技术提供的一种基于
solr
的语义分析系统,包括:
[0025]模块
M1
:将用户的语音转化为语音文本;
[0026]模块
M2
:基于语音文本提取关键词;
[0027]模块
M3
:基于提取的关键词通过
solr
进行关键词匹配从而获取用户真正需求信息;
[0028]模块
M4
:根据获取的用户真正需求信息进行相应操作

[0029]优选地,所述模块
M2
采用:
[0030]模块
M2.1
:根据预设词库对语音文本进行初步的分词转换,得到预处理后的语音文本;
[0031]模块
M2.2
:提取预处理后的语音文本中的用户意图词,确定用户意图,并将用户意图词从语音文本中移除;
[0032]模块
M2.3
:对移除后的语音文本进行分词处理,并根据用户意图提取关键词

[0033]优选地,所述模块
M3
采用:
[0034]模块
M3.1
:在
solr
中配置数据库字段与
solr
文档中域的映射关系,通过
dataImport
将数据库中的数据以文档的形式导入到
solr
中,
solr
会根据域与数据库字段之间的映射关系,对数据库中的字段进行分词和过滤处理,最后将分词过滤的结本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于
solr
的语义分析方法,其特征在于,包括:步骤
S1
:将用户的语音转化为语音文本;步骤
S2
:基于语音文本提取关键词;步骤
S3
:基于提取的关键词通过
solr
进行关键词匹配从而获取用户真正需求信息;步骤
S4
:根据获取的用户真正需求信息进行相应操作
。2.
根据权利要求1所述的基于
solr
的语义分析方法,其特征在于,所述步骤
S2
采用:步骤
S2.1
:根据预设词库对语音文本进行初步的分词转换,得到预处理后的语音文本;步骤
S2.2
:提取预处理后的语音文本中的用户意图词,确定用户意图,并将用户意图词从语音文本中移除;步骤
S2.3
:对移除后的语音文本进行分词处理,并根据用户意图提取关键词
。3.
根据权利要求1所述的基于
solr
的语义分析方法,其特征在于,所述步骤
S3
采用:步骤
S3.1
:在
solr
中配置数据库字段与
solr
文档中域的映射关系,通过
dataImport
将数据库中的数据以文档的形式导入到
solr
中,
solr
会根据域与数据库字段之间的映射关系,对数据库中的字段进行分词和过滤处理,最后将分词过滤的结果建立索引存储到
solr
的索引库中;步骤
S3.2
:将关键词作为查询条件,设置查询参数通过
HttpSolrClient

Solr
发送
http
请求,查询
Solr
中满足条件的数据;步骤
S3.3

Solr
接收到
http
请求后,根据查询条件的域,对查询条件的值进行分词

过滤,将分词

过滤后的结果与
Solr
索引库中的索引进行匹配;
Solr
根据请求中设置的查询参数对数据按照分数从大到小方式的将文档进行排序,获取
Solr
查询到的结果集

步骤
S3.4
:基于获取的
Solr
查询到的结果集进行进一步筛选,获取用户真正需求信息
。4.
根据权利要求1所述的基于
solr
的语义分析方法,其特征在于,所述步骤
S3.4
采用:步骤
S3.4.1
:基于获取到的结果集截取结果集中分数为最大分数的子结果集;步骤
S3.4.2
:将子结果集中的各个结果分别与关键词依次进行相似度计算获取最大相似度;步骤
S3.4.3
:将最大相似度对应的结果作为查询条件去数据库中查询数据,获取到数据后,将数据拼接为字符串
。5.
一种基于
solr
的语义分析系统,其特征在于,包括:模块
M1
:将用户的语音转化为语音文本;模块
M2
:基于语音文本提取关键词;模块
M3
...

【专利技术属性】
技术研发人员:吴万伟徐干稳魏海峰
申请(专利权)人:上海昊沧系统控制技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1