一种基于大数据的文字和语义分析系统与方法技术方案

技术编号:38544431 阅读:14 留言:0更新日期:2023-08-22 20:54
本发明专利技术公开了一种基于大数据的文字和语义分析系统与方法,涉及数据分析技术领域,包括输入检索单元、专家论证单元、编辑单元和数据库,且通过输入检索单元把需要进行检索语义的文字进行输入。本发明专利技术通过多维联网单元和规划确定单元增加文字的语义分析范围,使语义分析更加的全面和准确,避免在对语义进行分析时,分析的途径和范围较小,造成分析的数据不够准确,使最终得到的分析结果存在误差的情况,且在进行检索分析时,只能对资料和词条进行检索,如果遇到分析不清楚的语义时,就无法得到准确的语义,而通过专家论证单元,在遇到不清楚的文字语义时,可以通过专家在线咨询论证,进行及时地分析判断,提高文字分析判断的效率。效率。效率。

【技术实现步骤摘要】
一种基于大数据的文字和语义分析系统与方法


[0001]本专利技术涉及数据分析
,具体为一种基于大数据的文字和语义分析系统与方法。

技术介绍

[0002]大数据分析是指对规模巨大的数据进行分析,大数据可以概括为5个V,数据量大、速度快、类型多、价值、真实性,互联网商业模式就是指以互联网为媒介,整合传统商业类型,连接各种商业渠道,具有高创新、高价值、高盈利、高风险的全新商业运作和组织构架模式,包括传统的移动互联网商业模式和新型互联网商业模式,在申请号为202210708476.5的中国专利公开了“一种基于语义的大数据分析系统,包括数据收集单元、数据识别单元、数据分析单元和数据可视化单元,所述数据收集单元用于对大数据的存储和实时更新,所述数据识别单元用于对用户需要的信息进行识别和初步过滤,所述数据分析单元用于对大数据信息的整合、分类和关联分析数据,形成分析结果,提供分析需要的实时数据,所述数据可视化单元用于对数据分析结果以用户能够识别的图形语音呈现出来;该系统还包括信息处理单元、业务输出单元、业务匹配单元、业务处理单元。本专利技术具备数据的分布式采集、存储和监控,进而为企业分析数据、聚焦商业渠道、提供多方合作的机会的有益效果。”[0003]该对比文件仅仅解决了,现有的中小型企业大多还是封闭式管理,各方面产业链经营处于自我隐私保护的状态,虽然中小型企业渐渐也在开启线上为主、虚实结合的商业模式,但是在实行过程中、由于各个企业比较封闭保护商业隐私的同时,和无法聚焦线上商业大数据渠道分析,因此也失去了跨界融合,对外合作进步的机会的问题,但是在对文字的字义进行分析检索的过程中,检索分析的范围较小,导致分析出的文字语义出现偏差的情况,且分析判断的文字语义不够全面,并在分析判断的过程中,如果遇到文字语义不能清楚的解释出来,就会导致最终的语义出现错误的情况。

技术实现思路

[0004]本专利技术的目的在于提供一种基于大数据的文字和语义分析系统与方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于大数据的文字和语义分析系统与方法,包括输入检索单元、专家论证单元、编辑单元和数据库,且通过输入检索单元把需要进行检索语义的文字进行输入;
[0006]多维联网单元,所述多维联网单元对输入检索单元输入的数据进行接收,并在第一时间通过与外部的大数据联网,对文字的语义进行检索,通过检索百科、词典以及专家发布的最新注解,全方位的对文字的语义进行分析,同时还会通过大数据联网,检索文字古今不用的语义,以及检索的文字的出处,且还会通过联网对检索语义的中外不同语义进行检索,检索文字在国外的语义与国内的意义区别;
[0007]规划确定单元,所述规划确定单元同时对多维联网单元输入的文字进行接收,并
对接收后的文字根据字义进行褒义跟贬义的分辨,且通过联网查询检索文字在网络上的活跃度;
[0008]分析确定单元,所述分析确定单元同时对规划确定单元和多维联网单元传输的数据进行接收,并对同时接收到分析后的数据,通过分析判断算法进行最终的判断确定,把确定好的数据进行传输;
[0009]语义确定单元,所述语义确定单元对分析确定单元传输的数据进行接收,并对分析确定后的文字语义进行最终的确定。
[0010]优选的,所述专家论证单元与分析确定单元电性连接,通过线上二十四小时的专家轮值回答,当分析确定单元对分析后的语义达不到提前设定好的语义范畴内时,就会通过线上专家进行论证,论证后再把语义信息传输到语义确定单元。
[0011]优选的,所述专家论证单元包括网络论证模块和论证分析模块,所述论证分析模块通过线上二十四小时的专家轮值回答,当分析确定单元对分析后的语义达不到提前设定好的语义范畴内时,就会通过线上专家进行论证,且同时通过网络论证模块把信息发布到网络上,通过网上在线咨询多语义进行进一步的分析,在综合的分析判断后,再把分析后的数据传输到语义确定单元。
[0012]优选的,所述输入检索单元包括多端口接入模块,所述多端口接入模块主要包括公众号、微博、词条检索、网站检索和短视频平台,分析判断算法具体为:
[0013][0014]其中,S
xy
为对应字义标准范畴值,X
i
为输入文字,为文字语义相似值,Y
i
为历史搜索文字,为历史搜索文字相似值,n为文字检索次数。
[0015]优选的,所述编辑单元在语义确定单元确定后的文字语义后,通过输入在线编辑的密匙,对数据库内部的文字语义进行主动的更新。
[0016]优选的,所述规划确定单元包括褒贬分辨模块和活跃度模块,所述褒贬分辨模块对接收后的文字根据字义进行褒义跟贬义的分辨分析,并通过活跃度模块通过联网查询检索文字在网络、微博、公众号和短视频上的活跃度。
[0017]优选的,所述多维联网单元包括大数据联网检索模块、古今剖析模块和中外剖析模块,所述在第一时间通过与外部的大数据联网,对文字的语义进行检索,通过检索百科、词典以及专家发布的最新注解,全方位的对文字的语义进行分析,并通过古今剖析模块对文字的古意与今意的意思,还通过中外剖析模块通过联网对检索语义的中外不同语义进行检索,检索文字在国外的语义与国内的意义区别。
[0018]一种基于大数据的文字和语义分析系统的方法,包括以下步骤:
[0019]S1、通过输入检索单元把需要进行检索语义的文字进行输入,通过多维联网单元在第一时间通过与外部的大数据联网,对文字的语义进行检索,通过检索百科、词典以及专家发布的最新注解,全方位的对文字的语义进行分析,并通过古今剖析模块对文字的古意与今意的意思,还通过中外剖析模块通过联网对检索语义的中外不同语义进行检索,检索文字在国外的语义与国内的意义区别,同时通过规划确定单元对传输的数据进行分析,通过褒贬分辨模块对接收后的文字根据字义进行褒义跟贬义的分辨分析,并通过活跃度模块
通过联网查询检索文字在网络、微博、公众号和短视频上的活跃度,且分析确定单元同时对规划确定单元和多维联网单元传输的数据进行接收,并对同时接收到分析后的数据,进行最终的判断确定,把确定好的数据进行传输,并通过语义确定单元对分析确定单元传输的数据进行接收,并对分析确定后的文字语义进行最终的确定;
[0020]S2、同时当分析确定单元对分析后的语义达不到提前设定好的语义范畴内时,就会通过线上专家进行论证,通过线上二十四小时的专家轮值回答,当分析确定单元对分析后的语义达不到提前设定好的语义范畴内时,就会通过线上专家进行论证,且同时通过网络论证模块把信息发布到网络上,通过网上在线咨询多语义进行进一步的分析,在综合的分析判断论证后,再把语义信息传输到语义确定单元;
[0021]S3、并通过编辑单元在语义确定单元确定后的文字语义后,通过输入在线编辑的密匙,对数据库内部的文字语义进行主动的更新。
[0022]与现有技术相比,本专利技术的有益效果是:
[0023]本专利技术通过多维联网单元和规划确定单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的文字和语义分析系统,其特征在于包括输入检索单元(1)、专家论证单元(4)、编辑单元(7)和数据库(8),且通过输入检索单元(1)把需要进行检索语义的文字进行输入;多维联网单元(2),所述多维联网单元(2)对输入检索单元(1)输入的数据进行接收,并在第一时间通过与外部的大数据联网,对文字的语义进行检索,通过检索百科、词典以及专家发布的最新注解,全方位的对文字的语义进行分析,同时还会通过大数据联网,检索文字古今不用的语义,以及检索的文字的出处,且还会通过联网对检索语义的中外不同语义进行检索,检索文字在国外的语义与国内的意义区别;规划确定单元(3),所述规划确定单元(3)同时对多维联网单元(2)输入的文字进行接收,并对接收后的文字根据字义进行褒义跟贬义的分辨,且通过联网查询检索文字在网络上的活跃度;分析确定单元(5),所述分析确定单元(5)同时对规划确定单元(3)和多维联网单元(2)传输的数据进行接收,并对同时接收到分析后的数据,通过分析判断算法进行最终的判断确定,把确定好的数据进行传输;语义确定单元(6),所述语义确定单元(6)对分析确定单元(5)传输的数据进行接收,并对分析确定后的文字语义进行最终的确定。2.根据权利要求1所述的一种基于大数据的文字和语义分析系统,其特征在于:所述专家论证单元(4)与分析确定单元(5)电性连接,通过线上二十四小时的专家轮值回答,当分析确定单元(5)对分析后的语义达不到提前设定好的语义范畴内时,就会通过线上专家进行论证,论证后再把语义信息传输到语义确定单元(6)。3.根据权利要求2所述的一种基于大数据的文字和语义分析系统,其特征在于:所述专家论证单元(4)包括网络论证模块(401)和论证分析模块(402),所述论证分析模块(402)通过线上二十四小时的专家轮值回答,当分析确定单元(5)对分析后的语义达不到提前设定好的语义范畴内时,就会通过线上专家进行论证,且同时通过网络论证模块(401)把信息发布到网络上,通过网上在线咨询多语义进行进一步的分析,在综合的分析判断后,再把分析后的数据传输到语义确定单元(6)。4.根据权利要求1所述的一种基于大数据的文字和语义分析系统,其特征在于:所述输入检索单元(1)包括多端口接入模块(101),所述多端口接入模块(101)主要包括公众号、微博、词条检索、网站检索和短视频平台,分析判断算法具体为:其中,S
xy
为对应字义标准范畴值,X
i
为输入文字,为文字语义相似值,Y
i
为历史搜索文字,为历史搜索文字相似值,n为文字检索次数。5.根据权利要求1所述的一种基于大数据的文字和语义分析系统,其特征在于:所述编辑单元(7)在语义确定单元(6)确定后的文字语义后,通...

【专利技术属性】
技术研发人员:巫东航李维春伍毅史珂
申请(专利权)人:中国民用航空飞行学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1