一种文本关键词分析方法、系统及计算机可读介质技术方案

技术编号:33780077 阅读:15 留言:0更新日期:2022-06-12 14:34
本发明专利技术涉及自然语言处理技术领域,具体涉及一种文本关键词分析方法、系统及计算机可读介质,包括以下步骤:Step1:接收目标文件,识别文本中语言文字,将目标文件中语言文字形式外数据内容设置为候选编辑文件;Step2:建立语言文字数据库,参考语言文字数据库分析目标文件中语言文字属性;Step3:分析目标文件中语言文字标题,根据语言文字标题捕捉目标文件中语言文字相同项;建立语言文字释义库;本发明专利技术为文本关键词的提取提供了一种分析方法,该方法适用于任意中的语言文字,并且对于图片中的语言文字也可通过扫描的方式进行分析参与到文本关键词的提取分析当中,从而使得文本关键词的提取分析更加全面。提取分析更加全面。提取分析更加全面。

【技术实现步骤摘要】
一种文本关键词分析方法、系统及计算机可读介质


[0001]本专利技术涉及自然语言处理
,具体涉及一种文本关键词分析方法、系统及计算机可读介质。

技术介绍

[0002]自然语言处理是人工智能领域的一个重要方向,而文本中关键词的提取又是NLP的典型应用,提取文本关键词的实际应用场景非常广泛,例如,对于海量文本数据的处理和分析,关键一步是将文本中的最重要的信息提取出来,而重要信息往往通过几个关键词就可以表征;又如,在百度文库等检索系统中,通过提取文章关键词与检索词进行匹配或相似度计算等,可以提高所召回结果的准确性,等等。
[0003]但是现有技术中对于文本关键词的分析提取大都局限于文字格式,且准确率较低,并且对于图片形式的关键词分析提取缺乏,另一方面相对于一些不同语言文字文本需对其先进行翻译后才能进行文本的关键词分析提取,导致针对于文本的关键词分析提取效率降低。

技术实现思路

[0004]解决的技术问题针对现有技术所存在的上述缺点,本专利技术提供了一种文本关键词分析方法、系统及计算机可读介质,解决了现有技术中对于文本关键词的分析提取大都局限于文字格式,且准确率较低,并且对于图片形式的关键词分析提取缺乏,另一方面相对于一些不同语言文字文本需对其先进行翻译后才能进行文本的关键词分析提取,导致针对于文本的关键词分析提取效率降低的问题。
[0005]技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:第一方面,一种文本关键词分析方法,包括以下步骤:Step1:接收目标文件,识别文本中语言文字,将目标文件中语言文字形式外数据内容设置为候选编辑文件;Step2:建立语言文字数据库,参考语言文字数据库分析目标文件中语言文字属性;Step3:分析目标文件中语言文字标题,根据语言文字标题捕捉目标文件中语言文字相同项;建立语言文字释义库,提取目标文件中语言文字词语转入语言文字释义库中进行释义,捕捉释义内容中词汇相同项;Step4:获取相同项,分析相同项出现频率,根据相同项出现频率设置相同项有效区间,捕捉有效区间内相同项;Step5:将有效区间内相同项与目标文件内容中语言文字相匹配判断是否存在有相同项相同的语言文字;
Step6:当步骤Step5中判断结果为是时,将有效区间内相同项汇总载入目标文件同属匣中;Step7:当步骤Step5中判断结果为否时,检索相同项生成源,将相同项生成源作替换相同项;Step8:将目标文件所属相同项作为目标文件检索触发条件关键词;将汇总的相同项向上级汇报。
[0006]更进一步地,所述步骤Step1中设置有子步骤,包括以下步骤:Step11:在语言文字数据库中建立语言文字字体识别子数据库;Step12:选择性扫描候选编辑文件,获取候选编辑文件中线条生成可编辑图形文件;Step13:根据语言文字字体识别子数据库对照生成的可编辑图形文件捕捉语言文字。
[0007]更进一步地,所述步骤Step2中在进行分析目标文件中语言文字属性的过程中步进使用步骤Step11辅助分析,其中步骤Step2中分析目标文件中语言文字属性操作在步骤Step11执行结束后运行。
[0008]更进一步地,所述步骤Step3中包含子步骤Step31:将捕捉到的语言文字参考目标文件的内容逻辑排版插入到相应位置。
[0009]更进一步地,所述步骤Step3中的语言文字释义库设置有更新程序,包括以下步骤:Step311:建立数据网络连接通道,设置通道连通周期,在每一连通周期结束后连通互联网;Step312:在连通网络的状态下进行网页热点检索,提取检索内容词汇,将检索内容词汇与语言文字数据库进行比较,获取语言文字数据库中不存在目标;Step313:在网页依次检索不存在目标释义,根据检索到的不存在目标释义对不存在目标进行学习并载入语言文字数据库中。
[0010]第二方面,一种文本关键词分析系统,包括:控制终端,是系统的总控制端,用于发出控制命令供下级各模块执行;接收模块,用于接收需要进行文本关键词分析的文件;分析模块,用于分析接收文件中可读内容数据;捕捉模块,用于捕捉分析模块中可读内容数据中各关键词;选择模块,用于选择捕捉模块中高概率关键词;释义模块,用于提取文件关键句并对关键句进行释义;用于对选择模块选择的关键词进行释义;比较模块,用于比较示意模块中的关键句释义与关键词释义;评估模块,用于评估比较模块中关键句释义对应的关键词释义,判断关键词释义与关键句释义的匹配度;输出模块,用于选择评估模块中匹配度≥%的关键词进行输出反馈至控制终端。
[0011]更进一步地,所述捕捉模块中包含有合计单元,用于统计捕捉模块中各同源关键词出现的次数。
[0012]更进一步地,所述选择模块中包含有设定单元,用于排序各关键词,排序逻辑参考各关键词出现次数降序排列,设定各关键词前置位取用数量。
[0013]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1

5任意一项所述方法的步骤。
[0014]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1

5任意一项所述方法的步骤。
[0015]有益效果采用本专利技术提供的技术方案,与已知的公有技术相比,具有如下有益效果:1、本专利技术为文本关键词的提取提供了一种分析方法,该方法适用于任意中的语言文字,并且对于图片中的语言文字也可通过扫描的方式进行分析参与到文本关键词的提取分析当中,从而使得文本关键词的提取分析更加全面。
[0016]2、本专利技术能够通过释义与比对的方式更进一步的进行文本关键词提取分析,从而有效地提升了文本关键词的精准获取。
[0017]3、本专利技术为文本关键词的提取提供了一种分析系统,该系统能够为文本关键词分析方法在使用过程中带来清晰的执行依据,保证了分析方法稳定的逻辑运行。
[0018]4、本专利技术中方法通过建立数据库的方式提升了文本关键词提取与分析时的效率,并且对于数据库进行实时更新,以此来进行学习流行语言等多用多意词汇达到强化方法及系统功能性的作用,使得本专利技术与时俱进,能够更加轻松的应对现今互联网社会在大数据影响下产生的新型词汇。
附图说明
[0019]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为一种文本关键词分析方法的流程示意图;图2为更新程序的流程示意图;图3为一种文本关键词分析系统的结构示意图;图中的标号分别代表:1、控制终端;2、接收模块;3、分析模块;4、捕捉模块;41、合计单元;5、选择模块;51、设定单元;6、释义模块;7、比较模块;8、评估模块;9、输出模块。
具体实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本关键词分析方法,其特征在于,包括以下步骤:Step1:接收目标文件,识别文本中语言文字,将目标文件中语言文字形式外数据内容设置为候选编辑文件;Step2:建立语言文字数据库,参考语言文字数据库分析目标文件中语言文字属性;Step3:分析目标文件中语言文字标题,根据语言文字标题捕捉目标文件中语言文字相同项;建立语言文字释义库,提取目标文件中语言文字词语转入语言文字释义库中进行释义,捕捉释义内容中词汇相同项;Step4:获取相同项,分析相同项出现频率,根据相同项出现频率设置相同项有效区间,捕捉有效区间内相同项;Step5:将有效区间内相同项与目标文件内容中语言文字相匹配判断是否存在有相同项相同的语言文字;Step6:当步骤Step5中判断结果为是时,将有效区间内相同项汇总载入目标文件同属匣中;Step7:当步骤Step5中判断结果为否时,检索相同项生成源,将相同项生成源作替换相同项;Step8:将目标文件所属相同项作为目标文件检索触发条件关键词;将汇总的相同项向上级汇报。2.根据权利要求1所述的一种文本关键词分析方法,其特征在于,所述步骤Step1中设置有子步骤,包括以下步骤:Step11:在语言文字数据库中建立语言文字字体识别子数据库;Step12:选择性扫描候选编辑文件,获取候选编辑文件中线条生成可编辑图形文件;Step13:根据语言文字字体识别子数据库对照生成的可编辑图形文件捕捉语言文字。3.根据权利要求1所述的一种文本关键词分析方法,其特征在于,所述步骤Step2中在进行分析目标文件中语言文字属性的过程中步进使用步骤Step11辅助分析,其中步骤Step2中分析目标文件中语言文字属性操作在步骤Step11执行结束后运行。4.根据权利要求1所述的一种文本关键词分析方法,其特征在于,所述步骤Step3中包含子步骤Step31:将捕捉到的语言文字参考目标文件的内容逻辑排版插入到相应位置。5.根据权利要求1所述的一种文本关键词分析方法,其特征在于,所述步骤Step3中的语言文字释义库设置有更新程序,包括以下步骤:Step311:建立数据网络连接通道,设置通道连通周期,在每一连通周期结束...

【专利技术属性】
技术研发人员:李根柱
申请(专利权)人:北京思源智通科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1