文本关键字识别方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:26479161 阅读:21 留言:0更新日期:2020-11-25 19:23
本发明专利技术涉及人工智能的智能决策技术领域,公开了一种文本关键字识别方法,包括:获取文本信息,对所述文本信息进行分词获得词汇集;计算所述词汇集中各词汇的词频,拆分所述词汇集得到子词汇集以及所述子词汇集中各词汇之间的关联关系,根据所述子词汇集中各词汇的词频,及所述各词汇的关联关系得到具有特征值的总词汇表;按照特征值排列所述总词汇表中的词汇,将特征值超过预设的特征阈值的词汇设为关键字。本发明专利技术还涉及区块链技术,信息可存储于区块链节点中。本发明专利技术从词汇集中各词汇的词频,以及所述词汇集中任一词汇被其他词汇所依赖的程度的两个维度,评价词汇的关键程度,提高了获得能够反映文本信息核心含义的关键字的准确度。

【技术实现步骤摘要】
文本关键字识别方法、装置、计算机设备及可读存储介质
本专利技术涉及人工智能的智能决策
,尤其涉及一种文本关键字识别方法、装置、计算机设备及可读存储介质。
技术介绍
针对于企业舆情信息,当前主流舆情供应商采用的方法主要是对词库进行匹配,实现对文本信息进行分词的效果。并对词语进行一个简单的数量排序,对于数量较多的词汇,则作为相应的关键词。然而专利技术人意识到当前的方法通常是以词汇出现的次数作为词汇关键程度的评价指标,那么往往会将诸如“的”,‘最’,‘不仅’,‘非常’这些连词、介词、量词等与文本信息含义无关的词汇作为关键词,那么上述方法获得的关键词将无法准确把握文本信息的核心含义。
技术实现思路
本专利技术的目的是提供一种文本关键字识别方法、装置、计算机设备及可读存储介质,用于解决现有技术存在的获得的关键词将无法准确把握文本信息的核心含义的问题;本申请可应用于智慧政务场景中,从而推动智慧城市的建设。为实现上述目的,本专利技术提供一种文本关键字识别方法,包括:获取文本信息,对所述文本信息进行分词获得词汇集;计算所述词汇集中各词汇的词频,拆分所述词汇集得到子词汇集以及所述子词汇集中各词汇之间的关联关系,根据所述子词汇集中各词汇的词频,及所述各词汇的关联关系得到具有特征值的总词汇表,其中,所述特征值反映了词汇在文本信息中的关键程度;按照特征值排列所述总词汇表中的词汇,将特征值超过预设的特征阈值的词汇设为关键字。上述方案中,对所述文本信息进行分词获得词汇集包括:通过自然语言技术对文本信息进行分词,得到至少具有一个词汇的词汇集。上述方案中,计算所述词汇集中各词汇的词频,拆分所述词汇集得到子词汇集以及所述子词汇集中各词汇之间的关联关系的步骤,包括:计算所述词汇集中各词汇在文本信息中出现的次数,以获得所述词汇的词频;按照预设的分隔符拆分所述词汇集得到至少一个子词汇集,根据所述子词汇集中各词汇之间的关联关系制定关联特征;其中,所述词频反映了词汇在词汇集中出现的频率,所述关联特征是以特征向量的形式表达了子词汇集中任一词汇与其他词汇之间的关联关系。上述方案中,根据所述子词汇集中各词汇的词频,及所述各词汇的关联关系得到具有特征值的总词汇表的步骤,包括:将所述子词汇集的关联特征及其中各词汇的词频分别作为向量并对其进行运算,得到具有词汇及其特征值的子关键特征;根据所述子关键特征的特征值排列所述子词汇集中的词汇得到对应有特征值的子词汇列表,汇总所述子词汇列表形成总词汇表;汇总所述子词汇列表形成总词汇表之后,还包括:将所述总词汇表上传至区块链中。上述方案中,计算所述词汇集中各词汇在文本信息中出现的次数,以获得所述词汇的词频的步骤,包括:计算所述词汇集中所有词汇的总数,及对所述词汇集中的词汇进行去重得到词汇表;计算所述词汇表中各词汇在所述词汇集中出现的次数,将所述词汇的次数与所述总数相除得到所述词汇的词频。上述方案中,按照预设的分隔符拆分所述词汇集得到至少一个子词汇集,根据所述子词汇集中各词汇之间的关联关系制定关联特征的步骤,包括:以标点符号为分隔符划分所述文本信息形成子文本信息,汇总所述词汇集中与子文本信息对应的词汇得到所述子文本信息的子词汇集;识别子词汇集中在其子文本信息上处于相邻位置的两个词汇,并认定所述两个词汇之间具有关联关系;根据所述子词汇集中各词汇之间的关联关系,制定能够表达子词汇集中任一词汇与其他词汇之间关联关系特征向量,以得到所述子词汇集的关联特征。上述方案中,将所述子词汇集的关联特征及其中各词汇的词频分别作为向量并对其进行运算,得到具有词汇及其特征值的子关键特征的步骤,包括:汇总子词汇集中各词汇及其词频得到词频向量;将所述子词汇集的关联特征与所述词频向量相乘得到具有特征值的得到子关键特征,其中,所述特征值为子关键特征的元素值,所述子词汇集中的词汇与所述元素值一一对应。为实现上述目的,本专利技术还提供一种文本关键字识别装置,包括:输入分词模块,用于获取文本信息,对所述文本信息进行分词获得词汇集;词频关联模块,用于计算所述词汇集中各词汇的词频,拆分所述词汇集得到子词汇集以及所述子词汇集中各词汇之间的关联关系,根据所述子词汇集中各词汇的词频,及所述各词汇的关联关系得到具有特征值的总词汇表,其中,所述特征值反映了词汇在文本信息中的关键程度;关键字识别模块,用于按照特征值排列所述总词汇表中的词汇,将特征值超过预设的特征阈值的词汇设为关键字。为实现上述目的,本专利技术还提供一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机设备的处理器执行所述计算机程序时实现上述文本关键字识别方法的步骤。为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述可读存储介质存储的所述计算机程序被处理器执行时实现上述文本关键字识别方法的步骤。本专利技术提供的文本关键字识别方法、装置、计算机设备及可读存储介质,通过计算所述词汇集中各词汇的词频,以从词汇出现次数的维度评价了词汇的重要性;通过拆分所述词汇集得到子词汇集,并根据所述子词汇集中各词汇之间的关联关系制定关联特征,该关联特征反映了子词汇集中任一词汇被其他词汇所依赖的程度,以从被依赖程度的维度评价词汇的重要性,因此,实现了获得词汇集中各词汇的词频,以及所述词汇集中任一词汇被其他词汇所依赖的程度的两个维度,评价词汇的关键程度的效果,提高获得能够反映文本信息核心含义的关键字的准确度。附图说明图1为本专利技术文本关键字识别方法实施例一的流程图;图2为本专利技术文本关键字识别方法实施例一中计算所述词汇集中各词汇的词频,拆分所述词汇集得到子词汇集以及所述子词汇集中各词汇之间的关联关系的流程图;图3为本专利技术文本关键字识别方法实施例一中根据所述子词汇集中各词汇的词频,及所述各词汇的关联关系得到具有特征值的总词汇表的流程图;图4为本专利技术文本关键字识别方法实施例一中计算所述词汇集中各词汇在文本信息中出现的次数,以获得所述词汇的词频的流程图;图5为本专利技术文本关键字识别方法实施例一中按照预设的分隔符拆分所述词汇集得到至少一个子词汇集,根据所述子词汇集中各词汇之间的关联关系制定关联特征的流程图;图6为本专利技术文本关键字识别方法实施例一中将所述子词汇集的关联特征及其中各词汇的词频分别作为向量并对其进行运算,得到具有词汇及其特征值的子关键特征的流程图;图7为本专利技术文本关键字识别装置实施例二的程序模块示意图;图8为本专利技术计算机设备实施例三中计算机设备的硬件结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的本文档来自技高网...

【技术保护点】
1.一种文本关键字识别方法,其特征在于,包括:/n获取文本信息,对所述文本信息进行分词获得词汇集;/n计算所述词汇集中各词汇的词频,拆分所述词汇集得到子词汇集以及所述子词汇集中各词汇之间的关联关系,根据所述子词汇集中各词汇的词频,及所述各词汇的关联关系得到具有特征值的总词汇表,其中,所述特征值反映了词汇在文本信息中的关键程度;/n按照特征值排列所述总词汇表中的词汇,将特征值超过预设的特征阈值的词汇设为关键字。/n

【技术特征摘要】
1.一种文本关键字识别方法,其特征在于,包括:
获取文本信息,对所述文本信息进行分词获得词汇集;
计算所述词汇集中各词汇的词频,拆分所述词汇集得到子词汇集以及所述子词汇集中各词汇之间的关联关系,根据所述子词汇集中各词汇的词频,及所述各词汇的关联关系得到具有特征值的总词汇表,其中,所述特征值反映了词汇在文本信息中的关键程度;
按照特征值排列所述总词汇表中的词汇,将特征值超过预设的特征阈值的词汇设为关键字。


2.根据权利要求1所述的文本关键字识别方法,其特征在于,对所述文本信息进行分词获得词汇集包括:
通过自然语言技术对文本信息进行分词,得到至少具有一个词汇的词汇集。


3.根据权利要求1所述的文本关键字识别方法,其特征在于,计算所述词汇集中各词汇的词频,拆分所述词汇集得到子词汇集以及所述子词汇集中各词汇之间的关联关系的步骤,包括:
计算所述词汇集中各词汇在文本信息中出现的次数,以获得所述词汇的词频;
按照预设的分隔符拆分所述词汇集得到至少一个子词汇集,根据所述子词汇集中各词汇之间的关联关系制定关联特征;其中,所述词频反映了词汇在词汇集中出现的频率,所述关联特征是以特征向量的形式表达了子词汇集中任一词汇与其他词汇之间的关联关系。


4.根据权利要求3所述的文本关键字识别方法,其特征在于,根据所述子词汇集中各词汇的词频,及所述各词汇的关联关系得到具有特征值的总词汇表的步骤,包括:
将所述子词汇集的关联特征及其中各词汇的词频分别作为向量并对其进行运算,得到具有词汇及其特征值的子关键特征;
根据所述子关键特征的特征值排列所述子词汇集中的词汇得到对应有特征值的子词汇列表,汇总所述子词汇列表形成总词汇表;
汇总所述子词汇列表形成总词汇表之后,还包括:
将所述总词汇表上传至区块链中。


5.根据权利要求3所述的文本关键字识别方法,其特征在于,计算所述词汇集中各词汇在文本信息中出现的次数,以获得所述词汇的词频的步骤,包括:
计算所述词汇集中所有词汇的总数,及对所述词汇集中的词汇进行去重得到词汇表;
计算所述词汇表中各词汇在所述词汇集中出现的次数,将所述词汇的次数与所...

【专利技术属性】
技术研发人员:魏晓茹
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1