基于NLP和企业信息的智能造词方法技术

技术编号:20588938 阅读:27 留言:0更新日期:2019-03-16 07:10
本公开提供了一种基于NLP和企业信息的智能造词方法,包括以下步骤:A、建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;B、建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;C、对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;D、对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。本发明专利技术能够解决现有技术的不足,有效提高了智能造词的效率和准确度。

【技术实现步骤摘要】
基于NLP和企业信息的智能造词方法
本公开涉及人工智能
,尤其是一种基于NLP和企业信息的智能造词方法。
技术介绍
NLP(自然语言处理)是近些年兴起的人机交互方式,广泛应用于语音识别、语言生成、机器翻译等多个领域。在各类商用数据库应用中,为了提高通讯效率,需要事先对常用词汇进行统计和存储。利用NLP技术自动生成词组成为了近些年研发的热点。
技术实现思路
本公开要解决的技术问题是提供一种基于NLP和企业信息的智能造词方法,能够解决现有技术的不足,有效提高了智能造词的效率和准确度。为解决上述技术问题,本公开所采取的技术方案如下。一个方面,一种基于NLP和企业信息的智能造词方法,包括以下步骤:A、建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;B、建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;C、对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;D、对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。根据本公开的一个实施方式,步骤A中,关联度统计表包括任意一个文本元素与其它任意一个文本元素的单维关联度,以及任意一个文本元素与其它至少任意两个文本元素的多维关联度。根据本公开的一个实施方式,步骤B中,首先使用单维关联度对匹配函数进行线性变换,然后使用多维关联度对匹配函数进行非线性变换。根据本公开的一个实施方式,步骤C中,使用词组中各文本元素的匹配命中率对词组可靠性进行计算,其中,h为词组中各文本元素的匹配命中率,R为词组可靠性。根据本公开的一个实施方式,步骤D中,建立匹配函数的权重集合,根据监控反馈,将命中率与权重集合中的权重值进行线性调整。另一方面,一种基于NLP和企业信息的智能造词系统,包括:联度统计表更新模块:建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;造词模块:建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;筛选模块:对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;匹配函数更新模块:对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。根据本公开的一个实施方式,联度统计表更新模块中,关联度统计表包括任意一个文本元素与其它任意一个文本元素的单维关联度,以及任意一个文本元素与其它至少任意两个文本元素的多维关联度。根据本公开的一个实施方式,造词模块中,首先使用单维关联度对匹配函数进行线性变换,然后使用多维关联度对匹配函数进行非线性变换。根据本公开的一个实施方式,筛选模块中,使用词组中各文本元素的匹配命中率对词组可靠性进行计算,其中,h为词组中各文本元素的匹配命中率,R为词组可靠性。根据本公开的一个实施方式,匹配函数更新模块中,建立匹配函数的权重集合,根据监控反馈,将命中率与权重集合中的权重值进行线性调整。采用上述技术方案所带来的有益效果在于:本公开通过建立关联度与匹配函数的关系,提高了匹配准确度。进一步通过对造词之后的筛选和更新,可以有效减少无效词组的数量并提高匹配函数对于具体语境的适应度。具体实施方式下面结合实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。本公开的一个具体实施方式包括以下步骤:一种基于NLP和企业信息的智能造词方法,包括以下步骤:A、建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;B、建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;C、对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;D、对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。步骤A中,关联度统计表包括任意一个文本元素与其它任意一个文本元素的单维关联度,以及任意一个文本元素与其它至少任意两个文本元素的多维关联度。步骤B中,首先使用单维关联度对匹配函数进行线性变换,然后使用多维关联度对匹配函数进行非线性变换。步骤C中,使用词组中各文本元素的匹配命中率对词组可靠性进行计算,其中,h为词组中各文本元素的匹配命中率,R为词组可靠性。步骤D中,建立匹配函数的权重集合,根据监控反馈,将命中率与权重集合中的权重值进行线性调整。匹配函数根据其自身的权重值进行匹配结果的选择,优先选择权重值较大的匹配函数的匹配结果。本公开还提供了与上述方法对应的系统。在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。本文档来自技高网...

【技术保护点】
1.一种基于NLP和企业信息的智能造词方法,其特征在于,包括以下步骤:A、建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;B、建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;C、对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;D、对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。

【技术特征摘要】
1.一种基于NLP和企业信息的智能造词方法,其特征在于,包括以下步骤:A、建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;B、建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;C、对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;D、对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。2.根据权利要求1所述的基于NLP和企业信息的智能造词方法,其特征在于:步骤A中,关联度统计表包括任意一个文本元素与其它任意一个文本元素的单维关联度,以及任意一个文本元素与其它至少任意两个文本元素的多维关联度。3.根据权利要求2所述的基于NLP和企业信息的智能造词方法,其特征在于:步骤B中,首先使用单维关联度对匹配函数进行线性变换,然后使用多维关联度对匹配函数进行非线性变换。4.根据权利要求3所述的基于NLP和企业信息的智能造词方法,其特征在于:步骤C中,使用词组中各文本元素的匹配命中率对词组可靠性进行计算,其中,h为词组中各文本元素的匹配命中率,R为词组可靠性。5.根据权利要求4所述的基于NLP和企业信息的智能造词方法,其特征在于:步骤D中,建立匹配函数的权重集合,根据监控反馈,将命中率与权重集合中的权重值进行线性调整。6.一种基于NLP和企业信息的...

【专利技术属性】
技术研发人员:林正春姜允志王静
申请(专利权)人:广东原昇信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1