机构名简称的预测方法、装置和计算机设备制造方法及图纸

技术编号:22166827 阅读:27 留言:0更新日期:2019-09-21 10:32
本申请涉及一种机构名简称的预测方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取机构名文本;提取机构名文本中各字符的文本特征,文本特征至少包括字符特征、后缀名特征、分词特征和/或词性特征;将文本特征输入至预先训练好的机器学习模型中,得到机器学习模型输出的机构名文本中各个字符对应的属性标识;根据机构名文本中各字符的属性标识,确定机构名文本的简称字段。本申请提供的方案可以有效提高机构名简称预测的准确性。

Prediction Method, Device and Computer Equipment for Abbreviated Names of Institutions

【技术实现步骤摘要】
机构名简称的预测方法、装置和计算机设备
本申请涉及计算机
,特别是涉及一种机构名简称的预测方法、装置、计算机可读存储介质和计算机设备。
技术介绍
在日常生活中,对于全称较长的机构名,会将其压缩成短的、简单的词语作为简称进行替代,例如对于“中国石油天然气有限公司”,日常会称呼其简称“中石油”;如果无法获知机构名对应的简称,往往给信息检索、信息抽取等自然语言处理带来困难。在传统方法中,通常采用人工整理或者基于文本规则挖掘的方式获取机构名对应的简称,其中,人工整理的方式需要耗费大量人力资源,而基于文本规则挖掘的方式虽然在一定程度上减少人力资源的浪费,但是机构名用字规律不强、使用较随意导致机构名简称的构成没有稳定的规则,基于文本规则挖掘的方式预测机构名简称的准确率低。
技术实现思路
基于此,有必要针对以传统方法获得的机构名简称准确率低的技术问题,提供一种机构名简称的预测方法、装置、计算机可读存储介质和计算机设备。一种机构名简称的预测方法,包括:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和/或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。一种机构名简称的预测装置,其特征在于,所述装置包括:文本获取模块,用于获取机构名文本;文本特征获取模块,用于提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和/或词性特征;属性标识获取模块,用于将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;简称字段获取模块,用于根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和/或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和/或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。上述机构名简称的预测方法、装置、计算机可读存储介质和计算机设备,通过获取机构名文本中各个字符的包括字符特征、后缀名特征、分词特征以及词性特征的文本特征,将文本特征输入至机器学习模型中,获取机器学习模型输出的机构名文本各个字符对应的属性标识,进而根据属性标识获取机构名的简称字段,由于文本特征能够全面的表达机构名文本中的不同信息,文本特征的可解析性提高,使得机器学习模型的可解析性以及泛化性提高,有效提高机构名简称预测的准确性。附图说明图1为一个实施例中机构名简称的预测方法的应用环境图;图2为一个实施例中计算机设备的内部机构示意图;图3为一个实施例中机构名简称的预测方法的流程示意图;图4为一个实施例中机构名简称的预测方法的运行示意图;图5为一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图6为另一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图7为又一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图8为再一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图9为还一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图10为一个实施例中机器学习模型训练过程步骤的流程示意图;图11为一个实施例中利用条件随机场算法模型预测机构名简称的准确率以及召回率的数据表;图12为一个实施例中获取机构名训练样本的步骤的流程示意图;图13为一个实施例中百度词条网页的示意图;图14为另一个实施例中机构名简称的预测方法的流程示意图;图15为一个实施例中机构名简称的预测装置的结构框图;图16为另一个实施例中机构名简称的预测装置的结构框图;图17为又一个实施例中的机构名简称的预测装置的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中机构名简称的预测方法的应用环境图。该机构名简称的预测方法应用于一种计算机设备。该计算机设备可以是服务器或终端。如图1所示,以该计算机设备是终端102为例,用户可以通过界面操作终端102,终端102在获取到用户通过操作时输入的机构名文本后,提取机构名文本中各字符的文本特征,将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识,进而根据所述机构名文本中各字符的属性标识获取所述机构名文本的简称字段,终端102可以将获得的简称字段通过操作界面输出,反馈给用户,也可以将该简称字段发送至后一级的服务器以供后一级的服务器进行信息检索或信息抽取等操作。本领域技术人员可以理解。图1中示出的应用环境,仅仅与本申请方案相关的部分场景,并不构成对本申请应用环境的限定,图2为一个实施例中计算机设备的内部机构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现机构名简称的预测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行机构名简称的预测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。如图3所示,在一个实施例中,提供了一种机构名简称的预测方法。本实施例主要以该方法应用于上述图1中的终端来举例说明。参照图3,该机构名简称的预测方法,具体包括如下步骤:S202,获取机构名文本。其中,机构名文本是指机构名全称的文本数据。S204,提取机构名文本中各字符的文本特征,文本特征至少包括字符特征、后缀名特征、分词特征和/或词性特征。具体的,终端对机构名文本进行特征提取,以获取各个字符的文本特征,实现机构名文本进行特征化表示,具体的特征提取方式可以包括分词、利用词典进行特征抽取、词性分析等。其中,文本特征是指用于描述机构名文本中各个字符在不同维度的信息,包括字符特征、后缀名特征、分词特征以及词性特征等;具体的,字符特征用于表征机构名文本中每个字的本本文档来自技高网...

【技术保护点】
1.一种机构名简称的预测方法,包括:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和/或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。

【技术特征摘要】
1.一种机构名简称的预测方法,包括:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和/或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。2.根据权利要求1所述的方法,其特征在于,所述字符特征包括三元字符关系特征以及二元字符关系特征;所述提取所述机构名文本中各字符的文本特征的步骤,包括:从所述机构名文本中分割出字符;获取各字符的三元字符关系特征以及二元字符关系特征,所述三元字符关系特征用于表征当前字符、当前字符的前一字符以及当前字符的后一字符的信息,所述二元字符关系特征用于表征当前字符以及当前字符的后一字符的信息。3.根据权利要求1所述的方法,其特征在于,所述提取所述机构名文本中各字符的文本特征的步骤,包括:对所述机构名文本进行分词处理,获得所述机构名文本中的词序列;获取所述词序列的词性,并获取用于表示所述词性的特征编码;将所述词性的特征编码作为所述词序列内各字符的词性特征。4.根据权利要求3所述的方法,其特征在于,所述对所述机构名文本进行分词处理,获得所述机构名文本中的词序列的步骤之后,还包括:确定所述词序列中的首字符,并生成用于表示所述首字符的特征编码;将所述首字符的特征编码确定为所述词序列中首字符对应字符的分词特征。5.根据权利要求3所述的方法,其特征在于,所述后缀名特征包括机构名后缀特征;所述对所述机构名文本进行分词处理,获得所述机构名文本中的词序列的步骤之后,还包括:将所述词序列分别与机构后缀名词典中的机构后缀名进行匹配;根据匹配成功的目标机构后缀名生成机构名后缀特征;将所述机构名后缀特征确定为所述词序列中各字符的后缀名特征。6.根据权利要求3所述的方法,其特征在于,所述后缀名特征包括地址后缀特征;所述对所述机构名文本进行分词处理,获得所述机构名文本中的词序列的步骤之后,还包括:确定所述词序列的尾字符;将所述尾字符分别与地址后缀名词典中的地址后缀名进行匹配;根据匹配成功的目标地址后缀名生成地址后缀特征;将所述地址后缀特征确定为所述词序列中尾字符对应字符的后缀名特征。7.根据权利要求1所述的方法,其特征在于,所述获取机构名文本的步骤之前,还包括:获取机构名训练数据,所述机构名训练数据包括机构名训练样本中各字符的文本特征以及所述机构名训练样本中各字符对应的属性标识;将所述机构名训练样本中各字符的文本特征作为输入特征、所述机构名训...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1