文本识别、文本处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:21952573 阅读:35 留言:0更新日期:2019-08-24 17:46
本发明专利技术涉及一种文本识别、文本处理方法、装置、计算机设备和存储介质,所述文本处理方法包括:获取初始输入文本;获取所述初始输入文本对应的目标领域对应的关联关系,所述关联关系为领域词与映射字符之间的关联关系,所述领域词是根据所述目标领域的待识别文本、通用领域文本集合和所述目标领域对应的目标文本集合识别得到的;根据所述初始输入文本和所述关联关系确定所述初始输入文本对应的目标领域词;根据所述目标领域词调整所述初始输入文本得到目标输入文本。上述方法针对特定领域调整得到的目标输入文本的准确度高。

Text Recognition, Text Processing, Devices, Computer Equipment and Storage Media

【技术实现步骤摘要】
文本识别、文本处理方法、装置、计算机设备和存储介质
本专利技术涉及互联网领域,特别是涉及文本识别、文本处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网的迅猛发展,信息过载的问题日益突出。网络中出现的词语越来越多,在很多场景下存在将用户输入的信息调整为实际需要输入的信息的需要,例如,根据输入的拼音显示候选词语或者对用户输入的词语进行纠错等。目前,当需要根据用户输入的信息确定实际需要输入的信息时,一般是从词库中筛选用户输入的词语的形近词或者具有相似拼音的词语,因此筛选得到的词语数量多,且往往是与用户实际输入的信息关联度不大的,准确度低。
技术实现思路
基于此,有必要针对上述的问题,提供一种文本识别、文本处理方法、装置、计算机设备和存储介质,由于可以根据待识别文本、通用领域文本集合和待识别文本对应的目标领域对应的文本集合识别得到目标领域的领域词,因此识别得到的领域词与目标领域的相关度大,文本识别以及文本处理的准确度高。一种文本识别方法,所述方法包括:获取待识别文本,根据所述待识别文本中的字符得到目标候选词;获取通用领域文本集合以及所述待识别文本对应的目标领域的目标文本集合;计算所述目标候选词在所述目标文本集合中的目标重要度以及在所述通用领域文本集合的参考重要度;根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度;根据所述目标相关度将所述目标候选词作为所述目标领域的领域词。在一个实施例中,所述根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度包括:根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的初始相关度;根据所述目标候选词在所述目标文本集合中的出现次数确定对应的相关度置信度;根据所述初始相关度以及所述相关度置信度得到所述目标相关度。在一个实施例中,所述文本处理方法还包括:检测所述目标输入文本对应的目标类型;当所述目标输入文本对应的目标类型为预设类型时,对所述初始输入文本进行过滤。一种文本识别装置,所述装置包括:目标候选词得到模块,用于获取待识别文本,根据所述待识别文本中的字符得到目标候选词;集合获取模块,用于获取通用领域文本集合以及所述待识别文本对应的目标领域的目标文本集合;重要度计算模块,用于计算所述目标候选词在所述目标文本集合中的目标重要度以及在所述通用领域文本集合的参考重要度;相关度得到模块,用于根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度;领域词获取模块,用于根据所述目标相关度将所述目标候选词作为所述目标领域的领域词。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述文本识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述文本识别方法的步骤。上述文本识别方法、装置、计算机设备和存储介质。在需要进行词识别时,通过获取待识别文本,根据待识别文本中的字符得到目标候选词;获取通用领域文本集合以及待识别文本对应的目标领域的目标文本集合;计算目标候选词在目标文本集合中的目标重要度以及在通用领域文本集合的参考重要度;根据目标候选词对应的目标重要度以及参考重要度计算得到目标候选词与目标领域的目标相关度;根据目标相关度将目标候选词作为目标领域的领域词。由于根据待识别文本得到目标候选词,且目标候选词在目标领域的文本集合与通用领域的文本集合中的重要度相对比,能够体现目标候选词与目标领域的相关程度,因此能够得到准确的与待识别文本对应的目标领域相关的领域词,准确性高。一种文本处理方法,所述方法包括:获取初始输入文本;获取所述初始输入文本对应的目标领域对应的关联关系,所述关联关系为领域词与映射字符之间的关联关系,所述领域词是根据所述目标领域对应的的待识别文本、通用领域文本集合和所述目标领域对应的目标文本集合识别得到的;根据所述初始输入文本和所述关联关系确定所述初始输入文本对应的目标领域词;根据所述目标领域词调整所述初始输入文本得到目标输入文本。一种文本处理装置,所述装置包括:初始输入文本获取模块,用于获取初始输入文本;关联关系获取模块,用于获取所述初始输入文本对应的目标领域对应的关联关系,所述关联关系为领域词与映射字符之间的关联关系,所述领域词是根据所述目标领域对应的待识别文本、通用领域文本集合和所述目标领域对应的目标文本集合识别得到的;目标领域词获取模块,用于根据所述初始输入文本和所述关联关系确定所述初始输入文本对应的目标领域词;目标输入文本得到模块,用于根据所述目标领域词调整所述初始输入文本得到目标输入文本。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述文本处理方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述文本处理方法的步骤。上述文本处理方法、装置、计算机设备和存储介质,可以根据应用的目标领域对应的领域词与映射字符之间的关系确定在应用中输入的文本对应的领域词,并根据领域词对初始输入文本进行调整,得到目标输入文本。由于领域词是根据应用的待识别文本、通用领域文本以及目标领域的文本识别得到的,为目标领域相关的词语,因此针对特定领域调整得到的目标输入文本的准确度高。附图说明图1为一个实施例中提供的文本处理方法以及文本识别方法的应用环境图;图2为一个实施例中文本识别方法的流程图;图3A为一个实施例中文本识别方法的流程图;图3B为一个实施例中建立领域词与映射字符之间的关联关系的流程图;图4为一个实施例中根据待识别文本中的字符得到目标候选词的流程图;图5为一个实施例中文本处理方法的流程图;图6为一个实施例中根据目标领域词调整初始输入文本得到目标输入文本的流程图;图7为一个实施例中得到词语关系链的示意图;图8为一个实施例中根据词语关系链的转移概率得到目标输入文本的示意图;图9为一个实施例中显示初始输入文本对应的目标输入文本的示意图;图10为一个实施例中文本处理方法的流程图;图11为一个实施例中对初始输入文本进行纠错,得到目标输入文本的示意图;图12为一个实施例中文本识别装置的结构框图;图13为一个实施例中文本识别装置的结构框图;图14为一个实施例中文本处理装置的结构框图;图15为一个实施例中计算机设备的内部结构框图;图16为一个实施例中计算机设备的内部结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一阈值称为第二阈值,且类似地,可将第二阈值称为第一阈值。图1为一个实施例中提供的文本处理方本文档来自技高网...

【技术保护点】
1.一种文本识别方法,所述方法包括:获取待识别文本,根据所述待识别文本中的字符得到目标候选词;获取通用领域文本集合以及所述待识别文本对应的目标领域的目标文本集合;计算所述目标候选词在所述目标文本集合中的目标重要度以及在所述通用领域文本集合的参考重要度;根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度;根据所述目标相关度将所述目标候选词作为所述目标领域的领域词。

【技术特征摘要】
1.一种文本识别方法,所述方法包括:获取待识别文本,根据所述待识别文本中的字符得到目标候选词;获取通用领域文本集合以及所述待识别文本对应的目标领域的目标文本集合;计算所述目标候选词在所述目标文本集合中的目标重要度以及在所述通用领域文本集合的参考重要度;根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度;根据所述目标相关度将所述目标候选词作为所述目标领域的领域词。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标相关度将所述目标候选词作为所述目标领域的领域词之后,还包括:根据映射关系确定所述领域词对应的映射字符,所述映射关系包括形近映射、音近映射中的至少一种;建立所述领域词与所述映射字符之间的关联关系。3.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本中的字符得到目标候选词包括:根据所述待识别文本中字符的邻近关系生成初始候选词集合;计算所述初始候选词集合中各个初始候选词在所述目标文本集合中的词语关联度以及词语独立度;根据所述词语关联度以及所述词语独立度计算得到所述各个初始候选词的词语生成度;根据所述各个初始候选词的词语生成度从所述初始候选词集合中筛选得到所述目标候选词。4.根据权利要求3所述的方法,其特征在于,所述计算所述初始候选词集合中各个初始候选词在所述目标文本集合中的词语关联度包括:根据所述初始候选词在所述目标文本集合中的出现次数确定对应的关联置信度;根据所述初始候选词在所述目标文本集合中的出现概率确定所述初始候选词的词语初始关联度;根据所述初始候选词对应的关联置信度和词语初始关联度计算得到词语目标关联度。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:当所述初始候选词对应的词语独立度小于第一阈值时,根据所述初始候选词和所述初始候选词在所述待识别文本中的相邻字符形成新的初始候选词;将所述新的初始候选词加入所述初始候选词集合。6.一种文本处理方法,所述方法包括:获取初始输入文本;获取所述初始输入文本对应的目标领域对应的关联关系,所述关联关系为领域词与映射字符之间的关联关系,所述领域词是根据所述目标领域对应的待识别文本、通用领域文本集合和所述目标领域对应的目标文本集合识别得到的;根据所述初始输入文本和所述关联关系确定所述初始输入文本对应的目标领域词;根据所述目标领域词调整所述初始输入文本得到目标输入文本。7.根据权利要求6所述的方法,其特征在于,所述根据所述目标领域词调整所述初始输入文本得到目标输入文本包括:获取所述初始输入文本对应的各个候选输入词;根据所述初始输入文本的词语的组成关系、所述候选输入词、所述目标领域词构建词语关系链集合;计算各个词语关系链中由前向词语转移到当前词语的转移概率;根据所述词语关系链对应的各个转移概率得到所述词语关系链的连接强度;根据所述词语关系链的连接强度从所述词语关系链集合中筛选得到目标词语关系链,将所述目标词语关系链对应的文本作为目标输入文本。8.根据权利要求6所述的方法,其特征在于,所述获取初始输入文本包括:获取在应用中输入的查询语句,将所述查询语句作为初始输入文本;所述方法还包括:...

【专利技术属性】
技术研发人员:黄子轩王军伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1