【技术实现步骤摘要】
文本识别、文本处理方法、装置、计算机设备和存储介质
本专利技术涉及互联网领域,特别是涉及文本识别、文本处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网的迅猛发展,信息过载的问题日益突出。网络中出现的词语越来越多,在很多场景下存在将用户输入的信息调整为实际需要输入的信息的需要,例如,根据输入的拼音显示候选词语或者对用户输入的词语进行纠错等。目前,当需要根据用户输入的信息确定实际需要输入的信息时,一般是从词库中筛选用户输入的词语的形近词或者具有相似拼音的词语,因此筛选得到的词语数量多,且往往是与用户实际输入的信息关联度不大的,准确度低。
技术实现思路
基于此,有必要针对上述的问题,提供一种文本识别、文本处理方法、装置、计算机设备和存储介质,由于可以根据待识别文本、通用领域文本集合和待识别文本对应的目标领域对应的文本集合识别得到目标领域的领域词,因此识别得到的领域词与目标领域的相关度大,文本识别以及文本处理的准确度高。一种文本识别方法,所述方法包括:获取待识别文本,根据所述待识别文本中的字符得到目标候选词;获取通用领域文本集合以及所述待识别文本对应的目标领域的目标文本集合;计算所述目标候选词在所述目标文本集合中的目标重要度以及在所述通用领域文本集合的参考重要度;根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度;根据所述目标相关度将所述目标候选词作为所述目标领域的领域词。在一个实施例中,所述根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度包括:根据所述目标候选词 ...
【技术保护点】
1.一种文本识别方法,所述方法包括:获取待识别文本,根据所述待识别文本中的字符得到目标候选词;获取通用领域文本集合以及所述待识别文本对应的目标领域的目标文本集合;计算所述目标候选词在所述目标文本集合中的目标重要度以及在所述通用领域文本集合的参考重要度;根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度;根据所述目标相关度将所述目标候选词作为所述目标领域的领域词。
【技术特征摘要】
1.一种文本识别方法,所述方法包括:获取待识别文本,根据所述待识别文本中的字符得到目标候选词;获取通用领域文本集合以及所述待识别文本对应的目标领域的目标文本集合;计算所述目标候选词在所述目标文本集合中的目标重要度以及在所述通用领域文本集合的参考重要度;根据所述目标候选词对应的目标重要度以及参考重要度计算得到所述目标候选词与所述目标领域的目标相关度;根据所述目标相关度将所述目标候选词作为所述目标领域的领域词。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标相关度将所述目标候选词作为所述目标领域的领域词之后,还包括:根据映射关系确定所述领域词对应的映射字符,所述映射关系包括形近映射、音近映射中的至少一种;建立所述领域词与所述映射字符之间的关联关系。3.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本中的字符得到目标候选词包括:根据所述待识别文本中字符的邻近关系生成初始候选词集合;计算所述初始候选词集合中各个初始候选词在所述目标文本集合中的词语关联度以及词语独立度;根据所述词语关联度以及所述词语独立度计算得到所述各个初始候选词的词语生成度;根据所述各个初始候选词的词语生成度从所述初始候选词集合中筛选得到所述目标候选词。4.根据权利要求3所述的方法,其特征在于,所述计算所述初始候选词集合中各个初始候选词在所述目标文本集合中的词语关联度包括:根据所述初始候选词在所述目标文本集合中的出现次数确定对应的关联置信度;根据所述初始候选词在所述目标文本集合中的出现概率确定所述初始候选词的词语初始关联度;根据所述初始候选词对应的关联置信度和词语初始关联度计算得到词语目标关联度。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:当所述初始候选词对应的词语独立度小于第一阈值时,根据所述初始候选词和所述初始候选词在所述待识别文本中的相邻字符形成新的初始候选词;将所述新的初始候选词加入所述初始候选词集合。6.一种文本处理方法,所述方法包括:获取初始输入文本;获取所述初始输入文本对应的目标领域对应的关联关系,所述关联关系为领域词与映射字符之间的关联关系,所述领域词是根据所述目标领域对应的待识别文本、通用领域文本集合和所述目标领域对应的目标文本集合识别得到的;根据所述初始输入文本和所述关联关系确定所述初始输入文本对应的目标领域词;根据所述目标领域词调整所述初始输入文本得到目标输入文本。7.根据权利要求6所述的方法,其特征在于,所述根据所述目标领域词调整所述初始输入文本得到目标输入文本包括:获取所述初始输入文本对应的各个候选输入词;根据所述初始输入文本的词语的组成关系、所述候选输入词、所述目标领域词构建词语关系链集合;计算各个词语关系链中由前向词语转移到当前词语的转移概率;根据所述词语关系链对应的各个转移概率得到所述词语关系链的连接强度;根据所述词语关系链的连接强度从所述词语关系链集合中筛选得到目标词语关系链,将所述目标词语关系链对应的文本作为目标输入文本。8.根据权利要求6所述的方法,其特征在于,所述获取初始输入文本包括:获取在应用中输入的查询语句,将所述查询语句作为初始输入文本;所述方法还包括:...
【专利技术属性】
技术研发人员:黄子轩,王军伟,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。