一种基于拼音转换的智能语义匹配方法组成比例

技术编号:21605899 阅读:33 留言:0更新日期:2019-07-13 18:21
本发明专利技术涉及一种基于拼音转换的智能语义匹配方法,所述方法包括:语义处理系统获取第一目标文本数据;对第一目标文本数据进行语义匹配,得到第一语义匹配结果数据;当第一语义匹配结果数据为空时,获取第一目标文本数据中的泛化对象信息和场景数据;对第一目标文本数据中的泛化对象信息进行拼音转换,得到泛化对象信息的拼音信息;根据泛化对象信息的拼音信息在与场景数据相对应的词语信息库中匹配相应的替换对象信息;根据替换对象信息更新第一目标文本数据,得到第二目标文本数据;对第二目标文本数据进行语义匹配,得到第二语义匹配结果数据,并输出。

An Intelligent Semantic Matching Method Based on Pinyin Conversion

【技术实现步骤摘要】
一种基于拼音转换的智能语义匹配方法
本专利技术涉及数据处理
,尤其涉及一种基于拼音转换的智能语义匹配方法。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满挑战的。在一些情况中,用户通过输入法输入的文本可能会存在个别字词错误。例如,用户本应输入的正确的语句为“我想打电话给王晓明”,但用户输入的文本是“我想打电话给王小明”,而由于用户的电话簿中只有“王晓明”而没有“王小明”,因此语义匹配系统无法根据当前得到的“王小明”的文本匹配到电话簿中的“王晓明”,也就无法输出语义匹配结果。在另一些情况中,用户说出的语音可能是带有口音的,这也使得对于用户输入的语音数据进行语音识别后所得到的文本,可能与基于标准普通话应得到的文本不同,从而影响语义匹配结果。例如,用户本应输入的正确语音为“打电话给姚明”,由于方言影响,用户输出的带口音的语音为“打电话给要命”,此时语义处理系统根据当前语音数据无法匹配到相应的结果。因此,如何根据一个存在错误的文本进行合理的语义匹配,从而得到与用户本意相对应的答案,成为了本领域的难点之一。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供一种基于拼音转换的智能语义匹配方法,可以实现在语义匹配的过程中,对语句中的错误的词进行拼音转换后修改为正确的词语,从而实现对语句中的同音异义词纠错,使得在原文本存在错误的情况下,仍可以在纠错后进行语义匹配。为实现上述目的,本专利技术提供了一种基于拼音转换的智能语义匹配方法,所述方法包括:语义处理系统获取第一目标文本数据;对所述第一目标文本数据进行语义匹配,得到第一语义匹配结果数据;当所述第一语义匹配结果数据为空时,获取所述第一目标文本数据中的泛化对象信息和场景数据;对所述第一目标文本数据中的泛化对象信息进行拼音转换,得到所述泛化对象信息的拼音信息;根据所述泛化对象信息的拼音信息在与所述场景数据相对应的词语信息库中匹配相应的替换对象信息;根据所述替换对象信息更新所述第一目标文本数据,得到第二目标文本数据;对所述第二目标文本数据进行语义匹配,得到第二语义匹配结果数据,并输出。优选的,在所述语义处理系统获取第一目标文本数据之前,所述方法还包括:所述语义处理系统接收语句数据,对所述语句数据进行语音识别,得到第一目标文本数据。进一步优选的,所述语句数据包括语句语音数据和语句文字数据;所述语义处理系统接收语句数据,对所述语句数据进行语音识别,得到第一目标文本数据具体为:所述语义处理系统的语音转换器接收所述语句数据,对所述语句数据中的语句语音数据进行识别,得到所述语句语音数据的语句文字数据,并将所述语句语音数据的语句文字数据插入所述语义处理系统的输入队列的末尾;所述语义处理系统的轮询器监听所述输入队列的数据插入,从所述输入队列中获取所述输入队列末尾的语句文字数据,得到所述第一目标文本数据。优选的,所述对所述第一目标文本数据中的泛化对象信息进行拼音转换具体为:将所述第一目标文本数据中的泛化对象信息拆分为一个或多个词组单元,对每个词组单元进行拼音转换。进一步优选的,所述词组单元包括二元词组单元和三元词组单元。优选的,所述对所述第一目标文本数据进行语义匹配,得到第一语义匹配结果数据具体为:对所述第一目标文本数据进行句式泛化处理,提取所述第一目标文本数据中的固定语信息和泛化对象信息;根据所述固定语信息和所述泛化对象信息得到所述第一语义匹配结果数据。进一步优选的,所述根据所述固定语信息和所述泛化对象信息得到所述第一语义匹配结果数据具体为:根据所述固定语信息确定所述第一目标文本数据的场景数据;将所述泛化对象信息带入所述场景数据,得到第一语义匹配结果数据。优选的,所述根据所述泛化对象信息的拼音信息在与所述场景数据相对应的词语信息库中匹配相应的替换对象信息具体为:从与所述场景数据相对应的词语信息库中查找与所述泛化对象信息的拼音信息相同的一个或多个词语信息;从所述一个或多个词语信息中确定优先级最高的词语信息为所述替换对象信息。进一步优选的,所述词语信息库包括用户数据信息数据库和预设词语信息库;在所述从与所述场景数据相对应的词语信息库中查找与所述泛化对象信息的拼音信息相同的一个或多个词语信息之前,所述方法还包括:所述语义处理系统中的处理器根据语义处理系统中的应用接口获取本地用户信息数据,根据所述本地用户信息数据生成所述用户数据信息数据库;并且,从所述服务器中获取预设词语数据,根据所述预设词语数据生成所述预设词语信息库。本专利技术实施例提供的基于拼音转换的智能语义匹配方法,可以实现在语义匹配的过程中,对语句中的错误的词进行拼音转换后修改为正确的词语,从而实现对语句中的同音异义词纠错,使得在原文本存在错误的情况下,仍可以在纠错后进行语义匹配。附图说明图1为本专利技术实施例提供的基于拼音转换的智能语义匹配方法的流程图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。本专利技术实施例首先提供了一种基于拼音转换的智能语义匹配方法,实现于语义处理系统中,用于对语句中的同音异义词纠错。其方法流程图如图1所示,包括如下步骤:步骤101,语义处理系统获取第一目标文本数据;具体的,语义处理系统可以理解为一个具有语句输入、处理和输出功能的系统。语义处理系统包括语音转换器、输入队列、轮询器和处理器。当语义处理系统启动时,系统输出页面中配置的监听器被启动,该监听器会加载用于语音服务的配置文件、域(domain)类以及domain对应的用户配置文件、语义处理系统特定情况的输出语句,同时启动语音转换器、输入队列、轮询器和处理器。语句数据包括语句语音数据或语句文字数据,也就是说用户可以通过语音或文字的方式向语义处理系统输入语句数据。当用户通过语音的方式输入语句语音数据时,语音转换器接收语句语音数据,对语句语音数据进行识别,得到语句语音数据的语句文字数据,并将语句语音数据的语句文字数据插入语义处理系统的输入队列的末尾。当用户通过文字的方式输入语句文字数据时,语音转换器直接将用户输入的语句文字数据插入语义处理系统的输入队列的末尾。轮询器会一直监听输入队列是否有新的消息,也就是监听是否有语句文字数据进入队列,并从输入队列中获取输入队列末尾的语句文字数据,从而得到第一目标文本数据。第一目标文本数据可以理解为未进行过拼音转换的原始文本。步骤102,对第一目标文本数据进行语义匹配,得到第一语义匹配结果数据;具体的,处理器首先对当前第一目标文本数据进行句式泛化处理,提取第一目标文本数据中的固定语信息和泛化对象信息,然后根据第一目标文本数据中的固定语句信息确定第一目标文本数据对应的场景数据,根据第一目标文本数据中的泛化对象信息确定第一目标文本数据对应的兴趣点数据,最后根据第一目标文本数据对应的场景数据和兴趣点数据得到第一语义匹配结果数据。进一步具体的,在轮询器获取到当前第一目标文本数据后,轮询器将当前第一目标文本数据发送至处理器。处理器根据语法规则树对语句数据进行句式泛化处理,提取语句数据中的固定语信息和泛化对象信息。句式泛化处理可以理解为根据语法规则树通过一个语句扩展到多种语句的表达形式,并提取语句中关键要素的过程。本文档来自技高网...

【技术保护点】
1.一种基于拼音转换的智能语义匹配方法,其特征在于,所述方法包括:语义处理系统获取第一目标文本数据;对所述第一目标文本数据进行语义匹配,得到第一语义匹配结果数据;当所述第一语义匹配结果数据为空时,获取所述第一目标文本数据中的泛化对象信息和场景数据;对所述第一目标文本数据中的泛化对象信息进行拼音转换,得到所述泛化对象信息的拼音信息;根据所述泛化对象信息的拼音信息在与所述场景数据相对应的词语信息库中匹配相应的替换对象信息;根据所述替换对象信息更新所述第一目标文本数据,得到第二目标文本数据;对所述第二目标文本数据进行语义匹配,得到第二语义匹配结果数据,并输出。

【技术特征摘要】
1.一种基于拼音转换的智能语义匹配方法,其特征在于,所述方法包括:语义处理系统获取第一目标文本数据;对所述第一目标文本数据进行语义匹配,得到第一语义匹配结果数据;当所述第一语义匹配结果数据为空时,获取所述第一目标文本数据中的泛化对象信息和场景数据;对所述第一目标文本数据中的泛化对象信息进行拼音转换,得到所述泛化对象信息的拼音信息;根据所述泛化对象信息的拼音信息在与所述场景数据相对应的词语信息库中匹配相应的替换对象信息;根据所述替换对象信息更新所述第一目标文本数据,得到第二目标文本数据;对所述第二目标文本数据进行语义匹配,得到第二语义匹配结果数据,并输出。2.根据权利要求1所述的语义匹配方法,其特征在于,在所述语义处理系统获取第一目标文本数据之前,所述方法还包括:所述语义处理系统接收语句数据,对所述语句数据进行语音识别,得到第一目标文本数据。3.根据权利要求2所述的语义匹配方法,其特征在于,所述语句数据包括语句语音数据和语句文字数据;所述语义处理系统接收语句数据,对所述语句数据进行语音识别,得到第一目标文本数据具体为:所述语义处理系统的语音转换器接收所述语句数据,对所述语句数据中的语句语音数据进行识别,得到所述语句语音数据的语句文字数据,并将所述语句语音数据的语句文字数据插入所述语义处理系统的输入队列的末尾;所述语义处理系统的轮询器监听所述输入队列的数据插入,从所述输入队列中获取所述输入队列末尾的语句文字数据,得到所述第一目标文本数据。4.根据权利要求1所述的语义匹配方法,其特征在于,所述对所述第一目标文本数据中的泛化对象信息进行拼音转换具体为:将所述第一目标文本数据中的泛化对象信息拆分为一...

【专利技术属性】
技术研发人员:张海风邵飞虎孙晓光
申请(专利权)人:北京博瑞彤芸文化传播股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1