语意分析装置、方法及其电脑存储介质制造方法及图纸

技术编号:19903393 阅读:36 留言:0更新日期:2018-12-26 02:54
一种语意分析装置、方法及其电脑存储介质。该语意分析装置对一中文字符串词汇分析以得多个群组,且对该等群组语意分析以得至少一第一机率分布,各该至少一第一机率分布包含多个第一机率值一对一地对应至多个标签。该语意分析装置将该中文字符串区分为多个汉字,对该等汉字语意分析以得至少一第二机率分布,各该至少一第二机率分布包含多个第二机率值一对一地对应至该等标签。该语意分析装置根据该至少一第一机率分布及该至少一第二机率分布计算出至少一第三机率分布,且根据该至少一第三机率分布决定该中文字符串的至少一输出信息。

【技术实现步骤摘要】
语意分析装置、方法及其电脑存储介质
本专利技术系关于一种语意分析装置、方法及其电脑存储介质。更具体而言,本专利技术系关于一种中文语意分析装置、方法及其电脑存储介质。
技术介绍
随着科技的快速发展以及社群平台的兴盛,透过各种输入接口提供各种信息(例如:文字消息、语音消息)已成为人们日常生活中不可或缺的元素。在不同的应用领域(例如:人机接口)中,如何正确地解读人们所提供的信息,以便基于解读后的信息提供适当的响应或/及服务,是一个日益重要的议题。已知的中文语意分析技术可区分为二大类,其中一类是利用深度学习网络判断一中文字符串所代表的意图,而另一类则是采用关键词分析技术标出一中文字符串中的关键词。不论是哪一类技术,在进行中文语意分析之前,皆须先对该中文字符串进行断词(WordSegmentation)。已知的中文语意分析技术极度仰赖前端断词的正确性。尽管目前已有多种断词技术,但这些技术在对一中文字符串断词时,仍难以处理「歧义识别」及「新词识别」二个议题。歧异识别是指同一中文字符串可能有二种以上的断词结果。新词识别则是指中文字符串中含有未被登录的词汇,也就是那些未收录于字典但却被实际使用的词汇。由于已知的断词技术无法克服这些问题,导致后续的中文语意分析的结果不够精准。有鉴于此,本领域亟需一种能降低对断词技术的仰赖程度且能提高语意分析正确性的语意分析技术。
技术实现思路
本专利技术的一目的在于提供一种语意分析装置。该语意分析装置包含一输入接口、一储存器及一处理器,其中该处理器电性连接至该输入接口及该储存器。该储存器储存多个标签。该输入接口接收一中文字符串。该处理器对该中文字符串进行词汇分析以得多个群组,对该等群组进行语意分析以得至少一第一机率分布,其中各该至少一第一机率分布包含多个第一机率值一对一地对应至该等标签。该处理器更将该中文字符串区分为多个汉字,对该等汉字进行语意分析以得至少一第二机率分布,其中各该至少一第二机率分布包含多个第二机率值一对一地对应至该等标签。该处理器更根据该至少一第一机率分布及该至少一第二机率分布计算出至少一第三机率分布,且根据该至少一第三机率分布决定该中文字符串的至少一输出信息,其中该至少一输出信息与该等卷标其中之一相关。本专利技术的另一目的在于提供一种语意分析方法,其系适用于一电子计算装置。该分析方法包含下列步骤:(a)对该中文字符串进行词汇分析以得多个群组,(b)将该中文字符串区分为多个汉字,(c)对该等群组进行语意分析以得至少一第一机率分布,其中各该至少一第一机率分布包含多个第一机率值一对一地对应至多个标签,(d)对该等汉字进行语意分析以得至少一第二机率分布,各该至少一第二机率分布包含多个第二机率值一对一地对应至该等标签,(e)根据该至少一第一机率分布及该至少一第二机率分布计算出至少一第三机率分布,以及(f)根据该至少一第三机率分布决定该中文字符串的至少一输出信息,其中该至少一输出信息与该等卷标其中之一相关。本专利技术的又一目的在于提供一种电脑存储介质,其储存有包含多个程序指令的一计算机程序。一电子计算装置加载该计算机程序后,该电子计算装置执行该计算机程序产品所包含的该等程序指令,以执行前段所述的语意分析方法。本专利技术所提供的语意分析技术(包含装置、方法及其电脑存储介质)采用一种混合推论架构(亦即,对一中文字符串的断词结果进行语意分析,且对该中文字符串所包含的汉字进行语意分析,再整合二者的语意分析结果)。藉由混和推论架构,本专利技术所提供的语意分析技术能降低对断词技术的仰赖程度,并整合汉字所具有的语意信息,故能产生较为正确的语意分析结果。在参阅图式及随后描述的实施方式后,此
普通技术人员便可了解本专利技术的其他目的,以及本专利技术的技术手段及实施态样。附图说明图1A系描绘第一及第二实施方式的语意分析装置1的架构示意图;图1B系描绘第一机率分布、第二机率分布及第三机率分布的具体范例;图2A系描绘一具体范例中的多个群组以及各群组所对应的最大第一机率值所对应的标签;图2B系描绘一具体范例中的多个汉字以及各汉字所对应的最大第二机率值所对应的标签;图2C系描绘整合群组的语意分析结果及汉字的语意分析结果后的输出信息的具体范例;以及图3系描绘第三实施方式的语意分析方法的流程图。符号说明1:语意分析装置11:储存器13:处理器15:输入接口10:中文字符串10a:标签10b:标签100:第一机率分布102:第二机率分布104:第三机率分布S301~S311:步骤具体实施方式以下将透过实施方式来解释本专利技术所提供的语意分析装置、方法及其电脑存储介质。然而,该等实施方式并非用以限制本专利技术需在如该等实施方式所述的任何环境、应用或方式方能实施。因此,关于实施方式的说明仅为阐释本专利技术的目的,而非用以限制本专利技术的范围。应理解,在以下实施方式及图式中,与本专利技术非直接相关的元件已省略而未绘示,且各元件的尺寸以及元件间的尺寸比例仅为例示而已,而非用以限制本专利技术的范围。本专利技术的第一实施方式为一语意分析装置1,其架构示意图系描绘于图1A。语意分析装置1包含一储存器11、一处理器13及一输入接口15,其中处理器13电性连接至储存器11及输入接口15。储存器11可为一存储器、一通用串行总线(UniversalSerialBus;USB)碟、一硬盘、一光盘(CompactDisk;CD)、一随身碟、一数据库或本专利技术所属
中普通技术人员所知且具有相同功能的任何其他储存媒体或电路。处理器13可为各种处理器、中央处理单元(CentralProcessingUnit;CPU)、微处理器或本专利技术所属
中普通技术人员所知的其他计算装置中的任一者。输入接口15可为各种能接收文字信息的装置。储存器11储存多个标签10a、…、10b,且标签10a、…、10b中的每一个对应至一涵义。于本实施方式中,语意分析装置1被设计为用于意图分析(亦即,分析中文字符串的涵义以了解意图/目的),因此标签10a、…、10b中的每一个与一意图相关。举例而言,储存器11可储存六个标签,包含:「find_location」、「reserve_restaurant」、「reserve_hotel_room」、「find_restaurant」、「find_hotel」及「find_route」,其所对应的涵义分别为「找地点」、「订餐厅」、「订房」、「找餐厅」、「找旅馆」及「找路径」。输入接口15接收一中文字符串10。需说明者,本专利技术未限制输入接口15自何处接收中文字符串10(例如:输入接口15可自键盘或网络接收用户所输入的中文字符串,可接收经由语音识别技术处理后的中文字符串,可接收经影像辨识技术处理后的中文字符串等等),且未限制输入接口15所接收的中文字符串10的内容是否正确(例如:中文字符串可能包含错字)。处理器13会对中文字符串10做二种不同的分解,对二种不同的分解结果个别地进行语意分析,再整合二种语意分析结果。兹先说明其中一种分解方式及后续的语意分析。具体而言,处理器13将中文字符串10进行词汇分析,并因此得到多个群组,其中各群组可为一汉字或一词汇。处理器13可采用各种断词(WordSegmentation)技术进行前述词汇分析,其系为本专利技术所属
中具有通常知识者所本文档来自技高网
...

【技术保护点】
1.一种语意分析装置,其特征在于包含:一输入接口,接收一中文字符串;一储存器,储存多个标签;以及一处理器,电性连接至该输入接口及该储存器,对该中文字符串进行词汇分析以得多个群组,将该中文字符串区分为多个汉字,对该等群组进行语意分析以得至少一第一机率分布,其中各该至少一第一机率分布包含多个第一机率值一对一地对应至该等标签,其中,该处理器更对该等汉字进行语意分析以得至少一第二机率分布,各该至少一第二机率分布包含多个第二机率值一对一地对应至该等标签,该处理器更根据该至少一第一机率分布及该至少一第二机率分布计算出至少一第三机率分布,且根据该至少一第三机率分布决定该中文字符串的至少一输出信息,其中该至少一输出信息与该等卷标其中之一相关。

【技术特征摘要】
1.一种语意分析装置,其特征在于包含:一输入接口,接收一中文字符串;一储存器,储存多个标签;以及一处理器,电性连接至该输入接口及该储存器,对该中文字符串进行词汇分析以得多个群组,将该中文字符串区分为多个汉字,对该等群组进行语意分析以得至少一第一机率分布,其中各该至少一第一机率分布包含多个第一机率值一对一地对应至该等标签,其中,该处理器更对该等汉字进行语意分析以得至少一第二机率分布,各该至少一第二机率分布包含多个第二机率值一对一地对应至该等标签,该处理器更根据该至少一第一机率分布及该至少一第二机率分布计算出至少一第三机率分布,且根据该至少一第三机率分布决定该中文字符串的至少一输出信息,其中该至少一输出信息与该等卷标其中之一相关。2.如权利要求1所述的语意分析装置,其特征在于,各该至少一第三机率分布包含多个第三机率值一对一地对应至该等标签,该处理器以各该至少一第三机率分布的最大的该第三机率值决定该至少一输出信息。3.如权利要求1所述的语意分析装置,其特征在于,该处理器对该等群组进行语意分析得多个第一机率分布,该处理器对该等汉字进行语意分析得多个第二机率分布,该处理器根据该等第一机率分布及该等第二机率分布计算出多个第三机率分布,且该处理器更根据该等第三机率分布决定该中文字符串的多个输出信息。4.如权利要求3所述的语意分析装置,其特征在于,该等群组一对一地对应至该等第一机率分布,该等汉字一对一地对应至该等第二机率分布,该处理器对各该汉字进行以下运作:(a)根据该汉字选取该等群组其中之一作为一选定群组,其中该选定群组包含该汉字,(b)根据该汉字所对应的该第二机率分布及该选定群组所对应的该第一机率分布计算出该汉字的一修正机率分布,其中该修正机率分布为该等第三机率分布其中之一,以及(c)根据该修正机率分布决定出该等输出信息其中之一。5.如权利要求1所述的语意分析装置,其特征在于,该处理器根据一第一权重值加权该至少一第一机率分布且根据一第二权重值加权该至少一第二机率分布以计算出该至少一第三机率分布。6.如权利要求1所述的语意分析装置,其特征在于,该处理器将该至少一第一机率分布及该至少一第二机率分布平均以计算出该至少一第三机率分布。7.一种语意分析方法,适用于一电子计算装置,其特征在于该分析方法包含下列步骤:(a)对一中文字符串进行词汇分析以得多个群组;(b)将该中文字符串区分为多个汉字;(c)对该等群组进行语意分析以得至少一第一机率分布,其中各该至少一第一机率分布包含多个第一机率值一对一地对应至多个标签;(d)对该等汉字进行语意分析以得至少一第二机率分布,各该至少一第二机率分布包含多个第...

【专利技术属性】
技术研发人员:许云凯陈聪杰火致力许耕伟
申请(专利权)人:财团法人资讯工业策进会
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1