对自然语言表述的解译的地理映射制造技术

技术编号:34853887 阅读:33 留言:0更新日期:2022-09-08 07:54
本公开涉及对自然语言表述的解译的地理映射。通过将人们的许多自然语言表述话语以及发出每个表述的位置记录在一起创建了准确的思想地图。表述被输入到包括语义解析器的自然语言理解系统中,并且所得到的解译与讲话者的地理位置一起被存储在数据库中。情感、概念、时间、用户标识和其他感兴趣的信息也可以被检测并存储。相关的表述的解译可以在数据库中被链接在一起。可以根据解译的多个方面(例如,地理位置范围、时间范围或其他条件)对数据库进行索引和筛选,并根据多种算法对数据库进行分析。分析结果可用于呈现地图显示、确定广告的有效位置、抢先为移动设备的用户取回信息、以及预测个人和群体的行为。及预测个人和群体的行为。及预测个人和群体的行为。

【技术实现步骤摘要】
对自然语言表述的解译的地理映射
[0001]本申请是申请日为2017年09月18日、题为“对自然语言表述的解译的地理映射”的中国专利技术专利申请No.201710843373.9的分案申请。
[0002]相关申请的引用
[0003]本申请要求由邢博纳(Pranav Singh)、莫
·
伯耐(Bernard Mont

Reynaud)、柯秀琼(Kheng Khov)和普
·
仲朗(Jonah Probell)于2016年12月23日递交的、题为“GEOGRAPHICAL MAPPING OF INTERPRETATIONS OF NATRUAL LANGUAGE EXPRESSIONS(对自然语言表述的解译的地理映射)”(代理所案卷号MELD 1033

1)的美国临时专利申请No.62/438,731和由邢博纳(Pranav Singh)、莫
·
伯耐(Bernard Mont

Reynaud)、柯秀琼(Kheng Khov)和普
·
仲朗(Jonah Probell)于2017年02月06日递交的、题为“GEOGRAPHICAL MAPPING OF INTERPRETATIONS OF NATRUAL LANGUAGE EXPRESSIONS(对自然语言表述的解译的地理映射)”(代理所案卷号MELD 1033

2)的美国非临时专利申请No.15/425,099的优先权,上述申请通过引用被完整结合于此。


[0004]本专利技术涉及创建地区地图的领域,该地区地图指示地图所示位置处的人的思想中所包括的概念的聚合。可以通过使用自然语言理解技术来准确地确定概念。

技术介绍

[0005]作为特定地理位置的二维图像的地图具有多种形式。存在指示所测绘的空间上的人的活动或人口统计数据的地图。用于表示人的活动和人口统计数据的聚合的信息主要来自公共记录和调查研究,例如,犯罪统计数据、交通模式、居住社会经济研究、人口普查数据、市场调查、纳税评估数据。对于这种地图而言,从互联网挖掘由个体用户贡献的数据是较为新鲜的。此外,先前可得到的信息并不是对未来人们在某一地区中的行为的可靠预测。
[0006]通过计算机来进行数据挖掘和机器学习已被应用于从设置信用评分到进行投资再到预测犯罪等各个方面。一些系统使用根据广泛使用的人类语言(例如,英语、普通话、日语和德语)的自然语言处理来从原始数据中提取含义和意图。基于个体的表述来将含义与个体相关联,可以是对他们的兴趣、未来行为、甚至是出行方式的准确预测。移动设备和本地化终端允许系统跨过个体所经过的任意地点来处理个体的自然语言含义和意图。但是,这样的系统不会针对特定地点和经过这些地点的各个个体处理自然语言含义和意图。
[0007]一些实验系统已使用推特(Twitter)推文或其他社交媒体消息中的关键字和地理位置标签关键字之间的关联来制作具有遍布城市的声音、气味和情感的趣味地图。这样的系统对数据进行简单分析,并提供仅适用于简单应用的数据。这种系统使用研究人员所标识的特定关键字集。然而,针对关键字挖掘社交媒体消息可能无法提供对用户的思想的准确指示。例如,考虑用户所发推文:“the ball

s in your court(球在你的球场/现在就看您的决定了)”,可能标识体育相关的概念而不是谈判。思想地图的价值可以取决于概念识别的准确度。
[0008]此外,基于关键字的系统无法提供跨时间维度的有用分析。具体地,这些系统不能辨识时间上的循环模式(例如,在一天中的特定时间段表述、或一周内的几天中的表述),并且不能辨识位置上的循环模式(例如,公共汽车站到公共汽车站或房屋到房屋)。

技术实现思路

[0009]本公开涉及将从自然语言表述的言语挖掘的概念映射至位置。位置可被聚集成地区,并且概念

位置关系可进一步与时间指示相关联。也就是说,与位置相关联的概念可能会随着时间(例如,一整天或整周或整月)而改变。
[0010]本文描述的方法和系统提供了通过用于分析人们的许多自然语言表述的言语(以下称为“自然语言表述”或“表述”)的记录来创建准确的思想地图,其中每个表述与其所在的位置一起被记录。自然语言理解(NLU)技术被用来解译人的文本或口头语言、创建解译数据结构以表示自动确定的表述的语义。人的上下文或一连串单词中单词之间的关系可用于增强对表述的理解。自然语言表述的全部解译数据结构可与相关联的位置数据一起被存储在数据库中。统计技术或其他数据聚集方法可用于分析这些数据库记录,以确定频繁地与所关注的地点关联的概念。一旦一个或多个概念与位置(还可能有时间)相关联,则可以使用数据来发现哪些概念与特定地点相关联。考虑在特定地址购买房屋的人可通过察看该区域的普遍概念来了解邻里动态。替代地,可以使用数据来发现哪些地点与特定概念相关联,这可用于确定投放特定广告的位置。
[0011]术语
[0012]思想:关于人们在讲话或书写自然语言时心里在想什么的非技术术语。通过使用表示自然语言表述的语义解译的计算机数据结构来表示思想。
[0013]地区:能够在地图上显示的地理范围。地区可以通过多种方式来定义,例如,一个或多个经纬度范围、邮政编码、地理政治定义或自定义界限,比如,特定关注点的在视野内或听觉距离内的位置。
[0014]位置:地区内的最小可分辨区域,例如,地图网格内的网格单元、建筑物或麦克风的听力范围内的区域。
[0015]地理位置:地区内的特定点,例如,特定纬度

经度对、特定邮政编码或特定关注点。如果与改变位置可能占用的时间量相比地理位置数据最近被更新过,则地理位置数据是最新的。固定设备的地理位置总是最新的。缓慢移动的设备(例如,在绵延山脉中的徒步旅行者的移动电话)的地理位置在很长一段时间内是最新的。快速移动设备(例如,城市上空的飞机)的地理位置,只在短时间内才是最新的。
[0016]解译:解译是由语义解析器创建的复杂数据结构,并被数据处理系统用来表示自然语言表述的意义。
[0017]组分:组分是解译的表示单位含义的部分。在语义图中,组分是解译中包括节点和边线的子集的子图;该子图表示共同定义组分的实体以及它们之间的关系。最小的组分包括单个节点(实体)、或通过边线连接的两个节点。例如,组分可表示作为父母的人实体和作为孩子的人实体之间的关系。
[0018]成分:成分是在层级结构中起单个单位(例如,子句和短语)功能的词或词组。自然语言语法将表述分解为组成部分。自然语言语法主要包括短语结构语法(非上下文相关
(context

free)语法)和依存关系语法。虽然这两种类型的语法的所创建结构是不同的,但却密切相关。
[0019]所有成分都是原始表述的显式部分;相应的组分是这些成分的语义对应物。
[0020]话语域(知识域):与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解译映射的方法,包括:捕获自然语言表述和该自然语言表述被表达的地理位置;解析该自然语言表述以识别该自然语言表述中所包括的解译;并且将所述解译和所述地理位置存储为数据库中的记录。2.根据权利要求1所述的方法,还包括:以所述解译对所述记录进行索引。3.根据权利要求1所述的方法,还包括:以所述地理位置对所述记录进行索引。4.根据权利要求1到3中任一项所述的方法,还包括:捕获该自然语言表述被表达的时间;将所述时间与所述解译和所述地理位置一起存储为所述数据库中的所述记录;并且以所述地理位置和所述时间对所述记录进行索引。5.一种想法预测的方法,包括:接收人的地理位置;从解译的数据库读取在所述地理位置附近表达的至少一个自然语言表述的解译,所述解译的数据库存储自然语言表述的解译,所述自然语言表述的解译由所述自然语言表述被表达的对应地理位置来索引;从广告的数据库读取包括解译概念和值的多个广告;将所述至少一个自然语言表述的解译与所读取的广告的所述解译概念进行比较,以选择最有价值的广告;以及为所述人输出所述最有价值的广告。6.根据权利要求5所述的方法,其中,所述解译的数据库存储所述自然语言表述的解译,所述自然语言表述的解译由所述自然语言表述被表达的所述对应地理位置和所述自然语言表述被表达的对应时间来索引,并且所述方法还包括:按照当日时间过滤从所述解译的数据库读取的所述至少一个自...

【专利技术属性】
技术研发人员:邢博纳莫伯耐柯秀琼普仲朗
申请(专利权)人:声音猎手公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1