以下为文章全文:

澳门新葡萄京官网注册 1

3月15日,语音和语言解决方案提供商Nuance在上海举办了第4届“Nuance中国汽车论坛”,探讨语音助手在或将是继智能手机后下一个重要移动端—“汽车”上的应用现状与前景,并展示了其车载语音助手产品:Dragon
Drive(声龙驾驶)。

近年来,科技中的人性化因素已经越来越丰富,但它最终能否像人类一样,变成我们的“朋友”?

导语:彭博社今天撰文称,谷歌、微软和亚马逊等科技巨头之所以争相收集用户的语音信息,是因为语音识别服务需要依赖庞大的数据才能更加完善,只有这样才有可能改进如今仍然有些蹩脚的语音识别技术,最终让帮助机器与人类展开自然对话。

期间,Nuance高层,包括集团副总裁及大中华区总裁蒯文瑞先生、车载业务部高级副总裁ArndWeil以及研究部副总裁吴建雄博士,接受了包括车云在内的几家媒体的专访。在他们眼中,Nuance在汽车领域的核心竞争力在哪儿?

导 演斯派克·琼斯(Spike
Jonze)的新片《她》(Her)就畅想了这样一番景象:未来的操作系统可以了解我们的行为,主动留心我们感兴趣的各种事情。它们是我们的个人助理,甚
至细腻到足以成为我们的“朋友”。当有人说,他/她与操作系统恋爱了,千万不要感觉大惊小怪。

亚马逊Echo让人工智能家庭助理走进现实。使用过Echo内置的Alexa语音助理的用户都会被她的魅力所折服:“她”不仅能打专车,还能叫外卖,甚至可以完成高一的数学家庭作业。亚马逊甚至声称,每天有超过5000人对Alexa示爱。

澳门新葡萄京官网注册 2Nuance高层正在做相关背景介绍
(左起依次为:吴建雄,Arnd Weil,蒯文瑞)

影片《她》中的明星是OS1,一款全新的操作系统。当你第一次启动它时,它便可以生成一种独特的人格,以便在最大程度上适应用户的个性,展开必备的沟通。作为该片的主角,OS1有一个很人性化的名字——“萨曼莎”(Samantha)。

但与此同时,Alexa的用户也都知道:除非你用缓慢的语速清晰地说出自己的指令,否则她很有可能对你说:“抱歉,我无法回答这个问题。”有一位用户在亚马逊网站上写道:“我实在是对她又爱又恨。”
但这位用户仍然给了Alexa五星好评。“你很快就会学会通过她能理解的方式与之沟通,就像跟刚会走路的孩子说话一样。”

1.蒯文瑞:人工智能是Nuance的老本行

她充当了个人助理的角色,控制着电脑、智能手机和电视等各种联网科技产品。由斯嘉丽·约翰逊(Scarlett
Johansson)配音的萨曼莎,也是迄今为止最具人性色彩的非人类电影角色。

语音识别在过去几年实现了巨大进步,但仍不足以让这项技术融入日常生活,开启人机互动的新时代,让我们与汽车、洗衣机、电视机等所有电子产品展开语音沟通。尽管语音识别已经取得了长足进步,但多数人仍会沿用手势操作和触摸界面。在可预见的未来,这种趋势恐怕难以改变。

提到人工智能技术,我们首先会想到自然语言处理和图像识别,前者包括语音识别、机器翻译、自动回答问题等,而Nuance在1994年成立之初所做的业务就是关于语音识别的。

萨曼莎的言语和反应都像人类一样自然,她甚至甚至会“喜欢”一些事情,例如颜色、长相或故事。她能够通过摄像头“看到”周围的一切,“听到”笑话后会大笑不止,甚至自己编出几个笑话,表达喜悦或沮丧的情绪同样不再话下。她能识别和分析周围的一切人际关系,无需多加询问便可给出有益的建议——就像一个贴心的朋友。

障碍究竟何在?一定程度上源于这种技术背后的人工智能仍有改进空间。数据缺乏也同样也是一大问题——不同语言、不同口音、不同方言的语音数据尤其匮乏。倘若是在嘈杂的环境中,使用效果更是大打折扣。

提到智能手机语音助手,我们首先会想到苹果公司的Siri和谷歌公司的GoogleNow。鲜为人知的是,Siri其实与Nuance颇有渊源——两者都脱胎于斯坦福大学国际研究院(StanfordResearchInstituteInternational,SRIInternational):Nuance于1994年脱离SRI语音技术与研究实验室(Speech
Technology and Research Laboratory,STAR
Lab)单独成立公司,并于2000年4月在纳斯达克上市;Siri于2007年被SRI商业化董事会允许寻找外部资金,并于2010年4月被乔布斯收购,这是他去世前为苹果公司做的最后一个重要决定。

澳门新葡萄京官网注册 ,如果人工智能的目标是模仿人类的行为,OS1或许终将实现。当今社会,与之最为接近的包括台式机上的Nuance
Dragon Assistant,以及智能手机中的苹果Siri和Google
Now。虽然这些产品短期内不太可能达到OS1的水准,但很多自然语言开发者却相信,要不了多久,我们的人工智能助理便会具备远好于现在的人性化元素。

澳门新葡萄京官网注册 3谷歌智能家居中心Google
Home

细心观察后可发现,Google在开拓新技术领域时的行事风格一向是把该领域全世界最牛的专家请到Google来,并让其全权负责。例如,在2013年Google让基因泰克公司的CEO
ArthurLevinson博士来负责旗下的生物公司Calico,在2005年将世界著名的机器翻译专家FranzOch博士从南加州大学请来负责开发Google的机器翻译系统,而Google在2004年开发语音识别系统的时候,请到的便是Nuance的创始人MichaelCohen博士。

行业发展

所以,亚马逊、苹果、微软和中国的百度都在世界范围内广泛收集海量的人类语音数据。微软已经在多地建设了专门的部门,录制志愿者在家居环境中的对话内容。亚马逊每个小时都会将Alexa收到的海量语音请求上传到庞大的数据库。百度也在中国各地收集方言数据。在此之后,他们都会利用这些数据教给电脑如何分析、理解、响应不同的语音指令和语音请求。

目前,Nuance是全球最大的独立语音识别公司,拥有最多的专利数量和最大的市场份额。仅就汽车产业而言,每年全球有4000万台汽车(约50%的全球汽车产能)和2000万台导航系统会使用Nuance的技术。

Nuance首席营销官彼得·马霍尼(Peter
Mahoney)表示,他的公司花了大量时间来开发虚拟助理功能,因为外界对于一款能够与人类流畅沟通的智能系统都怀有巨大的兴趣。

真正的挑战在于寻找一种方式来捕捉自然状态下的真实对话。百度加州桑尼韦尔人工实验室负责人亚当·科茨表示,就算是95%的准确率也不足以满足人们的需求。“我们的目标是将错误率降低到1%。”他说,“只有达到这种水平,我们才能相信机器能够理解我们的话。这将是革命性的。”

针对中国市场目前的表现,蒯文瑞表示:“2016年,Nuance中国区进入爆发性成长。主要基于以下三方面的原因:

由于当今的计算技术已经可以从云端获取海量数据,并过滤这些数据,从而在几秒钟内制定实时决策,Nuance也已经转变了开发重点:不再单纯关注语音采录,而是尽量从文字中提取真正有用的信息。

不久以前,语音识别还非常粗糙。在2006年的一次演示中,微软早期在Windows中配备的一项技术甚至把“mom”听成了“aunt”。当苹果五年前推出Siri时,这款个人助理同样因为无法返回正确答案或听不清问题而备受嘲笑。在被问及吉莉安·安德森是不是英国人时,Siri竟然给出了一份英国餐馆的列表。

在研发方面大量投入,特别是在本地研发;

在资源方面的大量投入,即由中国团队针对中国市场为中国客户定制服务;

在市场方面与合作伙伴的深入合作,包括与品牌客户;

除了在上海与北京的研发中心外,进一步在成都设立了新的研发中心,目前已经有60位工程师,而在2018年之前将有200位工程师。

“对话很重要,”马霍尼说,“最初的系统就像一款搜索引擎。你说了一些内容,便可收到一些反馈,但结果未必是你想要的。这并非人类的工作方式。人类会消除其中含糊不清的内容,我们会对明确语言的含义。”

微软现在表示,该公司的语音引擎错误率甚至可以媲美专业速录员。Siri也勉强获得了人们的尊重,Alexa更是让我们窥见了未来。

2.吴建雄:机器助手的三个层次

然而,要创造一套能体会言外之意的“自然语音”系统却并非易事。

这种进步很大程度上归功于神经网络技术的发展,这是一种模拟人脑结构的人工智能技术.
神经网络无需明确的指令便可自学各种内容,但通常需要辅以庞大而多样的数据。语音识别引擎获得的数据越多,就越能理解不同的声音,也就更加接近在众多语言环境中实现自然对话的目标。

回顾人工智能60多年的发展历史,我们可以发现,正是在语音识别研究上的技术路线转变带来了整个人工智能领域的重大突破。

马迪金·范·德·斯派克(Martijn Van der Spek)是Sparkling
Apps的创始人,这家创业公司拥有9款不同的语言识别服务,其中包括被其称作“下一代个人助理”的Voice
Answer。据斯派克介绍,虚拟个人助理需要庞大的服务器资源,而像Voice
Answer这种由创业公司推出的人工智能解决方案,根本无法支持真正智能的人工助理服务。他们的人工助理只具备为数不多的几种专业技能,而真正智能的人工助理却像是知识渊博的智者。

正因如此,科技巨头才争相在世界各地收集不同的语音数据。“我们的系统获得的数据越多,表现就越好。”百度首席科学家吴恩达说,“正因如此,语音识别才是一项资本密集型业务。没有多少组织拥有如此庞大的数据。”

类似于莱特兄弟是通过研究空气动力学而不是模仿鸟类扇翅膀找到了使飞机获得升力的方法,正在做学术休假的康奈尔大学教授弗里德里克-贾里尼克(FrederickJelinek)和他领导的IBM华生实验室(T.
J. Watson
Labs)在1972年也找到了使计算机获得智能的新方法,即基于数学模型和统计的方法。

“存储的数据数量决定了我们服务器的性能。”斯派克说,“再加上隐私问题,导致我们每过24个小时都要清除数据库。所以它会患上严重的健忘症,不可能建立长期关系。”

高科技行业20世纪90年代开始重视语音识别技术时,微软等公司依靠的都是来自Linguistics
Data
Consortium等研究机构提供的公共数据——这个创立于1992年的语音和文本数据库获得了美国政府的支持,总部位于美国宾夕法尼亚大学。

采用基于统计的方法,IBM将当时的语音识别率从70%提升到了90%,同时语音识别的规模从几百单词上升到两万单词,使语音识别有了从实验室走向实际应用的可能。在此后的1988年,IBM的彼得-布朗(PeterBrown)等人提出了基于统计的机器翻译方法。随着可用于训练的数据的不断积累,
2005年Google用该方法做出了当时世界上最好的机器翻译系统。

Singularity Institute for Artificial Intelligence CEO卢克·穆豪瑟(Luke
Muehlhauser)也指出,由于很多研究人员不愿共享自己的信息,导致人工智能技术没有达到应有的进步速度。谷歌和Facebook等私有公司都将
自己的研究成果对外保密,而学术研究人员却不断将最新进展发表在各种期刊上。

后来,科技公司开始收集自己的语音数据,其中一些来自志愿者朗读的各种内容。现在,随着语音控制软件逐步受到人们欢迎,他们也通过自己的产品和服务收集了很多数据。

吴建雄博士自1986年开始研究语音识别技术,并于1999年加入Nuance公司,目前领导着近250人的研究团队。他用了一个非常形象的类比,描绘了机器助手所能实现的功能。在他看来,参照现实中的人类助手,机器助手可以分为三个层次:

前景展望

当你让自己的手机搜索信息、播放歌曲或导航路径时,这些内容很可能会被某家公司录制下来。当你向Alexa询问天气和最近的橄榄球赛比分时,她便会利用这些内容改进其自然语言理解能力(尽管在你叫她的名字之前,Alexa不会倾听你的对话。)“根据产品设计,你使用得越多,Alexa就越聪明。”Alexa资深首席科学家尼克·斯特罗姆说。

  • 最基本的层次是打字员:他可以将你说的话准确地记录下来,这样你就不需要将相同的话向多人重复,助手会把话中布置的任务交给相应的人去做;

  • 第二个层次是办公室文员:文员与打字员的区别是,文员可以帮助你去完成一个具体的任务。例如,你想在周末去餐厅吃饭,文员会通过查询到包括餐厅地点及驾车路线、停车场位置及是否有空位、能否订到位置的信息等来完成该任务;

  • 最高层次是秘书:秘书与文员的区别是,秘书能够领会领导的意思,即很多事情领导即便不说,秘书也能心领神会,将其完成。

现实生活中的数字助理或许永远不会像《她》中的OS1一样爱上我们,但它们最终还是有可能记住我们曾经对它们说过什么。

澳门新葡萄京官网注册 4亚马逊Echo智能音箱

就这三个层次目前的实现情况,吴建雄进一步解释道:“就Nuance的技术而言,在打字员层次上的功能已经能做的非常好了。目前正在解决的是,如何让机器助手自动完成一个任务。其难点在于,有些时候,人并不是把任务中的所有地要求细节都说出来,需要通过多次人机对话,以提问的方式来逐步获取缺失的信息。至于要让机器助手领会人的意思,还需要积累更多有关个人习惯的数据,通过机器学习的方式来集成到机器助手系统内。”

今天的个人助理可以解决一些实时问题,例如播放歌曲、发送短信、启动Skype、寻找餐馆等。但如果人工智能果真想模仿人类的行为,还必须更加体贴。这就需要存储更多的数据,并结合背景信息来制定决策。

其中的关键挑战是让这项技术熟悉不同的语言、口音和方言。这一点在中国体现得尤为明显。为了收集中国各地的方言数据,百度在今年春节期间启动的一项营销计划,推出了方言对话项目。该公司向用户承诺,如果他们为该项目作出贡献,今后便可使用自己的方言与百度展开互动。短短两周内,该公司就录制了超过1000小时的方言数据。很多人完全免费提供这些数据,因为他们都对自己的方言感到自豪。一位四川的高中教师对该项目十分热衷,他甚至让全班同学用四川话录制了1000多首古诗。

关于Nuance公司在人工智能领域的发展策略,吴博士表示:“主要从4个方面入手:在核心技术上不断投入,专注于特定领域(如汽车),按汽车厂商的实际需求定制端对端的解决方案(Deliverend-to-end
customizablesystemtoOEM),以及将中国人才与全球人才联合起来一起进行技术攻关。最重要的一点是,Nuance公司作为一家技术公司,需要在核心技术上要保证领先地位。”其中,吴博士所提到的Nuance的核心技术主要包括以下4方面:

“一个体贴的人能够理解你的所思所想,还能根据背景作出判断。”马霍尼说,“关键在于获取所有信息。在线信息越多,优秀的服务就越多,我们就越能利用智能系统理解周围的一切。”

另外一大挑战是让语音识别技术在嘈杂的环境中识别语音指令——包括酒吧和体育场等人声鼎沸的环境。微软也在Xbox上部署了一款名为Voice
Studio的应用,专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。该项目在巴西展开了大力推广,当地团队还在Xbox主页上着重推广这款应用。他们随后利用这些数据开发了巴西葡萄牙语版的Cortana语音助理,并于今年早些时候发布。

  • SmartInteraction(智能交互技术):包括信号获取、语音识别、自然语言理解、自然语言生成等;

  • Personalization(个性化技术):好的助手需要知道主人的个人习惯,同样的系统给同时给A和B用并不合适,因为双方的习惯不一样;

  • Contextualization(理解上下文的技术):在不同的语境下,相同的词汇所代表的意思是不一样的,机器助手需要能做出准确判断;

  • Knowledge(运用知识的技术):针对不同的场景,机器助手需要懂得获取与完成任务相关的信息和常识,并加以应用。


要推动推荐引擎的发展,不能仅靠信息,还要结合关系、分类、流派等方面的知识。“结构化内容将比非结构化内容更早出现——后者更加难以分析。”马霍尼说。
换句话说,当今的个人助理可以知道剧场里正在播放什么,但结构化程度较低的概念则需要等待更长时间才能开发出来——例如,记住用户之前在对话中表达的电影
偏好,以便在用户可能喜欢的新片上映时主动向其推荐。

各路企业还在为特定的环境设计语音识别系统。微软一直在测试一项技术,以便在不受机场广播信息干扰的情况下回答旅行者的问题。该公司的技术还被用于麦当劳汽车穿梭餐厅的自动点餐系统。这套系统可以忽略嘈杂的汽车音响、孩子们的叫声和各种各样的口头语,从中提取出复杂的指令,甚至连调味品也不会错过。亚马逊也在汽车上展开测试,希望Alexa能够适应道路上的各种噪音。

3.市场策略:只做企业级市场

目前任职于Google X实验室的发明家兼预言家雷·库兹韦尔(Ray
Kurzweil)相信,到2029年,谷歌将打造出一台能够理解自然语言和人类情感的电脑。但正如他去年12月对科技博客作者吉米·迪苏(Jimi
Disu)所说,一款令人振奋的数字助理最快只要4年便可进入我们的口袋:

在各大企业争相收集数据的过程中,他们也在努力改进技术,希望利用更少的数据实现更好的语音识别效果。微软首席语音科学家黄雪冬已经在该公司从事了20多年的语音识别技术开发工作,他表示,麦当劳正在测试的技术比其他系统更加精确,但使用的数据却更少。“即便数据量不是最大的,仍然可以实现技术突破。”

Nuance目前的产品和服务只针对企业级市场(B2B)而不关注消费级市场(B2C),合作伙伴包括宝马汽车、上汽、三星、华为等。在解释这种选择时,蒯文瑞表示,“Nuance的市场策略是‘合作伙伴的故事就是Nuance的故事,合作伙伴的成功就是Nuance的成功。’

“目前的搜索主要还是以关键词为基础。我们正在开发一种能够理解数十亿份文件的搜索引擎。他更像是人工助理,可以与你对话,理解你的复杂表述,甚至个人担忧。如果你带着谷歌眼镜这样的东西,它还可以对周围的状况加以判断;它甚至能够倾听对话,提供有帮助的线索。它或许还能实时提供一些谈资,方便你与人对话。”

谷歌向来信仰“少即是多”的理念,因此该公司开发了一种技术,希望利用不知所云的声音来构建文字和短语。借助该公司的语音识别系统,他们希望通过一项改变来解决各种不同的问题。谷歌拼接了数万段时长仅有2至5秒的语音片段。该公司研究员弗朗索瓦兹·比伦法斯表示,这一过程所需的计算资源更少,但却更容易测试和修改。

在未来,每个企业都会关注人工智能、大数据、人机交互等方面的技术升级,不然就会丧失竞争优势。而Nuance的角色定位是将自身的技术集成到企业开发的新产品和服务中,而不是针对消费级市场自己独立设计产品。

理想方案

百度也在开发更加高效的算法,只需学习一种语言便可简化另外12种语言的学习难度。在学习只有数万人掌握的语种时,这种技术显得至关重要——因为很难针对这样的语言收集庞大的数据。

就汽车领域而言,中国第一款互联网汽车荣威RX5便使用了Nuance的技术,该车拥有的会话型语音界面集成了声龙驾驶本地嵌入及云端混合式语音识别和基于深度神经网络的自然语言理解技术,可保证在没有4G网络时依旧能实现基本功能,并通过云端收集用户的使用数据用于未来对系统的迭代。

随着在线信息的层次逐步深入,互联性逐步增强,个人助理的智能性也将渐渐扩大。很多大公司都在大举投资,以便充分利用这些信息。

在被问及何时才能通过自然语言与数字助理交流,并得到满意的答案时,就连吴恩达这样的顶尖科学家也无法给出确切答案。即便是对最高水平的神经网络学家而言,这项技术仍然有很多谜团有待解开。有很多工作只能通过不断试错来改进,没有人敢保证某项技术调整可能产生什么样的后果。根据现有的技术和方法,这一过程大约要耗费数年时间。

使用唤醒词便可开始与声龙系统进行便捷的语音交互。只需对荣威RX5说“你好,斑马!”(注:荣威RX5所用车载操作系统由斑马网络技术公司开发)便可用语音激活系统,并且在系统说话时,驾驶员可以随时打断更正信息。此外,驾驶员使用语音可以方便快速地进行拨打电话、搜索流媒体或本地音乐、查询天气信息,只需说出兴趣点(Point
of
Interest,POI)类别或目的地名称便可进行兴趣点搜索。由此,声龙驾驶系统可最大限度地使驾驶员保持驾驶专注度的同时,完成与驾驶相关的任务。

去年10月,苹果公司收购了一家独特的“个人云”公司,可以深入搜索社交网络账号。谷歌最近收购了人工智能公司DeepMind
Technologies,这家企业可以将通用学习算法应用于模拟、电子商务和游戏等应用中。

但吴恩达、黄雪冬和比伦法斯等科学家都表示,我们永远无法知道何时能够实现突破,何时能让Alexa和Siri与人类展开真正的对话。

车云小结:语音或是人机交互的未来

但要开发真正的个人助理,仅凭庞大的信息量还不够。苹果公司和谷歌这样的企业还需要完善“对话”因素,因为用户的问题与个人助理的回答之间经常出现“答非所问”的情况。

回顾人类的发展史,在近几百万年的演化过程中,人与人之间的通信方式一直是语音,传承信息的方式是口口相传。只是由于后来需要记载的信息越来越多,只用语音难以全面覆盖,所以才发明了文字和书写。但不可否认的是,语音对话依旧是人与人之间最自然的交流方式。


键或许在于与云端彻底脱离——或者至少将系统连接云端的次数降到最低。但即便个人助理能够尽可能多地受益于本地处理能力,理想的个人助理——就像“对你无
所不知的知己”——还是需要获取深入的在线信息。希望预测用户需求的企业需要时刻做好准备,为其提供最相关的数据,但还要考虑其他一些因素。

前文中提到,乔布斯去世之前为苹果公司做的最后一个决定是收购Siri,因为他认为这将是人机交互方式的一次重要转换。在Siri被收购的4年后,谷歌公司推出了类似的虚拟助手产品GoogleNow,谷歌Knowledge团队负责人Amit
Singhal认为“它将终结我们熟悉的搜索”。因为它是通过对话的方式来获取和交流新信息,而不是人们日常所做的在搜索框中进行静态搜索。


歌正在尝试几种解决方案,提升个人助理的运行速度,包括在Android中部署线下语音识别功能。而英特尔最新的“爱迪生”电脑也可能通过移动设备或可穿
戴设备,实现近乎于实时的语音识别功能。多数公司都表示,关键在于尽量减少通过蜂窝网络传输的数据,以便令处理流程更加顺畅,进而带来更加自然的对话。

所以,当各类机器设备像钢铁侠Tony
Stark的智能管家贾维斯意义具有高度智能的时候,人类与之交流最自然的方式应该仍然是语音,特别是在无法安装触屏或键盘的场景中。

倘若智能个人助理能够理解沟通过程中的一些微妙信息,便可带来更多价值,但研究人员和开发人员最终还要克服一些伦理问题。如果我们能够设计一台像人脑一样能与我们展开“心灵沟通”的电脑,必然会有开发人员利用这些功能强大的系统迎合个人或企业的利益,而突破道德的约束。

只是,目前尚需时间来唤起人类固有的使用习惯。

换句话说,我们希望人工智能系统为我们开车、帮我们导航、给我们节能、替我们更好地管理日常生活,而不是反复劝说我们去沃尔玛买东西。

澳门新葡萄京官网注册 5

像《她》这样的影片引发了我们对个人助理的无限遐想,让我们预见到,电脑有朝一日也有可能与人类成为真正心意相通的朋友,但当今的人工智能技术却很难在短期内实现这一梦想。个人助理是一项前景广阔的技术,但必须要改善听力、知识储备和记忆能力,才能真正与我们成为朋友。

有朝一日,人工智能助理或许足以了解我们的各种行为,迎合我们的各种兴趣,但个人助理还是不太可能超越现实好友。这其实也没什么不好。

(文/新浪科技)