CNET科技行者阿里入局智能音箱:一次人工智能的“探索”

阿里入局智能音箱:一次人工智能的“探索”

  • 分享文章到微信

    扫一扫
    分享文章到微信

  • 关注官方公众号-至顶头条

    扫一扫
    关注官方公众号
    至顶头条

上周,关于阿里巴巴旗下人工智能实验室(A.I. Labs)诞生的消息不胫而走,殊不知该实验室早在2016年低调成立。今天下午,这个专门研发消费级AI产品的实验室高调推出研发的第一款智能语音终端设备——天猫精灵X1,内置阿里第一代人机交流系统——AliGenie。

周雅 来源:CNET科技资讯网 【原创】 2017年7月6日

关键字:阿里巴巴 天猫精灵X1 智能音响 人工智能

CNET科技资讯网 7月6日 北京报道(文/周雅):上周,关于阿里巴巴旗下人工智能实验室(A.I. Labs)诞生的消息不胫而走,殊不知该实验室早在2016年低调成立。昨天下午,这个专门研发消费级AI产品的实验室高调推出研发的第一款智能语音终端设备——天猫精灵X1,内置阿里第一代人机交流系统——AliGenie。

现场,阿里人工智能实验室负责人浅雪两句开场白,道出阿里入局智能语音助手市场的初衷:

“语言是人与人之间最主要的沟通方式,也应该是人与另外一种智能进行交流的主要方式。”“云端一体化带来的趋势是高度智能化,智能终端需要一个比手机触屏更强大的人机交互方式。”

智能语音群龙纷争

自从亚马逊Echo、谷歌Home、微软Invoke、苹果HomePod、京东和科大讯飞的“叮咚”系列、百度的“小鱼在家”相继问世,加上项目代号为Vega的三星智能音箱也在紧锣密鼓的研发中。语音交互市场为人工智能时代添了一把火。

我们不禁要问,玩家之多,投入之大,当中原因是什么?

如浅雪所言,上个世纪90年代dos系统,是一个黑底白字字符界面,敲着键盘打着代码是常态;随后比尔盖茨的Windows震惊世界,一个操作系统加上多任务的可视化窗口,可以让沟通更简单;十年前,乔布斯告诉大家,人类其实有一个天然的操作工具就是双手,于是触屏的iPhone一代诞生;十年之后,人工智能告诉我们,人和物的交互其实可以解放双手。

究其原因是因为,人工智能时代,机器和人类都在加深了解,对于机器来说,通过不同方式理解人,难度不同。例如,智能手机可以视为人工智能1.0时代的产物,它和人类的交流方式就是把所有的选项都呈现在屏幕上让人类指导。但显然,无论是遥控控制还是APP化的触摸点按的操作,都不是最理想的交互方式,并不适用于所有人群,比如,中老年群体使用手机更多的用作交流。

阿里巴巴深谙其道,认为语音是最早最原始的信息交流渠道,与图像、动作并为公认的三大交互方式。

而家居环境的属性使得语音成为最合适的交互方式,智能语音应用主要围绕智能电视、冰箱、音箱、家用机器人展开,解决的需求包括搜片、搜歌、提醒、简单交互、应用调取等等。

细观全球市场,亚马逊并不是最早推出语音助手的,或者也不是在人工智能领域的技术实力最强的,甚至在硬件产品的研发上并非第一,开发者生态建设更不是佼佼者,但echo的成功至少说明了两点: 

1、这是一个全新的市场;

2、除了技术实力和硬件研发制造能力之外,在语音助手领域,对后段商业和服务生态的整合能力决定了竞争的宽度,实则更高门槛。 

从这个角度反观中国市场,如果以“智能音箱”这个品类看,毫无疑问音乐内容的丰富是最重要的,但如果是“智能语音助手”这个品类,对后端商业和服务的整合能力是关键。 

阿里的入局

这正是阿里巴巴的思路。天猫精灵X1除了具备语音控制音乐和音频内容播放等功能外,还通过AliGenie接入了众多生活服务。目前已经达成的合作伙伴包括美泰、KEEP、西溪天堂综合体、优酷、高德地图、淘票票、支付宝、虾米音乐、天猫超市、菜鸟裹裹、喜马拉雅FM、淘宝网、阿里智能联盟、阿里数娱、天猫魔盒、绘儿乐、吴晓波频道、飞猪、盒马鲜生等。

说一声“天猫精灵”,就可以召唤云端的AliGenie提供服务,播音乐、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、充话费、查快递、查价格、天猫魔盒控制、智能家电操控,样样拿手,功能还将随着开发者的入驻而增加。依靠阿里云机器学习技术和计算能力,AliGenie能不断进化成长,越用越聪明。

“天猫精灵,苹果的热量是多少?”——“每一百克可食部分为54卡。”

“天猫精灵,我的手机在哪里?”——“正在搜寻你的手机。”

“天猫精灵,给我手机充值100元。”

“天猫精灵,买一箱可乐。”

……

这一幕同样发生在当天,天猫精灵X1首席产品体验官、zealer中国创始人王自如和天猫精灵X1的互动场景,知无不言言无不尽的天猫精灵十分讨喜。

天猫精灵X1和AliGenie背后,由阿里巴巴人工智能实验室坐镇,基于阿里语音识别、自然语言处理、人机交互等技术。其中,阿里人工智能实验室正在对声纹识别、声纹购、NLP中文对话引擎等核心技术申请专利。  

阿里入局智能音箱:一次人工智能的“探索”

1、全程对话沟通 

天猫精灵X1外观圆柱形,有黑白两种配色,直径83毫米,顶部中央配有一枚静音键,一触发此键,X1立刻暂停,以保证用户隐私。X1底部设计一圈隐藏指示灯,会通过声音判断用户方位,亮起灯光以示提醒,灯光还会根据不同使用功能和场景配合进行提示。 

配置方面,X1采用SmartAudio专业处理芯片,相比此前市面上的主流芯片,处理效率提升25%,功耗降低32%;搭载了6麦克风环形阵列,在家庭环境下支持5米范围语音识别。 

阿里入局智能音箱:一次人工智能的“探索”

X1还具备一定的自我学习功能,可以根据环境噪音进行优化,适应不同家庭环境噪音。 

考虑到中文语义环境的复杂性,阿里人工智能实验室通过众包平台等方式,征集生活中的各种生活场景所需要用到的语义问法,仅天气预报就能够理解786种中文问法,通过深度学习, X1已覆盖20个领域的中文自然语义理解,能够理解人类80%的意图。 

这套语义理解系统还带有记忆功能和总结归纳能力,加上模拟的“长期记忆”和“短期记忆”功能,更容易理解用户。除此之外,阿里人工智能实验室还已经着手其他多个语种的研究。  

这背后是大量的数据积累,以及远程计算能力的提升。 

阿里入局智能音箱:一次人工智能的“探索”

2、声纹识别可分辨人

X1可以通过声纹识别技术分辨家里的每一个人。浅雪介绍,声纹识别技术是生物识别的重要识别手段之一,结合服务链多重安全机制,已达到商用的级别。这也是阿里在语音深度学习领域的核心技术之一。 

天猫精灵目前最多可以识别6个人的身份。通过个性化推荐,声纹识别在辨别出使用者的身份后还能够实现“千人千面”,根据每个人的喜好设定和推送不同的内容。 

比如,声纹识别技术可以应用到一些购物场景中。用户先将自己的声音注册后生成声音密码,与机器绑定后,确认开启声纹购功能。随后,当说出 “帮我买一箱牛奶”这样的需求时,天猫精灵会要求用户跟着念一串随机数字进行声纹校验,如果确认为用户本人,天猫精灵会从用户绑定的支付宝中进行扣款完成交易。  

3、开放AliGenie开发者平台 

AliGenie开发者平台主要面向四种类型的开发者,包括内容开发者、应用开发者、智能家居开发商和硬件生产商。

阿里入局智能音箱:一次人工智能的“探索”

(1)向应用开发者免费开放NLP语义理解、TTS语音合成等多项自然语言处理技术。开发者既可以创建技能,为更多的语音用户提供服务,也可以将自己的设备接入云端服务,获取语音交互能力。 

(2)针对内容创作者,AliGenie还提供了语音公众号功能,开发者只需将语音或文字上传至后台就可以完成应用的创建和发布,文字将通过语音合成引擎转换为语音,用户可以通过订阅实现定时播放、点播,开发者也可以进行主动推送,或联合其他应用进行深入集成,组合播放。 

(3)为硬件制造企业准备了单麦克风到多麦克风阵列的参考设计方案,并提供包括唤醒词定制,声学结构,核心电路设计和芯片方案在内的相关套件的参考设计,以及云端服务和应用管理所必要的全套工具和用户APP SDK组件。接入的硬件设备能够快速具备人机语音交互能力,并共享应用商店的所有应用技能。 

按照阿里的逻辑,除了技术的开放外,生态的开放合作也重要。目前,天猫超市、菜鸟、KEEP等已推出基于天猫精灵X1的语音应用,用户只需动动口就可以完成话费充值、购买商品、健身语音提示等服务,很快还将上线打车、叫外卖、叫保洁等服务。开发者可以自由发挥。

现场,阿里人工智能实验室也公布了首个硬件开放合作伙伴:将与国际玩具巨头美泰合作探索其旗下主要核心IP的合作开发机会,如费雪、芭比、托马斯和朋友等智能玩具。 

除了生态的开放合作,后续的场景植入也关键。阿里目前已经或正在拓展的行业解决方案涉及六个方面,包括儿童领域、酒店领域、家庭场景、TO B其他商业场景、线下零售场景以及与其他显示设备结合的场景。 

天猫精灵X1于7月5日开始进行限量公测,8月8日将进行首批正式发售,定价人民币499元。 


最新文章
热门标签