在TechCrunch2017 国际创新峰会深圳站的群访环节中,英特尔感知计算事业部中国区总监汤振宇;Ninebot联合创始人兼总裁王野;Ninebot副总裁,赛格威机器人团队负责人蒲立共同接受了多家媒体记者的采访,回答了有关RealSense和Loomo机器人的相关问题。
请两位负责人先简单介绍一下。
王野:Ninebot做两件事情,一个是做机器人,另一个是平衡车。平衡车是载人,我们的机器人是能载物,希望能代替快递员、校园保安和园区的保安,除了不能去马路,室内室外都可以去,也可以拉100-200公斤的货物。我们刚好有机会遇到了英特尔感知计算机事业部的汤总,当时做了一些demo,通过技术的成熟度和结合度让机器人感知周围、感知世界。这个项目已经持续了两年时间,今年9、10月份我们将会发布产品,开始交付一批Loomo消费者版本。机器人有很多,但能量产的、能干活的中,Loomo算是比较好的。
汤振宇:大家好,从英特尔的角度来说和Ninebot的合作是很自然的事。为什么这么说?因为我们CEO的愿景是万物互联、数据洪流,我们CEO将数据定义为新石油。要做数据,数据从哪里来?来自智能驾驶汽车、机器人、VR等等,因为人需要机器人、需要一个助手,这是人类发展的过程。英特尔有幸参与其中。Ninebot做得最好的是平衡车,这相当于人的双腿,是动的;英特尔做的最好的是“大脑“,同时能够将大脑和眼睛加在机器人上。
我们和王野是老朋友,合作得很好,2016年CES的时候,我们的CEO在台上亲自展示和Ninebot合作的项目,当时我们也获得了CES最有影响力的十大产品之一、最有影响的机器人之一的奖项;包括今年5月我们的CEO再次在AUVSI XPONENTIAL大会上展示了与Loomo Go的互动,在演示中机器人将水拿给了科再奇,以此展示英特尔如何实现了自己的愿景——实现机器人自动化,人、物、机器人的合作。
当 RealSense用于Loomo Go上时,汤总对于RealSense的场景是如何定义的?根据哪些功能特性来定义它的使用场景?
汤振宇:我们其实是一个学习的过程。之所以成立英特尔实感计算这个部门,是因为从英特尔的层面、从CEO的层面都认为,智能设备需要人的眼睛,也就是需要RealSense,需要它跟人互动:充分感知你是谁,坐在哪儿,和这个环境的关系,与这个环境的认知和物体认知。任何和设备和该技术有关的,都是我们在意的事情。比如您说的VR,我要认识这个世界,在虚拟现实世界里走动的时候,我可以看到真实世界的人,这是六个自由度的感知。和Ninebot的合作,机器人也是一样。机器人在动的时候,需要机器人理解这个世界、理解这个人才能动,否则就变得很奇怪。它至少需要知道我走的时候不能撞到东西,这一切的东西都是我们希望的。

我们现在进入了很多市场,包括机器人、VR、AR、无人机、智能家居设备、亚马逊的Echo Look等等。Intel RealSense有各种形态。人对这个世界的了解80%来自于视觉,同时我们还有跟踪模块,帮助我们定位,是前后、左右还是上下。我们还有Movidius,它就像人的视觉中枢一样,处理的速度非常快,其优势在于用深度学习的算法、应用固化的方面来快速处理数据,甚至提供端到端的全套解决方案。
Intel RealSense有两个版本,一个前置、一个后置,前置适合1到1.2米范围,后置理论上达到45米,它们两个都有一个问题,如何对环境的感知,第二,因为在室外曝光过渡或是曝光不足都会影响它,我不知道您对这个有没有比较好的解决方法?
汤振宇:原来我们经常用前置摄像头、后置摄像头,或者用手机、平板等观看方式来定义产品。但现在我们在慢慢的进化,因此不需要我们来定义,而是根据我们的合作伙伴来推出大家适合使用的东西。比如说这个机器人,就不存在前置、后置的问题,我们要做的是要提供适合机器人需要的东西,它需要来识别人、物,感知环境,而不是强行的定义你是前置摄像头、后置摄像头。我们在摄像头上有好几代产品和很多个系列产品,包括我们最新的产品Intel RealSense 400系列,我们有好几个SKU,针对不同的产品形态和市场需求来做。这个好处是什么呢?一个是帮助这个产业做一些真正需要、适合它的产品;第二是可以在不同的市场去运作。这才是我们想要做的事情。现在不同的SKU有不同的范围,有4米-10米, 10-20米,甚至可以到100米的感知
目前英特尔在国内和VR、AR眼镜方面有在Intel RealSense方面的合作吗?
汤振宇:我们有跟很多国内外的企业,包括VR机器人、智能家居和自动驾驶的公司合作。因为英特尔是开放的平台,因此我们不会帮助大家决定,而是让合作伙伴根据自己的产品来结合自己适合的技术。当然,我们需要合作伙伴来发布产品消息。
技术研发方面具体有哪些支持?
汤振宇:机器人方面有很多支持。我们提供中间件,像我刚才说的六个自由度、手势交互等,我们会打包成算法的中间件,这样大大降低了合作伙伴遇到的技术难度,因为他们不需要再次开发。合作伙伴在自己的应用领域可以发挥自己的长处,比如说对行业的理解、对消费者的理解、这个机器人应该做什么应用,然后再和我们的技术功能结合,这就是我们一般的合作模式。但是英特尔现在也比较开放,我们的合作模式有很多种,包括提供各种方面的支持。
王野:去年的时候我们遇到了一些在导航和建模方面困难的时候,汤总的中国团队、英特尔以色列团队、美国团队有将近100个人为Loomo Go开发中间件,当我们不再需要这方面的支持他们就会投身其他项目。
这种情况,对于英特尔来说会不会有人员上的分配冲突?
汤振宇:英特尔有一套成熟的模式,是我们与紧密、深度合作的客户一起开发的,针对不同的客户有不同的支持模式。我们和Ninebot合作这么久,大家非常看重这个市场,也都相信这个市场,愿意一起将产品做出规模。我们非常看重和Ninebot的合作。他们承担大部分的开发工作,我们在旁边更多的是支持性的工作。
Ninebot为什么选择了室外机器人?目前很多人都说家庭机器人是未来发展趋势,您怎么看待室内和室外机器人?
王野:我觉得机器人首先要帮到人,它要有价值,价值有两类:一类是能做事;一类是能取悦人。平衡车是属于能玩的,我对机器人的理解是,它未来一定要能帮到人才能实现价值,否则的话它就成玩具了。实际上现在已经有很多机器人也可以玩了。未来二十年、三十年中国也好、欧洲也好、美国也好,主要的发达经济体都会人员短缺,这时候会有巨大的劳动力缺口。服务业如送餐、快递、保安、接待等必须有人做,未来谁愿意做这项工作?未来越来越少人喜欢做这些工作,这是巨大的机会。
现在Intel RealSense双目和单目的视觉传感器和中间件,足够解决关键的问题。我们在马路上可以用多线激光雷达做自动驾驶,如果不在马路上,非结构化的产品中我们认为双目是最好的方式。通过两个眼睛,我们能看到你的长相、穿衣服的颜色和体型,加总起来是非常完善的信息,从这个角度来讲,我们选择做室外室内兼容的机器人,移动和载物机器人;这也是我们为什么选择Intel RealSense而没有选择激光雷达为主要产品技术。
价格呢?
王野:价格不是主要的因素,价格以后会越来越便宜。激光雷达只能提供给机器人一个二维的感知能力,双目可以提供立体的RGB-D,一旦算法跟上,它会比激光雷达信息量丰富很多,可以帮助更多的机器人。
有没有机器人未来在路上行走的可能呢?
王野:这其实是商业模式设计的问题。现在第一阶段我们不会让机器人上马路。送餐的骑电动车的这些人他们花了50%的时间在窗口排队等着点餐,这个时间是被浪费掉的,他们可以在一个地方集中取,我觉得中间很多细节可以优化。机器人可以取代其中的一部,但不能完全取代。
有两个问题,一个是现在主流的头戴式VR设备强调手势交互,很少有眼部聚焦的模式;VR最早是应用在军用从战斗机上,也就是通过眼部聚焦找到目标。这一技术和手势相比相比,哪个更具有发展前途?
汤振宇:您说的是两个技术比较,我个人的理解来说,就像上帝既给你创造了眼睛也给了你手。按我的理解来说,手势和眼睛都是需要的,你去拿一个东西,怎么设计眼睛拿这个东西?这很难设计出来,眼睛可以聚焦选择一个东西,但是因为人会忍不住眨眼睛。手去拿是很自然的,拿眼睛选一个东西必然受到局限。眼睛很好的是聚焦,比如说VR,在VR世界中晕有几个原因,一个是演示太长,人的眼睛正在看的地方是能聚焦,其他地方是散的,不是那么清晰。VR屏幕展开全是高清的,给你旁边的视觉造成了困扰,如果跟踪眼睛瞳孔的移动聚焦,旁边虚掉一些,就会有晕的感觉。而手势交互既节省了工作量,同时让你真实感更好。如果你打破自然又让你很不舒服,这是我对交互技术的理解。
关于机器人防撞机制,我想问一下传感器覆盖的范围有多大?运动方向需要多少反应时间?室内用户如果遇到不可预期的小孩,它会识别是生命还是物体从而采取策略呢?是否有优先级?
蒲立:防撞方面Loomo采用多传感器融合的方案,包括Realsense、超声波、红外等传感器,在不同的范围和测量原理上检测是否有障碍物。Loomo的头部可以左右转动,带动Realsense的转动,这样可以扩大障碍物检测的范围。目前Loomo主要在前进方向检测障碍物。Loomo可以识别人体、人脸等,根据这些标记信息能够使用不同形式的避障策略,例如检测到人的障碍时,会使用比较保守的绕行策略,而检测到的障碍是不能移动的桌子时,可以使用更主动的绕行
汤振宇:我们经常看到的桌子,激光雷达可以扫上面,只能扫到桌子,看不到桌面,而RealSense可以看到全部。
王野:一个商店里面卖衣服的人偶,看起来和活人没什么区别。有了双目后,就都可以避开的。
机器人是基于平衡车来设计的。现在机器人非常盛行,像双足的机器人,涉及的范围是不会上路的。有没有考虑范围更广,比如挑战凹凸不平的平面?
王野:双足机器人我们做过很多,简单说两个问题:移动效率低、可控性差。我们认为十年之内还没办法成熟到那个程度,普通人认为机器人有两条腿、两只手,其实机器人双足移动效率非常低、可靠性非常差,我们现在还是以轮式为主,四个轮子是OK的,三轮也OK,两轮在过坎、进草坪、泥巴路时,它的通过性相对比较好,而且像平衡车有20公里的时速、 可以负载100公斤的潜质,具备了摩托车的潜质。

发令的模式是用语音系统,可能不像人与人之间的沟通模式,未来是否会进行语音的改变?像有些公司在做一些语音识别,来模拟人与人之间的对话,未来是否会在这方面发展呢?
王野:声音拟人可能会比较恐怖。机器人做得越像人越吓人,最友好的机器人是像大白那样的。
京东在618推出一个机器人,您怎么看?
蒲立:在机器人通过性方面,单线和多线激光雷达只有深度信息,缺少色彩、纹理等更加丰富的视觉信息。Realsense则不但有稠密深度图,也有RGB色彩信息。从视觉算法上,利用Realsense可以获得多得多的信息。激光雷达的优势主要在于探测距离上更远,适合于需要看得远的高速自动驾驶等场景,对于中低速的移动机器人应用,Realsense的探测距离已经可以满足需求,而更丰富的色彩信息可以给视觉算法更多的可能性。
刚才在论坛上,汤总发表VR中的看法时,您说按照现在的状况,不管是盒子、一体机还是PC端的设备都有各自的优缺点。按照现在的发展进度的话,适合消费者使用,可以普及开来的VR设备大概还有多久?五年还是十年?还是三年?
汤振宇:我不会告诉你具体的时间,但是从这个趋势发展可以很明显的感觉到,包括现在在深圳的VR,一个月发货量达到上百万级,这就是很大的市场。现在买手机送给你,是在推动这个生态系统,如果没有这种形式,就不会有人知道。问一下你的家人,谁知道VR是什么东西?其实就是戴一个盒子。我举一个很简单的例子,我去年带我们家人去博物馆,旁边摆了几个VR,但是戴一个盒子,对我来说体验感很差,清晰度也不够,交互也很差,看不太清楚,人还发晕。现在VR的曝光度、认知度、包括行业的趋同性,都在往这个领域发展,这是很多人需要的东西,就像智能手机一出来的时候,在爆发的拐点猛升上去。我的理解是,离普及不会太远,现在可以看到大家都在竞争,这是一种好事。这表示大家都在探索,尤其是爆发性应用的可能性。
英特尔VR的主要方向是什么?
汤振宇:英特尔的发展模式和其他的厂商不一样。英特尔不会在乎我一定要出一个VR头显,但是英特尔的VR,里面有英特尔的技术和影子。很多PC的VR,很多东西要做在电脑上,但英特尔不用,这就是英特尔的优势。刚才说英特尔的360度回放,摄像头的数据要去哪儿处理?英特尔通过生态系统、所有的开放平台来处理。VR的发展是一种交互方式,技术的方式来引领。尤其是以现在我们CEO的观点,能做到更好的数据整合,往这个方向发展的时候就会带动市场,可能会改变本来的机制,跟更多的厂商合作。
不是自己的参考数据、基础数据,而是想做英特尔技术的展示平台,可以这样理解吗?
汤振宇:更像是展示的平台,展示各方面的技术,帮助我们的客户在适合、需要的地方发挥作用。
去年Movidius加入了英特尔的生产体系,对物体识别的精度大概有多少帮助?
汤振宇:收购以后对英特尔的产品有非常大的帮助,包括数据处理量、将视觉中枢传到大脑,可以把我的算法,尤其是深度学习AI方面的算法加速五倍、十倍,在应用和算法方面对我们有质的提升,对我们合作伙伴也是很好的事。如果把一个算法识别出来,可以做语音处理、图像的渲染,甚至可以做数据传输。谈到VR,英特尔开发360度回放技术,是用VR来看,这里有一个数据量:英特尔360度回放技术将2D视频转化为3D每分钟会产生2TB的数据,这是巨大的数据量。
您怎么看待VR的热度在逐渐下降?包括深圳的盒子也少了很多。
汤振宇:我觉得不是热度不高,而是大家更理性了,2016年度大家会盲目的买,现在大家会更关注它的功能,其实2017年一季度的投资量比2016年翻了一倍,英特尔自己来讲,我们去年收购了VOKE。这是一件好事,驱动大家更好的发展,现在大家都是趋于理性了。
Intel RealSense技术出来以后,现在有一些AR、VR方面的应用,您可以介绍一下该技术在英特尔内部的发展阶段是怎样的,有什么样的发展过程,有什么样的借鉴?
汤振宇:我在RealSense工作很多年了,从2013年加入,从我一个人到一个小组在做,到全国范围,中间经历了很多,包括服务器、摄像头的开发。最开始是在PC上来感知你,包括人脸识别,还有很多三维的扫描,后来我们希望更好的应用在平板上,平板都是可以扫描的,因为有很多真正需要。比如说无人机、机器人、VR需要六个自由度,虚拟世界和真实世界的切换,就会变的非常自然、更刚需。包括亚马逊刚发布的产品,也是一种交互的方式,我们也在进化的过程中。这其中还包括和业界的互动,怎么理解这个VR的含义,怎么适应,怎么去开发,包括一些算法,包括摄像头,可识别的距离越来越远,视角范围越来越大,这些都是市场需要的。
Ninebot的产品落地了吗?
蒲立:我把产品计划给大家介绍一下,我们现在这个阶段是处在量产阶段,7月份会先出一个开发者版本,就是这个机器人的教育,与我们前两天举办的黑客马拉松一样,会在上面利用我们的平台SDK来编一些程序。9、10月份会发布消费者版本,消费者版本会在这个机器人随机装一些应用,这些应用就像手机拿到一样,打电话、发短信、拍照、语音一样附带,今天我带来的主要是开发者的应用展示版,我们应用非常强力的底盘控制,大概能做一些事情。
王野:前两天有一个很有意思的应用,可以陪美女逛街,还可以告诉你哪里在打折。
蒲立:Loomo的界面是安卓的界面系统,可以安装一些APP获得新的功能,大家可以看到它给我们的信息和激光雷达的信息不同,我举一个简单的例子,这个界面是开发者用的界面。我演示一个跟随功能。红框是能检测到。这个应用是比较简单的应用。
这款产品怎么来识别路况?
蒲立:它的摄像头是一个广角的,能感知周围环境,可以看到墙面上画的东西。走过一遍的信息会存在CPU中,再通过这个地方的时候,具体怎么规划有多种方式,下次如果遇到一个障碍物,就会避障。现在开了人体监测,能监测到他视野里的人,他有一个检测框,人脸检测、人脸识别是非常成熟的技术,当他第一次看到你的时候会存储。目前Segway Robotics正在集成各类传感器、视觉算法、导航算法、运动控制、语音识别等到SDK中,将在2017年7月上线销售的开发者版本中一起发布SDK。通过调用SDK中提供的接口,开发者能够轻松的实现路况检测、避障等常规的操作
汤振宇:可能会以语音交互的形式存储,也可以做一个动作,他就知道你是谁,信息就会越来越多,产生更多的交互。像人一样,看到这个框就知道了在哪儿,这是非常重要的。我们合作有一部分就是关于这个功能的中间件。