今年11月2日,工信部会同公安部就智能网联汽车准入及上路试点组织起草了征求意见稿;11月21日,北京正式颁发自动驾驶无人化第二阶段测试许可,车内「前排无人,后排有人」的场景照向现实。
随着相关政策的密集出台,自动驾驶也在愈加规范的同时,不断提速商业化进程。目前,北京、重庆、武汉、深圳、广州、长沙等地已有无人化商业运营试点在对外提供服务,并有不少智能汽车品牌把高速公路场景,甚至城市场景下领航辅助驾驶功能产品收入囊中。
业内许多人士认为,自动驾驶在高速发展下,正在从技术驱动转向数据驱动时代。的确,无论走哪种技术路线,车企更多需要通过真实数据来驱动真正的自动驾驶体验。
数据贯穿自动驾驶的研发、测试、量产、运维、售后等全生命周期,企业也需要利用从研发到使用全过程产生的数据,来不断提升、迭代自动驾驶系统。
那么,目前自动驾驶最迫切的数据应用场景是什么?这样的场景又对算力、工具、平台有哪些需求?应用过程中,面对随之而来的海量任务,如何能够提升数据管理效能,并保障数据的安全与合规性?车企要不要上云?该如何上云?
为此,12月15日,在金桥经济技术开发区管委会的推动下,阿里云联合机器之心共同举办「自动驾驶的数智化未来」闭门研讨会,邀请众多专家学者、产业界精英和政府相关部门代表到场跨界交流,并一齐探索了这些问题的答案。
自动驾驶需要上云吗?
从软件算法到硬件设备,自动驾驶领域天生就会产生很多数据。一辆符合或者具备自动驾驶的车有摄像头、雷达、定位系统等各种各样的感知设备,这些感知设备运行24小时,大概会采集4个TB的数据,阿里云智能副总裁、行业解决方案研发部负责人曾震宇指出。
「当然,一辆车不可能24小时都在开,假设100万辆车一天在路上跑3个小时,总数据量就是128EB,而通常一家互联网公司的数据量在几个EB。128EB对于任何一家做自动驾驶的公司,都是一个非常海量的数据量级别,即使对这些数据量做1%到1‰的采样,算下来也差不多是EB级别的。」
而且,自动驾驶公司以往是针对感知算法做许多小模型,未来或会朝大模型方向发展,大模型对数据量的消耗以及数据的需求会越来越大。再从看戏规划控制和决策方面,自动驾驶公司以往更多是从规则或决策的角度来做规控,未来不仅是规则+决策还要加上强化学习,这对数据量的需求又非常大。
将海量的数据保存下来之后,又会有非常多的计算场景,其中有许多场景都需要用云计算来帮助做加工处理。例如,面对超大的非结构化数据的预处理,如何快速加大并发、加快数据的处理能力?超大规模的网络参数非常多,怎么快速地并行化训练感知模型算法?在百亿级的向量多模态检索环节,如何从海量数据中快速挑选出有价值的数据?算法上线前做仿真测试时,如何提升仿真的并发度和计算效率?
由此可见,在自动驾驶商业落地下半场中,数据「上云」是自动驾驶行业的一大刚需,也是决定其能否实现快速迭代的重要因素。
「上云」之路有哪些?
不过,在具体「上云」方式上,自动驾驶行业各公司的选择并不单一。
一部分公司选择自建超算中心,如特斯拉和小鹏。2021年8月,特斯拉正式发布自研云端超算中心Dojo,主要用于处理大量训练特斯拉自动驾驶汽车AI软件数据;2022年8月2日,基于阿里云智能计算平台,小鹏汽车在乌兰察布建成国内最大的自动驾驶智算中心「扶摇」,专用于自动驾驶模型训练。
还有自动驾驶企业选择在云平台灵活部署自己的技术,比如Nullmax利用贯通车端、云端的自研数据成长系统推动自动驾驶不断迭代升级。Nullmax创始人兼CEO徐雷表示,自动驾驶是场景驱动的设计来实现包括测试和商业化应用的过程,当中必然会产生很多数据。而各种云的服务是一个基础服务,他们正是在这些服务上对采集和收集的数据做分类切片、标注和挖掘工作。这样一来,车端源源不断地获取数据,云端对数据进行分析,可以完成获取、清洗、标注、训练以及模型验证的整个数据闭环,为感知、融合、决策、定位、测试等环节提供全方位的帮助。
(Nullmax 创始人兼CEO徐雷)
这是行业内典型的两种「上云」之路。对于大部分企业而言,是否自建云服务平台仍值得商榷。毕竟,自建云计算基础设施不仅需要巨大的前期投入,后续成果能否尽如人意也是个未知数。因此,选择一家有实力的第三方云计算企业,成为大多数车企的最佳选择。
多云VS单云
如今自动驾驶企业在选择云服务时,往往会选择多家,如阿里云、腾讯云、华为云等都采购,避免与一家「绑定」。但实际上从效率角度考虑,选择单独一家,使用一站式/全栈式的服务是最为高效的。
对此,轻舟智航技术合伙人李栋解释道,他们主要是出于两方面的考虑:第一是成本,希望能得到最高性价比的服务;第二是想灵活适配各云服务商,其策略是采用更基础、接口更统一的服务,并且尽量压低在不同服务之间切换的成本。
(轻舟智航技术合伙人李栋)
此前,业内也流传着这样一种说法:「自动驾驶企业上交了数据就相当于交出灵魂」。确实,云供应商如此深层次地介入到自动驾驶研发业务中,在一定数据量的积累后,自动驾驶企业是会产生一定的顾虑。
阿里云行业解决方案研发部自动驾驶云产品负责人孙放表示,对于这一现象,阿里云有三个态度:
第一,阿里云并不干涉客户选多云;第二,阿里云不做车端相关的技术,整套服务体系都不会绑定车端的客户选型,不管是阿里云提供工具还是原子能力都可以适配客户任意车端体系使用;第三,阿里云提供多层次可以拆分售卖的自动驾驶云方案,拥有多模态数据检索、仿真软件大规模调度等许多原始能力。如果客户自研SaaS,可以直接用原子能力,然后根据自己的需要选择合适的上层工具或者是自研上层工具;阿里云也可以联合合作伙伴提供上层端到端的SaaS层开发工具产品。
「目前,大部分主机厂或造车新势力客户会选择把某一个业务类型(如仿真、训练)放在一种云上,而Tier1供应商会根据他们自己的客户的需求选择云服务,通常不和某一个云绑定。对此,阿里云整体是一个完全开放的态度。我们更多从技术层面帮客户考虑,如多云之间存算力怎么分配、跨云数据同步对带宽依赖、成本和网络延迟是否会产生影响等。」孙放称。
达摩院自动驾驶实验室则认为,从效率或者迭代更高角度来讲,更深度的垂直整合往往会带来更高效率和更低成本。这是他们在与阿里云更深度结合绑定的过程中所实践到的。
而对于自动驾驶企业所顾虑的方面,达摩院自动驾驶实验室的看法是,选择多元方案涉及到云与云之间包括网络传输和数据互通,协同成本很高,在不同企业发展阶段这种付出是可以权衡的。例如,在快速迭代阶段,可与单一云厂商深度绑定;进入规模化发展阶段,再考虑多云间平衡的技术方案。
自动驾驶的数据应用难点
自动驾驶企业对云端研发自动驾驶、对于感知模型训练、仿真测试、研发工具链等的需求越来越旺,矿山、城区和高速道路等都是其目前相对迫切的数据应用场景,但过程中也面临许多难点。
伯镭科技自动驾驶产品解决方案负责人赵新寰介绍,矿山相对公开道路不太一样,没有交通灯、斑马线等交通信号,也没有行人场景,需要标注的数据也不一样,如道路、挡墙以及不同大小和形态的落石。由于单车数据标志量虽不很大,但往往比较特别,他们选择找专业的数据标注公司来提供服务,但成本较贵、时间周期较长。
而且,他指出,矿山场景中做数据采集,要考虑车辆的形态、能耗,还要保证无人驾驶和有人驾驶车辆的混编,包括道路共享、汇车、错车等,整体数据量非常巨大。从仿真角度来说,对数据的处理难度以及算力的要求都比较高。
上海数字大脑研究院执行CEO、CMC Capital VP刘海涛则结合此前的项目经历,谈到矿山数据应用场景的另一棘手情况:做数据标注时存在降噪问题。当大型矿卡行至颠簸道路,会在启停时晃得很厉害,有时候传感器突然打到地面,会误认为地面是障碍物,或者在摄像头结霜时就看不到了。
(上海数字大脑研究院执行CEO、CMC Capital VP刘海涛)
专注于做车路协同自动驾驶的中智行技术副总裁刘生认为,无人驾驶看的是安全、效率和体感,其中最难的是安全性,它的数据难点有以下三点:首先,现实世界中发生的案例大多都是典型的,但安全性场景极其罕见;其次,自动驾驶未来的目标不是做到绝对安全,只需要做到比人更好就可以,但评估起来是非常难的;最后是数据理解方面的难题,构建安全性场景非常难,需要保真度和安全性的评估指标。
对此,目前业界有三种解法。一是影子模式,用人开的方式和自动驾驶差异性找到罕见事件作为安全性评估;二是机器学习方法从普通场景推导安全性的案例,这里面需要解决认知和逻辑性问题;三是减少安全性的场景,从而使安全关键事件的发生概率被人们接受。比如可以借助于第三方力量(如路端),有助于克服机载传感器的局限性。这种方式的挑战在于如何提升PnC的泛化能力。
「但不管用哪种解法,技术挑战和投入成本都是非常大的。」刘生指出,中智行另辟蹊径,用车路协同来实现低成本高效率数据采集。中智行联合天翼交通发布的“轻车·熟路”车路协同系统具备全时空的观测,场景覆盖率可以达到100%,能够完美解决安全维度最难的稀缺性。
另外一方面,无人驾驶是生态型的,不可能一家公司从头做到尾,在数据处理方面也同样需要上下游合作。无人驾驶的数据处理分为数据工具和数据理解两部分,而他们非常愿意把数据工具体系交给平台方去做,更多去关注数据的理解。
(中智行技术副总裁刘生)
比如,阿里云就提供了一系列工具,能够帮助业务方把有价值的数据量提取出来。刘生介绍,有了高质量的数据,友商也能提供强大的平台帮他们做数据处理,接下来中智行还进一步利用路侧数据做了规控优化、感知泛化以及更新高精地图等工作。
基于路侧数据优化自动驾驶的规控方面,阿里云也做了不少相关的实践。目前,阿里云提供针对城市和高速道路等的自动驾驶仿真场景库,主要面向规控仿真。2022年9月27日,阿里云联合毫末智行在德清市发布「中国首个基于车路协同云服务的大规模自动驾驶场景库」。
(毫末智行COO侯军)
此外,毫末智行COO侯军谈到,随着自动驾驶大规模商业化落地的提速, 数据智能成为自动驾驶能力高速迭代的核心,而更加开放的生态也让企业赢得未来。毫末选择与生态伙伴一起合作,将海量数据云上进行高效训练,以提升数据处理能力,降低训练成本。
还有场景落地可行性问题…
除面临海量的、不同类型的数据应用难题外,自动驾驶企业还要注意收集及处理数据时的效能和合法合规性。
今年11月23日,上海市通过了以浦东新区为试点,促进无驾驶人智能网联汽车的新规,为完全无人驾驶汽车在上海的落地提供了制度依据。
上海金桥智能网联汽车发展有限公司高级经理周轶表示,政府在做好监管职责之后,另一方面也在思考:面对示范区车辆监管和车路协同建设沉淀的海量数据,作为第三方机构如何在保障安全和隐私的前提下,引导产业链上的参与者,建立一套行之有效的行业协作机制,背靠浦东丰富的城市社区场景和海量的出行服务需求,以数据管理和应用为导向,形成一个可持续、可管理、可闭环的数据生态。
从根源上来讲,这并不完全是技术层面的问题,更多是面向应用场景的落地可行性问题。金桥智联的建议是建立适应浦东应用场景特色的智能网联车数据安全与数据管理标准体系,除了技术上的考虑,一定要瞄准浦东的创新应用场景的数据管理和应用需求。
「未来浦东一定是国内最大规模的自动驾驶无人出租、无人公交、无人配送、无人泊车等应用场景的商业化落地区域,这个过程中数据在业务上如何保障信息安全和隐私,技术上如何防止篡改和盗用,乃至金融上如何确保用户和企业资金流转的安全和存证,这都需要建立一套面向场景应用的数据安全与管理标准。以此为基础,保障不同应用场景拥有可靠同源的安全架构,才能真正推动自动驾驶商业运营的大规模推广落地。」
数据在驱动自动驾驶高速发展的同时,也带来许多挑战。为应对海量的数据以及庞杂的处理任务,自动驾驶企业需要建立起强大的数据存储与智能计算能力,而能够提供这些支持的正是云服务。
需要注意的是,随着技术应用的迭代和业务场景的变化,现如今自动驾驶企业对云服务商提出了更多的需求,其中「从垂直场景切入深度解决数据应用难点,切实提升数据管理效能」就是关键点之一。
在此情况下,云服务商需要与自动驾驶公司加强沟通、对齐需求;后者也需要再多加思考选择云服务的方案和策略:如何在免除「被绑定」顾虑的同时,还能发挥出更高的效率、以及更低的成本,并以此加速自动驾驶的商业化进程?