功能安全来自火星,AI来自金星
传统说法是,AI可以转化为安全工具,用于检测异常和识别工作场所的危险。然而,AI硬件和软件的功能安全仍是未知数。制定ISO 26262的工程团队正在接受这一挑战。
AI已经被应用于安全关键(safety-critical)的应用,如自动驾驶车辆或ADAS系统。那么,在AI驱动的车辆上路测试之前,AI E/E系统的设计者和AI组件的开发者如何验证功能安全呢?
(资料图片)
汽车芯片行业一直使用ISO 26262功能安全标准作为指导,对其芯片的安全性有很大信心。但AI芯片的设计者(GPU、SoC和AI加速器)一直处于黑暗中,因为AI从未在ISO 26262的范围内。
这一切即将发生改变。
ISO 26262功能安全标准的制定者们已将焦点转向AI,制定了针对汽车的ISO安全相关AI/ML功能指南,称为ISO PAS 8800。其任务是定义合适的安全原则、方法和证据,以满足ISO 26262(功能安全)和ISO 21448(预期功能安全)的目标。
PAS 8800现在正在作为CD(Committee Draft)在团队成员间传阅,计划在10月分发意见。
到目前为止,业界对PAS 8800的意见似乎非常分裂。例如,该团队中很少有计算机科学家,这说明缺少AI方面的专业知识。
一些行业人员表示有点失望,因为新标准虽为AI提供了一个框架,但只是非常粗略的。该标准没有提供工具来评估芯片设计者在优化AI芯片过程中必须做的权衡。
同样受到质疑的是该团队试图将AI的验证纳入经典V模型。
他们怀疑这种方法是否行得通。批评者说,问题根源在于AI的黑盒性质。
在V模型下,要求和规格堆叠在V的左侧。右侧显示要遵循的步骤,以验证(我们设计得对吗?)和确认(我们设计的东西是正确的东西吗?)。基于V模型的测试无法证明安全性,但它可以检查设计和实施中是否准确执行了要求和规格。
V模型适用于测试非AI芯片的工程严谨性。但适用于AI处理器吗?
芯片设计师可以提供给AI处理器输入(神经网络模型),并获得输出,但AI的内部工作仍然是不可见的。因此,几乎不可能对AI算法背后的逻辑进行检查。
向前迈出的一步
不论PAS 8800如何,AI系统测试所面临的挑战可能仍会存在。但由于AI的功能安全是每个人都非常关心的话题,所以目前业界还在继续做着努力。
CMU的副教授Phil Koopman表示:“目前还没有这样的ISO标准。我很高兴看到这个团队向前迈出了一步。”
Untether AI的产品总监Eric Zhang称PAS 8800是一个良好的开端,因为在过去,AI算法的逻辑在ISO 26262中从未被提及。Zhang认为把AI视为一个系统问题来解决非常有价值。
他很高兴PAS 8800至少在宏观层面上涵盖了从训练神经网络和创建模型,到微调直到部署的整个过程。
一个巨大的鸿沟
然而,上层(神经网络开发)与下层(芯片设计)之间存在着明显的鸿沟。
Zhang观察到,行业知道如何训练一个优秀的(大语言)模型,并且对如何设计符合ISO 26262标准的非AI芯片有很好的了解。然而,与AI相关的,造成所谓鸿沟的问题是一个开发神经网络模型固有的迭代过程,以及软件和硬件开发之间相当长的延迟。Zhang解释说,优化AI硬件到某个模型可能需要很长时间。优化过程包括在量化、稀疏性和剪枝等方面进行调整。
通常情况下,当硬件优化完成时,软件可能已经转向了一种算法,而这种算法在AI硬件优化开始时还不存在。作为一个AI加速器设计师,Zhang希望PAS 8800能够提供关于“AI软件和硬件协同设计”的一些建议。
如何获得安全信心?
Zhang还提到了安全性的问题。他说:“我们现在知道,验证自动驾驶车辆所需的里程可以从数千万到数十亿英里。”他说,必须有“一种更好的方式来建立信心,而不是简单地在街道上行驶自动驾驶车辆。”
因此,当Zhang得知PAS 8800甚至没有提供AI硬件设计者在追求功能安全时可以使用的“前期子级设计目标”时,感到有些失望。
考虑到行业已经承认将传统的V模型测试应用于AI的困难,Zhang的担忧是有道理的。因为基于机器学习的系统是通过训练而不是有意设计出来的。如果AI系统不提供要求和传统设计(V模型的左侧),则没有用于验证的测试基础。
PAS 8800对于如何验证AI的功能安全并不明确。据几位读过委员会草案的人们说,PAS 8800认识到了硬件(例如GPU、AI加速器)和硬件资源(例如内存)、支持的数据大小、软件依赖性和工具之间的差异。虽然该标准承认这些差异可能是优化的结果,并可能增加AI系统出错的风险,但该标准仅建议纳入一个论点,解释为什么由此产生的风险是可接受的低风险。该标准还承认,彻底分析AI模型差异是不可行的,因为它们太复杂了。
如何评估权衡?
AI处理器设计者面临着永无止境的优化工作,使硬件足够高效,以适应软件模型。在此过程中,他们必须在量化、稀疏性和剪枝等领域进行权衡。
例如,通过使用自己的优化技术,Zhang可以剪掉90%的分支。在人工神经网络的背景下,剪枝是从现有网络中删除参数。目标是在提高效率的同时保持网络的准确性。然而,在现实中,他并不知道他是否只是为了效率而牺牲了安全性。无论是否经过剪枝,输出结果看起来都是一样的,这并不能揭示权衡的影响。
Zhang希望新的标准能告诉他如何评估这样的选择,但它没有提供任何指导。
学术界在哪里?
然而,Zhang和其他PAS 8800的观察者并不仅仅责怪PAS 8800没有实现上述那些现实需求。
在他们看来,学术界必须更加努力地发展一种更多数据驱动的方法来评估AI的功能安全。
例如,AI优化技术的安全影响是未知的。Zhang说:“我们经常听说神经网络模型可以在不影响性能的情况下降低内存和计算成本。”但学术研究对安全性说得很少。
如果有两个模型,硬件运行大模型,小硬件运行压缩模型,Zhang想知道哪个更安全。事实上,基于不同的假设,答案会大相径庭。
Zhang补充到,此外,尽管安全鲁棒性应该是所有AI讨论的一部分内容,但关于神经网络架构或权重结构如何应对常见的随机硬件故障的研究却很少。
新的安全标准?
另外,一些学者建议,现在可能是业界重新评估包括ISO 26262在内的现行安全标准设计的时候了。
在去年发布的题为“Continuous Learning Approach to Safety Engineering”的论文中,Astus AB的Rolf Johansson和CMU的Koopman问道,“尽管已经使用了几十年,关键的行业安全标准也进行了多次修订,但核心问题仍未解决。我们如何知道一定的工程活动和设计模式将达到所需的完整性水平?我们又如何确保特定的完整性水平能够真正赋予特定项目所需的安全属性?”
两位作者提议:“最初安全部署的实际现场反馈应支持DevOps式的生命周期安全持续学习方法。”他们相信这种方法将提高安全工程的效率。
他们还告诫道,“我们相信,遵循安全标准仍然是一种最佳实践,并且应该为所有的安全关键系统设计,直到确定更好的实践。”作者解释说,论文的目的是“鼓励安全社区进一步采取措施,进一步完善这些标准的基础和应用。”
功能安全来自火星,AI来自金星。他们互不相融。然而,AI软件和硬件的开发者需要一个他们可以遵循的方法,来验证其产品的功能安全。他们最不应该做的(尽管很多自动驾驶公司在这样做)是用蛮力在街道上直接测试AI驱动的车辆。
关键词: