2024 年 7 月 19 日发生的全球 IT 故障给各行各业造成了严重破坏。该问题由 CrowdStrike 的错误软件更新引发,主要影响 Windows 系统。航空业受到了严重影响,全球机场陷入了极度混乱。尽管核心事件的持续时间很短,但由于用于购票、办理登机手续、登机和航班管理的系统出现故障,导致了全球范围的混乱。这一事件凸显了航空业越来越容易受到技术故障的影响,以及制定适当的灾难恢复计划和系统的必要性。
机场干扰的上升趋势
最近的 IT 故障是过去十年来机场中断事件日益增多趋势的一部分。根据技术公司墨水创新(Ink Innovation)咨询小组Ink+的数据,机场中断事件的数量每年都在大幅增加。2015 年至 2016 年,中断案例增长了 50%,反映出技术漏洞升级的早期迹象。
这种情况在 2017 年加剧,导致中断的重大事件增加了 100%。然而,最剧烈的激增发生在 2022 年,中断次数增加了惊人的 333%。这一激增主要归因于 COVID-19 大流行的后果,它给全球航空基础设施带来了前所未有的压力,并凸显了对强大 IT 系统的迫切需要。
虽然 2023 年没有出现如此大幅的增长,但却发生了两起重大 IT 故障:美国联邦航空局全国范围的计算机系统故障和英国国家航空和航天局空中交通管制中心的重大计算机故障。这些事件凸显了信息技术故障的易发性,可能会造成有影响的运行中断。
2024:延续趋势
在 2024 年的前 6 个月,中断案例已经接近 2023 年记录的总数,继续保持总体上升趋势。这次最新的全球信息技术中断事件凸显了航空业在维护可靠和安全的技术基础设施方面所面临的挑战。
应对挑战
信息技术故障率的上升突出表明,航空业迫切需要投资于更有弹性、更安全的信息技术系统和流程。Ink+ 管理合伙人、航空公司运营专家贾韦德-马利克(Javed Malik)强调,本地替代值机和登机解决方案必须成为机场认证标准的核心,而不是可有可无。这些替代方案对于保护公众的旅行旅程至关重要。航空公司必须摒弃在航班运行过程中无法继续使用的人工后备方案。
马利克声称,航空公司必须展示不依赖机场通用中间件和台式 PC 的登机手续办理和登机的数字替代方案。如果这些备份系统依赖于相同的底层计算平台,那么故障也会导致备份系统瘫痪。航空公司的应急计划应与正常业务系统分离,以降低主系统故障时的风险。依赖关系会增加风险,并在重大事故中产生多米诺骨牌效应。
"渡过难关 "与多云战略
建议采用多云战略,而不是同一云提供商的多地区甚至多区域战略,因为它能提供更大的弹性。更频繁的桌面和模拟 IT 系统故障培训和测试应成为常态,以确保无中断的后备程序。
"由于假定发生事故的频率较低,对降低风险的投资受到了限制。然而,集中式系统增加了中断的影响。"渡过难关 "的策略已不再可行,因为以前罕见的故障变得更加频繁,对严格优化的运营造成的影响也更大。"
Pamela Graham
Ink+ 高级运营参与经理
为了确保航空运营的可靠性和安全性,必须转向强有力的独立应急计划和频繁的测试。