MDARK

【高见】韩国政府网络瘫痪,风险来自二十年前

9月26日晚,韩国国家信息资源服务中心机房发生火灾,导致韩国政府网络瘫痪,到目前仍未恢复。韩国这次难以控制数据中心火灾,是因为数据中心由旧建筑改造而成,空间先天不足。而韩国选择用旧建筑改造方式建设国家级数据中心,源于二十年前的政治风波。

当地时间9月26日晚8点25分,韩国大田市儒城区花岩洞国家信息资源服务中心,五楼一处机房发生锂电池火灾。当地政府派出199名消防员,64辆消防车进行救援,花了10个小时才控制住火势。

这所国家信息资源服务中心,集中了韩国647个政府IT系统,包括211个行政系统,436个公共服务系统。火灾导致数据中心紧急关闭,韩国政府在线办公、服务几乎全面崩溃。韩国居民不仅无法在线办理户籍填报、社保缴费、交通罚款,而且有种金融系统也停转,无法存取款,不能用ATM机。

事故发生后,韩国总统李在明身穿灾害应对黄夹克,召开紧急会议,要求制定根本性对策来防止事故重演。在后续火灾应对会议上,行政安全部长尹浩正向公众直言,由于事故导致在线交易无法进行,普通人如果手头没留现金,连菜都没法买。而且事故发生在中秋假期之前,韩国民众普遍担心事故会影响正常生活。

为此,韩国选择优先恢复与政府民生相关的一二级系统。到9月29日晚上,恢复了70多个系统的运行。到10月1日,恢复了100多个。目前还在陆续恢复。火灾直接损毁了96个系统,相关数据有云备份,但要在大邱数字中心重新搭建系统服务,再回灌数据文件。韩国政府接下来准备花四周时间完成这部分重建工作。

国庆期间,国内媒体重点报道了这次事故中被摧毁的韩国政府文件存储系统,说约75万名公务员最近七年的相关工作文件全部流失,让不少网友联想到了平章大圣。这个政府文件存储系统,是韩国中央公务员的工作云盘GGF,只负责存储个人工作过程文件,不涉及归档文件,权重级别比较低,所以没有做异地备份。主要影响的是正在进行中的政府工作,但只要公务员有本地存档,影响就相对有限。

GGF对应了十万名中央公务员的858TB云端数据,人均几个GB。所谓75万,是媒体错用了韩国公务员的总数。当然,这也不是国内媒体原创。首先是韩国放送公社电视台报道错误。至于说七年,是因为GGF在2017年创建,2018年开始要求中央公务员统一使用,到现在一共运行了七年。

截至目前,有关这起事故的披露信息已经足够多,我们可以对事故原因进行比较完整的追溯分析。先说结论: 一、锂电池起火的直接原因是错误拆卸操作,锂电池的超期使用放大了起火风险。 二、导致火灾演变成重大事故的原因,是大田数据中心不合理的设计,没能阻断灾害放大。 三、导致数据中心设计不合理的原因,是因为大田数据中心是用旧建筑改造的,结构空间先天不足。 四、韩国政府选择用旧建筑改造来建设大田数据中心,原因是20年前卢武铉政府在政绩压力下追求多快好省。 五、在卢武铉之后的几届韩国政府,惯性延续了大田数据中心的营运。双活备份系统进度拖延,到现在还没建成,导致这次事故的影响被进一步放大。 接下来,我们先看事故细节。

(汽车引擎启动声)

按照韩国媒体报道,事发前有13名工人正在五楼机房更唤锂电池,其中一个锂电池出现火花并引发火灾。火灾一共烧毁了384组锂电池。

其中133组锂电池被转移到室外的临时水池中进行冷却。这些电池是LG新能源公司在2012到2013年期间生产的,在2014年安装到了数据中心。到现在使用时间已经超过了十年保修期。虽然电池超期使用,但在今年6月仍然通过了例行检查。按照供应商LG新能源公司的说法,电池结构不太可能出问题。

LG新能源的说法不全是甩锅。数据机房中的锂电池长期静置在电池架上,没什么外部环境风险。微观结构损毁主要来自充放电的循环。在锂电池充放电过程中,锂离子不会完美进行嵌入脱出,每次循环都会加剧微结构的失去。循环次数多了,就会容易出现锂枝晶,有刺穿隔膜导致火灾的风险。

数据中心为了防止断电,会使用UPS电池与柴油发电机组。UPS电池的主要用途是在柴油发电机组稳定供电之前进行缓冲过渡,有点类似于笔记本电脑的电池。但区别之处在于,数据中心UPS电池平时不会使用,只在应急供电时才会放电。所以循环次数比较少,不太可能出现微观结构的严重损毁。但除了充放电循环风险,还有界面膜变厚问题。机房内的UPS电池长期保持在满电备用状态,电解液会在正负极表面缓慢氧化还原,导致界面膜不断变厚、变脆。界面膜变厚会导致电池内部电阻增大,更容易发热。

界面膜变脆后,在电弧、机械冲击情况下更容易开裂,可能会诱发内部短路。锂电池模组是直流电,拆卸时更容易出现电弧。UPS电池在拆卸前要接入负载箱进行消能处理。根据媒体报道,火灾前现场出现了电火花。这很可能是拆卸操作不规范,在消能不到位的情况下就断开电线,产生了电弧与过压尖峰。而电池超期使用增加了电池内部短路风险,加剧了电池发热问题,最终导致电池组连续热失控,机房温度最高时达到160度。消防人员一度难以进入火场,机房服务器在高温中损毁。

根据媒体报道,这次拆卸是因为数据中心觉得将UPS电池放在机房里不安全,准备把UPS电池转移到地下室,结果为了降低事故风险,反而造成了事故。我十年前就负责过大型数据中心项目设计任务。看到这条消息第一反应是不合理,因为数据中心有专门的电池室,UPS电池不应该直接放到主机房里。于是我搜索相关建筑物图纸资料,发现当地消防部门在火灾发生时,曾对媒体展示过火场平面图,证实的设计确实严重不合理。整个韩国国家信息资源服务中心,就是个草台班子项目。

健康可真是重要,尤其是经常熬夜加班外卖不断,感谢身体亚健康的朋友们。可以试一试这一款我最近一直在吃的海立生小蓝瓶。你看我这体型,再加上经常熬夜写稿。上次体检,报告上血脂那一栏就亮起了红灯。当时我也没太当回事,就觉得少吃点油腻的呗。但是还是经常熬夜控制不住嘴。后来我一个学营养学的朋友就给我推荐了这款小蓝瓶。说真的,我之前听过也吃过一阵子鱼油,感觉没什么用,就是个心理安慰。但他跟我说,鱼油和鱼油真的不一样。说我原来吃的可能营养都没有吸收。他还给我讲,说这款鱼油好,主要好在两点。第一,它的纯度非常高,有95%,而且里面是EPA占大头,更能针对我们这种血脂问题,很纯粹。不像有些鱼油里面DHA比较多,那是不补脑的,不对症。第二,它是RTG结构型的,生物利用率更高。普通的鱼油吃下去,咱们身体尤其是代谢本来就不太好的人,消化分解的效率很低,很多营养其实都浪费了。而这个RTG结构的,吃进去身体更容易吸收,不费劲。我坚持像鱼的吃了大概三个月,最近去复查,看到报告单的时候,那个之前标红的血脂指标真的降下来了。我自己也感到了一些细微的体验,比如之前下午特别容易犯困,脑袋昏昏沉沉。现在这种疲惫感减轻了很多。而且,感觉身体那种油腻感,就是那种沉甸甸的感觉,也好了不少。海立生是一家深耕鱼油领域超过70年的企业,拥有19家国内外发明专利。科研成果不仅荣获国家科技进步奖,还被列入国家星火计划,是国内少有的全线自主生产的企业。原料都是来自秘鲁渔场的小体鱼,没有污染,吃着很放心。如果你也跟我有类似的情况,熬夜,饮食不规律,甚至体检查出的血脂有点高,我真的建议你可以试试这种高纯度RTG结构的EPA鱼油。坚持吃,真的对调理血脂有好处。

(汽车引擎启动声,后停止)

为了方便观众理解,我把火场平面图做了简单标注。通过比对卫星图以及现场照片,也可以大致判断出火场平面图的对应区域。火场平面图包含了数据中心主体建筑五层平面图的大部分区域。出现火灾的机房,在入口处可以看到台阶。

这是因为机房内部要铺设防静电架空地板。一方面是方便在地板下方布线,另一方面也是方便房间内部空气循环冷却。采用常规的空调吹送手段,很容易导致机房内部出现温度不均匀。

因此,数据机房通常是在地板上开射送风口,让空调冷风从下方吹送,从上方回流。由于架空地板会抬高室内地面,为了避免高差导致设备进出不方便,通常在设计上会下压机房的楼板标高。而我们刚才看到,韩国这次着火的机房要靠台阶来弥补高差,这是第一个让我感到诧异的地方。

根据火场平面图的标注可以看到,事故机房将空调、UPS电池与机柜混合摆放在同一个房间当中,这是第二个让我感到诧异的地方。空调制冷会有冷凝水,UPS电池的火灾风险比机柜要高。而且空调机与电池的环境温度需求也与机柜不同。电池还容易对主机房造成空气二次污染。按理说,机柜、空调机、UPS电池都应该分别布置在不同的房间里,利用隔墙来阻断风险扩大。这些问题在国内数据中心设计规范中都有对应。比如7.2.1条明确说,主机房、辅助区、支持区是不同的功能分区,其中支持区包含电池室与空调机房。7.4.8条明确说,电池室会得空气造成二次污染。基础要求表中,也对不同设备功能区域提出了不同的温度要求。数据中心要精确控制不同功能区的冷量,这样才能降低数据中心能耗,降低PUE值。

因为数据中心长期运营成本就是能耗。此外,在建筑电气与智能化通用规范中,也明确要求,电池室要用防爆灯,不能有普通开关插座。现在韩国这个数据中心不仅混合布置,而且UPS电池与机柜的间距只有60、70厘米,比机柜间距还短。这显然在设计上严重不合理。

此外,数据机房一般采用气体灭火。考虑到送气距离与压力损失,一般会在每层居中布置钢瓶间。根据韩国媒体报道,这座数据中心采用了卤代烷气体灭火,有可能是七氟丙烷,结果灭火失败。国内设计七氟丙烷灭火系统时,考虑到控制气体浓度与管道容积,通常要将送气管道长度控制在50米以内。根据卫星图上测量建筑尺寸,结合气体灭火管道的布线方式,按理说应该能在火场平面图中看到钢瓶间,然而并没有。

当然,这只能算是个没来得及暴露的次要隐患。从这次火灾情况来看,钢瓶间合理布置也没有什么用。由于UPS电池与机柜紧密布置,就算把钢瓶怼到电池架上喷,也无法进行有效降温。机柜该烧毁还是会烧毁。

这一系列的不合理设计,让我怀疑这座建筑的最初设计用途不是数据中心。简单搜索就可以发现,这座建筑之前归属于韩国电信研究院。建筑群在1991年动工,1993年完成一期工程,1995年全面交付使用。2004年底,这座建筑开始被改造成数据中心,一直沿用到现在。总体来说,用一个词来总结我对此座数据中心的观感,那就是凑合。

能糊弄事凑合用上就行,完全不从全生命周期角度去考虑成本与风险问题。有种犯罪团伙违法搭建大规模私服的诡异美感。

接下来的问题,就是20年前韩国为什么选择用建筑改造的方式建设国家级数据中心?而且还改造得如此的要草。

(汽车引擎启动声)

从地形图上可以看到,韩国平原地区被小白山脉切割成了东西两个部分。东南方向的洛东江平原被称为岭南地区,西南方向平原被称为湖南地区。如果用一条主线来总结韩国最近两代人的政治斗争,那就是岭南与湖南的地域矛盾。朴正熙军政府时期,石化、造船、汽车投资主要集中于岭南。名义上是因为在岭南搞工业方便对接东南沿海港口,而且方便与蒙古沟通,有利于抵抗北方朝鲜。但深层原因是军政府核心人员以岭南人为主。

也因此加剧了湖南地区的不满。所以湖南成为进步势力反对军政府的根据地,在1980年发生了光州事件。军政府下台后,岭南保守派继承了军政府遗产。而湖南进步派始终坚持要对军政府历史问题进行彻底清算。自第六共和国以来,虽然韩国议会党派一直在洗牌,但都还是要地域矛盾中站队,划分左右阵营。

以此来锁定票仓。这一点也直观反映在大选投票上。卢武铉作为金大中的政治继承人,在2003年2月正式出任总统。这时韩国正处在一个微妙的历史时刻。外交方面,此前金大中推行阳光政策,积极接触朝鲜。而小布什上台后,在2002年将朝鲜列为邪恶轴心,引发第二次朝核危机,美韩关系日益微妙。2002年6月,驻韩美军撞死了两名韩国中学生,这激发了韩国民众的反美情绪。纪念遇难中学生的烛光守夜集会,断断续续持续了快一个月。期间,涉事美军士兵还被军事法庭判决无罪,进一步加剧了反美浪潮。

等到卢武铉上台时,处于夹缝中的韩国已经没有什么外交政策空间。卢武铉一方面要延续党内的阳光政策,一方面要照顾民众反美情绪,另一方面还要与美国保持关系来应付朝核威胁。所以卢武铉只能奇想,一边宣称韩国要做东北亚均衡者,用独立外交回应国内反美情绪。另一边派3000多名士兵支援小布什政府发动的伊拉克战争。

内政方面,卢武铉刚上台就遭到保守派反攻倒算。保守派通过国会调查金大中时期对朝鲜的秘密汇款,质疑卢武铉选举程序有问题。与此同时,卢武铉也与党内产生矛盾,成为无党派总统。之后又接连遭到了保守派发起的贿选调查以及国会弹劾。等卢武铉站稳脚跟时,任期已经过去一年多了。

卢武铉在竞选时就做出承诺,说当选总统后会进行迁都,疏解首尔都市圈。在国会弹劾闹剧结束后,卢武铉加快推进迁都计划。保守派为了阻挠迁都计划,组织社会代表向宪法法院发起请愿。时任首尔市市长的李明博也递交了申诉书。之后宪法法院裁定,迁都之前必须通过国民投票。卢武铉只能将迁都计划降格,变成建设行政中心市,只迁一部分政府部门,也就是现在的世宗市。世宗市临近湖南地区,迁都计划原本是卢武铉用来巩固党派票仓的大型投资项目,结果只能缩水多时。

卢武铉在外交缺乏空间,内政被敌对党派扯肘的情况下,只能在行政、经济领域做出一些局部的制度改革。但这些零丁碎屑的改革很难形成视觉效果,对党派后续选举的帮助有限。因此,卢武铉必须在手头的建设项目上,迅速做出成绩。

金大中政府在2001年推出了电子政务法。卢武铉上台后,明确了电子政务路线图,提出了31项主要任务。电子政务是能让普通民众直观看得见的政绩成果。所以卢武铉希望在任期内就完成使用化。如果选择新建一座国家级数据中心,可研、选址这些流程就要耽误一两年。因此,最快捷的办法就是用旧建筑改造。

2004年,韩国政府租下了韩国电信研究院大楼,决定将大楼改造成一号国家级数据中心。数据中心从2005年开始改造建设,当年11月就交付使用,堪称神速。2008年2月,卢武铉结束任期,保守派李明博上台后,对卢武铉进行清算,导致卢武铉自杀。再之后,下一任保守派总统朴槿惠被弹劾,进步派文在寅上台。文在寅是卢武铉多年好友,所以上台后又对李明博进行了政治清算。双方政治清算到现在还在继续。

(汽车引擎启动声)

卢武铉政府当年选择用建筑改造的方式建设国家级数据中心,原本只是个权宜之计,是为了在任内刷个政绩。结果后续几任政府萧规曹随,将临时方案变成了路径依赖。原本韩国政府签订的大楼租期是20年,从2005年秋天算起,到今年火灾刚好到期。但由于没有可替代的数据中心,韩国国情资管院在火灾事故发生前,又将租期延长到了2030年。

数据中心根据不同等级的数据安全需求,会配套冷备、热备与双活。如果有双活备份,韩国政府就能在这次事故发生时无缝切换服务。但直到今年7月,韩国政府才正式准备搞双活备份。在卢武铉时期,韩国政府就配套了光州二号中心作为热备,在2007年底交付。之后十几年,后续配套设施的建设进度一直拖拖拉拉。用于扩容的大邱三号中心在2023年才投入运营。光州四号冷备中心在李明博上任时就立项了,最初计划2012年竣工。结果经历两轮可研,七次流标,到文在寅时期才动工,到现在还没有交付使用。

在此基础上,回顾最近几年韩国数据中心事故就更让人感到讽刺。2022年10月15日,SK集团的板桥数据中心发生火灾,导致韩国版腾讯卡靠的服务中断了好几天。为此,韩国国会在2022年12月通过了防止大规模IT服务中断的法案,要求IT服务商加强灾害预防措施。结果只落到了电信和广播公司身上,政府自己是一点都没改。2023年11月17日,大田一号中心,也就是这次火灾的数据中心,发生设备故障,导致数据严重丢包。相关部门花了好几天才解决故障。在这之后,韩国政府才决定对光州四号中心做功能拓展,导入双活备份系统。结果双活系统还没搭建完,一号中心就发生了火灾。最终卢武铉20年前射出的子弹,击中了20年后的李在明。

好,本期节目到此结束,感谢各位收看,我们下期再见。

Leave comment