硬核观察 #1023 AMD 霄龙 Rome 芯片会在连续运行 1044 天后崩溃

AMD 霄龙 Rome 芯片会在连续运行 1044 天后崩溃

霄龙 Rome 是基于 Zen 2 架构的第二代霄龙处理器,AMD 称,它会在连续运行 1044 天后挂起,之后你必须重置服务器才能使芯片正常运行。该芯片是 2018 年底发布的,这意味着一些客户已经遇到了问题。这个问题与处理器核心未能退出 CC6 睡眠状态有关,但 AMD 表示它无意修复该错误。解决该问题有两种,其一是在连续运行 1044 天前重启下,其二是禁用 CC6 睡眠状态。

消息来源:Tom’s Hardware

老王点评:连续运行三年很长么?这对于那些比赛 uptime 时长的人来说真不是一个好消息。

AWS 正在关闭其在 GitHub 上的文档仓库

2018 年,AWS 将其文档开源发布到了 GitHub 上,但经过长时间的实验,他们决定归档其大部分文档的存储库,并把精力投入到其文档和网站上。他们原本是意图通过开放和协作来提高价值,但通过客户的反馈了解到,情况并不一定如此。大部分 AWS 文档的主要来源是在内部系统上,他们必须得手动与 GitHub 仓库保持同步,但“实际上消耗了宝贵的时间,这些时间本可以用在更直接提高文档质量的地方”。

消息来源:AWS

老王点评:同步麻烦只是原因之一,重要的是,只是一厢情愿的将文档放到 GitHub 上,希望社区来协作,可能未必有最初想象的那么美好。

一个打字错误导致了 Azure 停止服务十小时

微软 Azure DevOps 是一套应用生命周期服务,由于一个基本的代码错误,周三在巴西南部地区停止工作了大约十个小时。Azure 说明了中断的原因:一个简单的打字错误,删除了 17 个生产数据库。工程师们进行了一次代码升级,将旧的 API 调用换成了新的 API 调用。在拉取请求中出现了一个打字错误,它导致后台快照删除工作删除了整个服务器。虽然 Azure DevOps 有测试来捕捉此类问题,但错误的代码只在某些条件下运行,因此在现有的测试中没有很好地覆盖。

消息来源:The Register

老王点评:越来越集中的云服务,一旦出现一个微小的故障,可能带来的就是成片的故障蔓延。

回音

  • 在 Reddit 通过对 API 收费来 扼杀 第三方客户端后,Reddit 上的一些版块计划将在 6 月 12-14 号临时关闭版块抗议,Reddit 对此的 回应 是封杀这些版块的管理员账号。

硬核观察 #1023 AMD 霄龙 Rome 芯片会在连续运行 1044 天后崩溃
https://linuxcat.top/article-15879-1.html
作者
硬核老王
发布于
2023年6月5日
许可协议
CC-BY-NC