加入收藏 | 设为首页 | 会员中心 | 我要投稿 淮南站长网 (https://www.0554zz.cn/)- 管理运维、图像技术、智能营销、专属主机、5G!
当前位置: 首页 > 站长资讯 > 动态 > 正文

运维难度“更上一层楼”

发布时间:2021-03-24 13:57:47 所属栏目:动态 来源:互联网
导读:43分开始,微软Azure在全球范围内出现了大面积宕机,整个过程持续了将近2个小时,直到5点30分才完全恢复。受Azure宕机影响,包括Microsoft 365,Dynamics和DevOps在内的微软主要服务均出现使用问题。 6月3日凌晨2点58分开始,谷歌在全球范围内遭遇了大规模中

43分开始,微软Azure在全球范围内出现了大面积宕机,整个过程持续了将近2个小时,直到5点30分才完全恢复。受Azure宕机影响,包括Microsoft 365,Dynamics和DevOps在内的微软主要服务均出现使用问题。

6月3日凌晨2点58分开始,谷歌在全球范围内遭遇了大规模中断,包括Gmail、YouTube和Google Drive在内基于谷歌云架构服务的诸多谷歌服务均受到影响。用户访问谷歌服务出现各种错误提醒,并且阻止用户访问电子邮件、上传YouTube视频等。

6月25日消息,亚马逊在官网证实云计算服务出现了宕机,导致部分网络用户和多个AWS区域的网络连接受到了影响。出现故障的节点在AWS美东1区,共计33个服务受到影响,其中9个处于完全中断状态。

宕机事故频发,运维难度“更上一层楼”

一次次宕机事件证明了数据中心运维工作的重要性,但似乎不能避免。如今随着科技的进步万物互联时代的到来,数据中心作为重要基础设施发挥着重要作用,虽然数据中心在国内的发展只有十多年的时间,但已经从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临着更大的挑战,运维难度也“更上一层楼”。

首先,超大规模的数据中心带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本;其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升;此外,规模集中,导致风险集中,事故影响更大。例如上文中谈到的数据中心宕机事故,导致全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。

减少人为失误,提升运维管理的专业技能

据数据调查显示,数据中心的宕机事故70%是由人为失误造成的,因此在数据中心规模不断扩大的同时,运维人员要通过提升自身的技能和专业水平以应对数据中心意外事件的发生:

  1. 建立一套完备的人员技能评价体系,从多方面考核运维人员技能能力,能够有效帮助运维人员提高运维技能,促进运维人员主动学习自动提升。
  2. 运维经验在线学习,建立运维经验库,实现在线运维经验共享交流平台,提供运维知识在线实习和学习的渠道。
  3. 实操环境在线模拟,提供运维模拟实践操作环境,有效隔离操作风险,帮助快速提高运维实际水平。
  4. 理论技能在线评测,依托海量IT云平台组件题库,定期考核,随机出题,实现运维理论能力的在线实时自动测评。
  5. 实操技能在线测评,构建轻量化在线运维操作、在线编程环境,实现运维操作技能与研发技能的在线实时自动评测。
  6. 通过自动评测提升效率,实现运维理论技能与实操技能的在线科学自动评测,提高评测效率,确保能力客观公正的体现。

弥补人工运维不足,智能运维应运而生

如今,数字化时代已经到来,数据中心规模和容量都在成倍增长,随之而来的运维管理复杂度和难度也越来越大,从脚本运维、工具运维到平台运维演进

(编辑:淮南站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读