理想总是赎顺要有的,万一实现了呢,丰运理想有多大,理想我们就能一起走多远。践行在实现理想自由的赎顺道路上,我们描绘蓝图踏出探索道路的丰运第一步,未来不是理想梦,即使是梦我们也要穷极一生做完这场梦。
[[213390]]
运维密室
密室的墙壁与锁
顺丰的技术运维部门自 2007 年成立以来,伴随物流行业飞速的发展,其运维的规模也是一路狂奔,到 2016 年技术运维团队已经衍变成近 200 人的大队伍。
为了建立专业技术能力,自 2013 年伊始经过 3 年的建设,技术运维团队组织架构和职能逐渐稳定成型:
通过专业化的组织分工,我们培养了很多专业领域人才,具备了一定的技术能力,同时也系统性的形成了适合物流行业业务形态的基础设施建设标准、设备引入和使用标准、基础软件使用标准和架构标准。
受益于这些变化,我们的资源使用效率变得更加合理,系统稳定性也逐年出现显著的提升。
经历了 3 年的治理,队伍组织架构、职能和技术栈进入到了相对稳定的状态,但新的问题也逐渐浮出水面:
由于变更永远伴随着风险,本着少做少错的想法,团队与团队之间多多少少都存在关节部位工作的推诿现象,全时顺畅无间的协作成为一种奢望。
不幸的是,烟囱式的垂直专业分工团队,对于协作的要求是远远高于水平分工团队。
而对于技术运维队伍自身,各团队不约而同步入到一个瓶颈,整体的发展和成长被严重束缚,而大部分人在自己的微观世界中并未觉察。
视野天花板,每个团队在工作中接收到的信息都是经过专业分层过滤的,只能在不完整信息的基础上进行分析、判断等工作。
能力碎片化,没有一个团队有全栈运维能力,也没有一个团队能够俯瞰完整技术运维领域的工作。
密室外的风暴
当我们的运维人在密室的微世界中以自有节奏前行,怡然自得时,外面的大世界已经在急剧的变化中,现实是怎么样的呢?
业务方面:
技术方面:
密室之内斜风细雨,密室之外风暴已至,不能做风干的鱼,顺丰运维人再一次的将自己置于审判席上。
运维审判日
我们对 IT 运维工作做了四象限分解(如下图所示),从价值角度来看,理想情况是技术运维队伍需要将更多的资源投入在右边的象限上。
而实际的情况是我们近七成精力都消耗在左边象限内的基础日常工作上,不停的做各类布朗运动。
基于对运维工作的四象限分解后的反思,我们总结了运维五宗罪:
笨重的熟练
三年的专业化和标准化道路走下来,我们的工程师对于平时常规的工作已经非常娴熟,新一天的工作变成 n+1 的重复而已;工程师敲键盘的手越来越快,脑袋却逐渐麻木,逐渐失去在工作中独立思考的能力。
被降维的工作效率
很多日常 IT 运维交付工作真正完成只需要几分钟,但是从用户需求提出到层层审核,一直到交到用户手中可能需要好几天。
低效这种大团队的通病在烟囱式的垂直专业分工团队会随着依赖团队个数进一步放大,留下用户在一旁苦不堪言。透过现象看本质,事实是时间都花在了沟通和等待上。
内视的黑洞
在企业 IT 团队中,从技术的维度看,技术运维团队往往有专业的技术能力,但从业务价值链看,技术运维团队又处于价值链的末端。
从完整工作流来看,技术运维团队往往是最后一环,并不是站在 IT 大军的最前线。
在价值认知的错位,信息隔离的情况下,如果没有完全的理性和足够的前线信息,技术运维人会形成种种负面自我,聚集成内视的黑洞。
自制的锁链
当初伴随公司的成长,部门为了管理系统化、正规化而建立了 KPI、规范、流程、标准、预算、成本、编制等各种制度。
它们的出现就是为了让运维工作变得有序、有计划、有规划,而且初期都起到了较好的效果。
但是在某些情况下,这些制度将会展现暗黑的一面,成为组织的枷锁和束缚,例如:
自动化短板
IT 运维队伍走到一定的能力水平和规模,都会开启运维工作自动化建设的阶段,且开始都会被赋予解决种种问题的美好预期。
而往往 IT 运维队伍发起的自动化工作更优先解决的是运维团队自身的问题,不一定优先站在用户的角度考虑。
我们在 2015 年下半年到 2016 年上半年开始运维自动化;本来预期可以节省人力并提高效率和质量,但是结果却不尽人意。
自动化的任务结束了,整体交付效率并未出现质的变化,用户也没有变得满意。
回顾原因的时候终于明白我们都是做的执行末端的自动化,即将以前手工执行工作自动化了,解决了运维执行人员自己的问题,但并没有解决这个交付工作流效率低下的问题。
因为一个用户需求从提出到评审,到变更,最终反馈给用户,这个过程非常漫长。很多人做的自动化只是把自己的执行工作自动化了,用户感觉不到任何改善。
运维的梦想
经过一系列的反思和自我审判,我们看到技术运维团队肌体未老先衰。
总结如下:
总结至此,感觉技术运维团队已是寒山夜雨,千山暮雪,如何打破身与心的牢笼,实现自我救赎?
经过多轮的思索和头脑碰撞之后,我们认为技术运维工作的理想情形当为:
筹谋
方向已经清晰,目标就在彼岸,如果到达呢?更谨慎的执行、更负责任的态度、更细颗粒度的管理都解决不了问题,唯有突破现有思维模式,基于现状而不限于现状才有出路。
我们决定从如下六个方面进行突破:
经过全面的考量之后,我们启动了下面五个任务:
对于其中的主干任务维石,任务组在年初制订了非常完美的计划(如下图所示),计划在 2017 年 4 月初把资源交付做到自助,到 7 月份就转入优化阶段。
碰壁
在美好愿景的驱动下,我们从原有专业组抽调了部分力量组成需求团队,研发实现团队主要是没有做过运维工作的 Java 工程师,然后大家热火朝天的开干了,不想刚迈开步子即踏入炼狱,进入到为期两个月的无尽循环。
如此种种不顺,两个月下来,参与这个任务的同事们,不管是做需求的还是做架构的,大家天天指责对方而没有结果,疲惫且痛苦着。传统运维转运维研发的艰辛,远远超出了当初的预期。
陆陆续续的,有成员开始放弃,平台和前端研发有人离开了,产品经理也不玩了,架构师也跑路了。
面壁
痛定思痛,关键人员集体面壁,对任务进行回顾和反思,最终制定了如下的五条规则:
破壁
客观和理性再次成为行事的主流,大家停止了相爱相杀式的争执,运维大脑 Vishnu(维石)的设计理念终于出炉。
设计理念如下:
按照这种理念,维石(Vishnu)的雏形如下:
经过六个月坚持不懈地努力,我们已经迭代到了 1.5 版本,实现了容器管理平台、KVM、维石自助交付模块和自服务以及 ThinkDB 这四大块的阶段性目标,1.6 的迭代已经开始切入管理视图部分的容量管理功能。
随着功能的逐步上线,运维团队的工作模式和内容也开始相应的出现变化:
维石(Vishnu)和 VM
现在和未来
走到今天,我们仍然在加强运维研发能力的建设:
我们体会到以前认为不可能的事情经历摸爬滚打下来,只要努力去做,是可以实现的。可以预期的是,再过一年,还可以达到部分自适应和自愈的运维程度。
运维的自由
最后,希望广大运维人是自由的。心的自由,无需时刻诚惶诚恐、如履薄冰,担心无法按时交付误事,担心系统出故障。这个梦想,希望广大运维同路人一起来实现!
[[213394]]
周辉,自号甲骨君, 2002 年 OCP。自千禧年以来先后就职于富士康集团、平安科技和顺丰科技,深刻经历制造行业、金融行业和快递物流行业 IT 运维工作的历史变迁。曾有幸在金融数据大集中的黄金年代负责某金融集团保险、银行、证券、投资、基金、信托数据库运维工作,完成其庞大数据库群标准化规划和改造过程。在快递物流飞速发展的当下主导了顺丰科技基础架构自原生态到标准化、系统化、半自动化的运维模式转型,完成了顺丰集团新数据中心、容灾中心的规划建设和迁移等IT底盘建设工作。现致力于顺丰科技运维转型和变革工作,是 DevOps 的践行者。
(责任编辑:知识)
Interview: China can play vital role in stimulating global growth in 2023, says UN economist
总额147亿!榴莲进口数量超过车厘子 泰国成为中国最大的水果供应国
Chinese embassy deeply concerned about UK gov't's attitude to Japan's nuclear