鹅厂如何支持远程复工?8天扩容超10万台云主机、7*24小时监控后台数据机房…|复工那点事儿

大年初一傍晚,大家都还沉浸在云拜年的喜庆氛围中,腾讯的企业 IT 部突然接到“死命令”——“如果节后需要支持全员远程工作有没有问题?”此时,距离初十上班,只剩8.5天时间。

受疫情影响,在家办公需求暴涨,不少企业临时决定让员工远程办公。对于企业和员工而言,远程办公是一个没怎么尝试过的工作场景;对于做“水电煤”的腾讯而言,这意味着企业微信、腾讯会议、腾讯文档、QQ 等办公协同产品的扩容升级刻不容缓。

为此,腾讯云、腾讯技术工程事业群多个团队中止了假期。1 月 29 日开始,全力投入腾讯会议的资源扩容。在云上,腾讯云日均扩容云主机接近 1.5 万台,8天总共扩容超过10万台云主机,投入的计算资源超过 100 万核。在线下,腾讯网络运营团队联合运营商,对网络资源也进行着快速补充。

以往 3 个月才能完成的网络扩容,在腾讯和运营商、机房驻场、布线工人、物流的多方配合下,仅2天就完成了全流程的工程建设。

8天团战,30小时上架200多台服务器

项目团队遇到的第一个问题是扩容所需要的服务器支撑。

初二一早,一份服务器需求清单就发送到运营管理部和 IDC 平台部同事的邮箱里。仅仅经过了 30 多个小时,运管和 IDC 就完成了 200 多台服务器的上架。除了线上布局,还涉及到一些服务器的现场上架、调度。

此外,这两个部门还需要支持腾讯会议、腾讯课堂等其他业务的扩容需求,以及保障数据中心在高需求下的平稳运行。他们的强力支持也极大地鼓舞了其他部门的士气。

在等待服务器的同时,企业 IT 部还办了 2 件大事。

第一件事,协助 7*24  小时提供服务的客服和信安员工离场。初三接到需求之后,企业 IT 第一时间跟设备供应商商讨解决方案,通过电脑软电话等一系列功能,实现了将客服的现场座机转移到员工电脑上;针对高保密性的需求,则帮助他们设置了一条专门的通道,让员工只要把设备带回家,就能安全地实现工作需求。

不到两天时间,项目团队帮助客服、信安以及公司其他相似需求的团队,近2000人实现全员离场工作。

另一件大事则是紧急联动各 BG(事业群) 的技术负责人,梳理可能遇到的研发场景,为远程工作环境上线做准备。光是工作常用网站和资源站点就接近 800 个,大家一个一个去梳理。每天中午或晚上就用腾讯会议开 3 到 4 个会对齐进度。从年初三开始对接各 BG ,一起测试链路是否正常。

72小时重新开发“关键要塞”,让腾讯会议支撑更大流量

说到腾讯会议,基础架构团队的汤米(化名)则是在1月30日上午接到紧急支援腾讯会议的需求。他们要从头开始,完成一个关键调度模块的开发,该模块是让腾讯会议支撑更大流量的“关键要塞”。

汤米和团队马上赶回公司,从头梳理业务逻辑,讨论并确定方案,连夜写代码。31 日晚上,进行业务联调,2 月 1 日,完成全场景测试验收,并在当天晚上完成压测成功上线。72 小时,3 个不停歇的日夜,实现了一个核心功能从零开发到成功上线。多个团队边保障边优化,在近乎极限开发的状态下,最终圆满完成腾讯会议的稳定保障。

从2月5日开始,腾讯会议每天的服务器都按照前一天用户4-5倍的规模来准备。

但2月7日清晨,腾讯技术工程事业群运营管理团队接到了一个难以完成的任务——必须在一天时间内紧急交付数万台服务器,提升极限峰值来应对 10 号的复工高峰——这可是日常情况下一个月的交付量。

但服务器厂商尚未复工,各种快递和交通工具也受到限制,怎么办?

“只有一个办法,把现有资源不断复盘优化,充分使用腾讯云的调度能力,让每一分都用在刀口剑刃上。”运营管理团队的小雪(化名)说道,“我们疯狂盘点资源,向其他已经过了高峰期的业务追回服务器,把那些老旧设备、算力平台能用的都挪过来。同时发动全团队找车,小伙伴们自己上手,一点点搬运深圳本地可协调的设备。”

同时,各事业群的的研发及运维也开始忙活,《 tapd/git 远程工作指南》、《游戏开发在家远程办公攻略》、《 wxg 研发在家办公环境准备》等一份份清晰明了的指引文档迅速完稿。

大年初五,比平日多 30 倍的带宽扩容完成,适应全工种的全尺寸远程工作平台基本搭建完毕,此时距离接到任务,只用了不到 5 天。

初六,邀请各 BG 的技术团队试用,寻找问题。

初七到初九,针对各种出现的问题进行反复调试。

……

大考首日,5.1万鹅厂员工同时远程工作

腾讯自身作为远程办公大潮中的一员,企业IT部是协助腾讯会议在公司内部落地的部门,在远程办公开始前,企业IT团队已经联合腾讯会议团队,进行了扩容评估和实施,全力保障腾讯员工的使用。2 月 3 日开始,腾讯会议每日会议数都在翻倍增长,咨询和问题反馈数也数倍增加,企业IT团队 24 小时在线,帮助同事们解决问题,确保使用体验。

2 月 10 日,鹅厂迎来了正式复工。

也许是被“禁足”憋坏了,才 8 点多钟,远程工作的在线用户已经冲到快 3 万了。没想到大家都起得这么早,还不到 9 点,考试已经开始。

9 点后,用户数不断攀升,在 11 点半左右迎来了峰值,5 万多的同时在线数蔚为壮观。当日下午 2 点多,企业 IT 部助理总经理 Andy 在群里发来喜报:“ 5.1 万同时远程工作,新高!”

另一头,在鹅厂外,学生、企业也在同一天使用着各种远程办公产品。学生上课,公司晨会常集中在早上 9 点钟开始,这是腾讯会议面临的流量洪峰。但这周一的早上 9 点,经过团队一天一夜的努力后显得有些平静。当天腾讯会议扛住了海量的用户会议需求。据了解,基于腾讯百万台服务器和百T带宽的支持,腾讯会议目前已可满足全球 130 个国家和地区的 5000 万用户同时在线需求。

来源:周到上海       作者:卢忆北