一个架构师眼中的云成本管理

当省钱成为常态

Posted by 薛以致用 on May 5, 2020

申明

本站点所有文章,仅代表个人想法,不代表任何公司立场,所有数据都来自公开资料

转载请注明出处

根据 RightScale 2019 State of the Cloud Report from Flexera调查报告称,2019年被访问企业第一优先级是云成本优化,已经连续霸榜三年了,今年疫情期间,这个问题对于所有客户就更突出了;

今天咱们就以架构师的视角来聊聊这个话题,客户云成本的“贵”和“便宜”挑战!

同样上面的报告指出,企业客户的最大挑战是云成本管理和云治理能力,而且企业用户并没有倾其所能来优化云成本(云使用浪费成本高达 35% 或 100亿美金),这样看起来就非常矛盾了:

企业期望优化成本 与 自身云成本管理和治理能力矛盾

企业期望成本优化 与 云使用巨大浪费之间的矛盾

不管你目前处于什么阶段,哪个行业,云服务作为新的基础设施“运营商”,已经成为支撑企业业务创新升级的核心技术能力平台(尤其是在线业务,数据平台和智能平台),该平台还在不断快速进化中。

Cloud Journey

如何理解呢?虽然公有云已经有 14 年历史了,使用云服务的企业也日益增多,但云使用和管理的成熟度来说,很多企业还处于初级阶段即:沿用传统 IDC 合作思路,将云使用主要看成是甲乙方资源买卖关系,很多企业的云采购还是走的传统的采购流程就是很明显的一个现象。

从 IDC 到公有云,成本会降低?

很多大型企业客户都有非常成熟的 IDC 使用和管理经验,或者团队中有非常资深的 IDC 运维管理技术人员,如此再深入到这类企业的应用层,通常整体架构受限于 IDC 本身的局限(比如容量相对固定可控-缺乏弹性扩缩容,非可编程的基础设施-直面硬件层运维管理,网络虚拟化程度-细粒度管理难题,存储资源容量,缺少跨区域容灾等等)。

IDC 和云的一个明显的区别是:

  • 一个是单租户,堆硬件,建设标准千差万别,有单客户规模化低成本效应
  • 一个是多租户,标准化纯软件服务接口,高标准基础设施及高可用,快速全球化,享受超大规模化红利,以及技术进步红利

持续的疫情又给大家上了一课,企业的弹性成本和固定成本的影响,IDC 的资产属于一次性固定成本,在业务量由于不可抗拒、不可预测的因素影响时,这部分成本很难减少;而云的使用成熟度越高的企业,弹性成本占比越高,这个时期,明显可以跟随业务量的变化而降低云成本支出。

那是不是要把所有的业务都从 IDC 迁移到公有云呢?

一切不从业务和企业愿景出发的结论都是耍流氓,所以,不基于具体客户的具体分析,不会有答案,不过至少云服务是你可以放到一篮子方案的一个选项!

个人建议企业投入时间到员工的培训,提升对公有云的认知和治理能力,从业务出发,直到可以辨识掌控云和业务的相互促进关系;有非常多的成功的云使用场景,比如 HPC,Web 应用,游戏,短视频,直播,电商,银行,保险等的,其中 心动、小红书、Skyscanner/Expedia/Netflix 甚至 GE、Capital One、FINRA 是其中典型的一些代表。

如果从成本出发来考量,起步阶段,可以从 TCO 整体拥有成本的计算出发。

https://aws.amazon.com/cn/economics/

那回到本小结的问题,IDC 到公有云成本会降低吗?

答案是如果你把 IDC 的使用方式直接也”迁移“到公有云,结果一定会超出你的想象(两者看似相似,本质不同),Skyscanner的团队就曾经遇到这样的挑战,直到他们技术团队丢弃传统购买商业 License 授权的模式,改造核心系统到云原生之后,整体成本才取得一个合理的水平,而且大部分是弹性成本。

云是由开发者掌控的

这个结论是 Netflix 团队从 IDC 到公有云的转型过程中对于云服务本身的一个认知和定位。

从成本角度来看,这又是很大的一个挑战,看看下面这张图,原先的企业 IT 流程是从左到右强管控,但到云上,还延续这样的方式(IT 惯性“慢”模式),业务团队本身感受不到任何云带来的敏捷和高效,这也是很多企业上云初期比较困惑的一个挑战。

在云上:

  • 云资源 - 开箱即用,即产生成本(业务开发主导的云使用模型决定了云成本模型)
  • 各职能团队利用成本数据,进行目标管理和成本细化
  • 业务规模扩张时,持续完善成本治理
  • 利用工具自动化按需资源的使用和优化

Cloud managed by developer

云成本优化目标

贵和不贵,通常是有对比才会有伤害,但不少企业往往东比比西比比,最后忘了自己的初衷。

那成本优化的初衷到底是什么?

我们所谈的成本优化,有两种情况,一种是客户对自己的单位业务成本很了解,比如广告客户以每千次点击(CPC)跟他们的客户收费,那业务上必然要控制的就是每次用户点击的 IT 服务成本。另外一种情况,客户没有关联具体业务指标,而是就 “IT” 谈 “IT” 优化,老实说,后一种情况是最挑战的,那优化到什么点是个头呢?

这种情况更加建议客户先做优良架构优化,挤掉云使用的水分。

Biz Target

因此,企业成本优化的贵和不贵的初衷,健康的模型是关联到具体业务指标,比如上图的 Lyft,主要业务就是拼车,业务运营指标是拼车交易量,而 IT 成本很容易就关联到单位出行 IT服务成本,这样成本优化的目标就是优化单位出行的 IT 成本:(1)当业务规模持续增长时,保持下降趋势(不断优化)(2)单位 IT 服务成本优化到某一阈值可以有更多行业竞争优势;(3)IT 服务支撑的能保障业务的高速增长和创新实验。

云成本优化需要成本大数据和工具支撑

“古希腊人认为,这个世界是简单的,它的运行规则可以用数学来表达。” 套用到成本管理,从第一天开始,我们就需要有成本数据,协助团队来度量业务和效率,成本数据的收集依赖账号组织结构和成本标签策略,更依赖于可编程的价格服务 API;

如下图是 Lyft 的一个成本大数据平台架构,编程方式融合对云服务的购买选型的数据,日常团队的云服务用量的监控数据,经过数据分析,提供管理团队,各云组织用户,容量管理团队,更加直观的各种报表和成本优化建议提示。

Big Data Of Cost

云成本优化不仅仅是个商务谈判

商务谈判重不重要?重要。

但技术优化本身也是成本优化的半边天,甚至某些场景要比商务谈判更直接有效。

技术优化对成本的影响非常大,想想第一段提到的 35% 的使用浪费,任何行业的价格折扣都可以关联到整体的用量,云服务也不例外,用的越多,省的越多(阶梯定价和大企业折扣),但这个前提是你已经认可技术优化已经是目前阶段最优,基于这个不掺水的用量,再进行商务谈判,才能避免浪费,优化到符合业务规模化增长的合理成本增长结构。

Cost Optimization Mature Curve

正因为,云和客户不是简单一次性的资源买卖关系,作为客户的业务技术支撑平台及基础设施运营方,客户成功,平台才能成功,大家是互相成就,因此定位为长期互信发展的合作伙伴关系更靠谱。

比如 Netflix 团队对于 云服务(AWS)的定位:

  • 尽可能利用 AWS 服务(因为 AWS 在云服务上持续有巨大的投资,没有必要重复造轮子)
  • 最大化开发人员的生产率和敏捷度
  • 接口化隔离应用和 AWS,避免和 AWS API 细节锁定
  • 云是由开发者掌控的,Netflix 的 IT 是 AWS API
  • 传统的很多 IT角色都转型成开发者,谁开发谁运维
  • 长期目标:当市场其他的云计算玩家赶上 AWS 的时候满足可移植性

从上图的云成本优化成熟度坐标图,我们可以认识到云的成本管理,涉及的方方面面特别多,在熟悉云价格模型的基础之上,更广泛的业务、开发、运维人员都可以参与到整个成本优化迭代循环,借助成本大数据分析建设,更敏捷的应对成本挑战。

如何开始做技术优化?有两点,所有客户可以开始行动的是:

  • 避免浪费:发现浪费、优化资源、优化架构(比如虚机利用率,磁盘IOPS利用率,磁盘空间利用率等等)
  • 弹性:根据业务特性,提升应用包括基础设施弹性伸缩能力,提升弹性成本占比(比如按请求次数收费,Spot 实例,按实际流量收费等等)

可以查看近期关于 容器平台结合 SPOT 实例优化成本的在线视频

总结

最近直播带货圈流行一句 ”不要用你的业余爱好pk人家的专业“,成本管理和优化不仅仅是一个商务谈判,更多是一个非常专业的技术活,欢迎各位 Builder 和合作伙伴构建更多工具帮助客户更好的评估、选择和优化云成本。


公众号二维码

诞生于 2019,遇见 2020。

感谢关注,欢迎动动手指标星和置顶;

这样就不会错过少但精彩的技术探讨、团队建设、案例分享!

每周至少一更,转发是对我的最大鼓励!

学习之路漫漫,走走停停,
偶有所感,随心所记,
言由心声,问心无愧!

从客户中来,到客户中去!