本教程介绍云主机 ECS 的成本构成和优势,并提供成本管理的推荐方案,帮助您通过成本管理节约成本,在保障业务快速发展的同时按照预算支出费用,获得最大成本收益。

# 成本构成

使用云服务器 ECS 时,成本包括两个方面:

  • 拥有成本:各类资源和资源包的成本。
  • 运维成本:使用云服务器 ECS 过程中产生的人力成本。

# 上云的成本优势

自建数据中心时,除硬件、网络、电力、机房、人力运维成本等直接成本外,还需要考虑升级、扩容等带来的规模成本,以及备份数据、实现高可用等带来的风险成本。随着业务发展扩大数据中心规模时,单位资源成本和数据中心复杂度会不断增长,而且容错率低。如果在业务变化时选型失误,更会增加额外的支出。

相比自建数据中心,使用云上资源时无须投入硬件、物理环境人力等成本,单位资源成本相对线性,所有资源按需取用,交付便利。除资源成本的优势外,云上资源还支持多种付费模式,方便进一步优化成本。

# 成本优化建议

使用云服务器 ECS 时,推荐您从以下方面管理成本:

  • 归集成本
  • 优化资源
  • 升级换代
  • 具备节约意识
  • 实现自动化运维

# 归集成本

在用户中心,您可以查看费用账单中的信息了解消费情况,从多个维度追踪成本并确定优化对象。

  1. 使用费用账单的账单总览功能,查看账号消费趋势、产品消费分布等信息,把握整体消费情况。
  2. 使用资源组、标签等功能,从业务、部门、项目的等维度分类资源,以便统计相应成本。
  3. 使用费用账单的账单明细功能,查看详细的资源消费情况。通过设置的资源组和标签,在更细粒度汇总各类资源的成本。

例如,创建标签部门:研发部门:财务部门:IT,并为 ECS 实例绑定标签。在查看账单明细时,通过标签筛选对应部门使用的资源,汇总成本用于确定优化对象。

# 优化资源

发现成本偏高的资源后,您可以从多个角度监控资源的情况,确定成本偏高的原因,然后采取针对性的优化措施。

  1. 监控资源的使用情况。

    • 监控资源利用率,评估当前配置是否过高。例如 CPU、内存、云盘、带宽等资源的利用率。
    • 监控闲置的资源,避免浪费。例如升配但未重启的实例、未匹配实例的预留实例券、未挂载的云盘、未关联的 EIP 等。
    • 监控资源使用周期。如果长期使用按量付费实例、云盘等资源,考虑以更实惠的方式购买,例如包年包月、资源包等。
    • 监控资源生命周期,了解包年包月资源的到期日,及时续费。例如包年包月实例、预留实例券、存储容量单位包等。
  2. 选择合适的实例规格。

    实例规格对云服务器 ECS 成本有较大影响,根据业务场景选择最佳性价比的实例规格,并调整合适的数量。在满足业务需求的同时追求高资源利用率,降低成本。

    例如针对短视频场景,目前使用 d1ne.14xlarge(60 台),监控 ECS 实例发现内存使用率合理,但 CPU 相对空闲。因此可以采取以下方案:

    适当降低 CPU 和内存比,满足业务需求的同时提高 CPU 利用率。查看实例规格详情发现 d1ne 实例为 1:4,d2 实例为 1:5.5 左右。使用 d2s.8xlarge(85 台)替换 d1ne.14xlarge(60 台),规格从 14xlarge 降为 8xlarge,约节省 23%的成本。

  3. 组合多种付费模式。

    不同类型的业务对资源使用周期有不同要求。为每一类业务确定合适的付费模式,灵活组合达到最优效果。

    • 针对稳定业务负载,使用包年包月、预留实例券。
    • 针对有状态且动态变化的业务负载,使用按量付费。
    • 针对无状态且可容错的业务负载,使用抢占式实例。
  4. 利用 DDH 复用 ECS 实例资源。

    针对 CPU 绝对稳定性要求不严苛的场景,例如开发测试环境,使用超分型 DDH 部署更多同等规格的 ECS 实例,降低单位部署成本。

    部署在 DDH 上的 ECS 实例停机时不占用资源,您也可以在生产环境业务流量的低峰期停止部分 ECS 实例,使用生产环境的空闲资源运行可预期周期的测试任务,例如离线计算、自动化测试等。

# 升级换代

处理器等硬件持续更新换代,提高性能的同时降低成本。云服务器 ECS 也会持续升级,为您提供性价比更高的产品。

新实例规格性价比优于老实例规格。例如,从 g5.2xlarge 升级到 g6.2xlarge 的性能和价格对比如下:

性能 价格
- 整型运算性能提升 40%
- 浮点运算性能提升 30%
- 内存带宽提升 15%
- 内存空闲延迟降低 40%
- 内网带宽提升 220%
- 预付费包年成本降低 6%
- 按量付费成本降低 43%

为保证您可以及时使用新一代实例规格,建议您:

  • 设计的应用具备鲁棒性,在不同实例规格上可以正常运行。
  • 关注阿里云官网中实例规格的发布情况,及时评估是否需要更换。

升级换代示例

按照以下参考替换方案,保证 CPU、内存配置相同的前提下,可以提升性能并至少节约 15%的实例成本:

当前实例规格族 首选推荐 备选推荐
sn1、sn2 c6
g6
r6
c5、sn1ne
g5、sn2ne
r5、se1ne
c4 hfc6、c6 hfc5、c5
ce4 r6 r5、se1ne
cm4 hfc6 hfc5、g5
n1、n2、e3 c6
g6
r6
c5、sn1ne
g5、sn2ne
r5、se1ne
t1
s1、s2、s3
m1、m2
c1、c2
c6
g6
r6
c5、sn1ne
g5、sn2ne
r5、se1ne

# 具备节约意识

云上资源的一个特点是按需取用,避免了自建数据中心所需的高昂一次性投入。针对按需取用的特点,您需要将成本优化融入到日常工作中,持续推进才能获得理想的优化成果。下面列举几个典型操作,您可以以此为模板进一步细化,形成贴合自身情况的方案。

  • 定期召开成本会议。定期和成本相关方(例如财务、研发等团队)评审预算执行情况,评估优化成果,改进优化策略。
  • 强制使用标签。利用标签按业务、环境、责任人等维度标记资源,便于日常成本追踪。
  • 分类资源并定制合适的使用方式。例如针对短期项目的开发测试环境,优先选用按量付费实例部署,项目结束后及时释放实例。
  • 避免资源闲置。定期盘点资源使用情况,明确闲置资源的通知和处置流程。
  • 及时续费。对包年包月资源,提前申请预算,避免到期释放后重新购买部署增加额外成本。

# 实现自动化运维

  • 弹性伸缩:持续维护跨付费模式、跨可用区、跨实例规格的实例集群。适合业务负载存在峰谷波动的场景。
  • 弹性供应:一键部署跨付费模式、跨可用区和跨实例规格的实例集群。适合需要快速交付稳定算力,同时使用抢占式实例降低成本的场景。
  • 运维编排:以模板的方式定义一组运维操作,高效执行运维任务。适合事件驱动运维、定时运维、批量运维、跨地域运维等场景。
  • 资源编排:一键部署并维护包含多种云资源和依赖关系的资源栈。适合交付整体系统、克隆环境等场景。