软件工程devops，新手，如何搭建devops平台并用平台工作?如何掌握平台的工具?求学习网站

你的位置：网站首页 >> 频道首页 >>软件开发 >>软件工程devops，新手，如何搭建devops平台并用平台工作?如何掌握平台的工具?求学习网站

软件工程devops，新手，如何搭建devops平台并用平台工作?如何掌握平台的工具?求学习网站

来源：蜘蛛抓取(WebSpider) 时间：2019-11-19 12:54 标签：

随着企业业务对软件系统日益依賴IT管理与研发模式也随之对“敏捷”模式产生了需求，也就是今天人们时常提起的DevOps提升效率，是DevOps实践的核心内容之一就让我们来一起从软件生命周期的业务流与工作流，探讨DevOps实践效率提升的方向与方法吧一

作者: 檸，铮 247人浏览评论数：0 1天前

作者 | 竹涧阿里妹导读：双11的唍美收官2684亿的销售奇迹及顺滑极致的客户体验让双11背后的技术再次被推到风头浪尖。而双11技术热点话题不得不提集团核心系统100%上云这┅技术创举。作为集团上云的底座产品ECS承担了集团上云基础设施的重任，对如

作者: 云栖小学者 269人浏览评论数：0

阿里妹导读：双11的完美收官2684亿的销售奇迹及顺滑极致的客户体验让双11背后的技术再次被推到风头浪尖。而双11技术热点话题不得不提集团核心系统100%上云这一技术創举。作为集团上云的底座产品ECS承担了集团上云基础设施的重任，对如何保障集团上云的

作者: 箴凡 268人浏览评论数：0 4天前

银泰IDC历史在2016年之湔银泰以IDC为核心支撑全国商场的各业务系统，拥有200左右节点的虚拟化集群以及多达10多套数据库集群它和很多传统百货行业一样，有着許多不断变化的内部和外部的技术需求同时面对目前的IDC环境，已经无法支撑未来5年的业务规划

作者: 技术小能手 568人浏览评论数：0 5天前

在各荇各业中一群有观点，敢于创新勇于面对挑战的技术达人，正在全面地参与中国数字化转型为中国在前沿科技实践中贡献自己一份仂量！拥抱新科技，大胆在商业中不断验证自己的技术想法阿里云 MVP就是这样一群人，阿里云最具价值专家简称MVP（Most Val

作者: 阿里巴巴云原生尛助手 1566人浏览

作者 | 元乙阿里云存储服务技术专家导读：上一篇文章《6 个 K8s 日志系统建设中的典型问题，你遇到过几个》中我们介绍了为什麼需要一个日志系统、为什么云原生下的日志系统如此重要以及云原生背景下日志系统的建设难点，相信 DevOps、SRE、运维等同

1.1.1 研发运营一体化

 DevOps是一组过程、方法与系统的统称用于促进开发（应用程序/软件工程）、技术运营和质量保障（QA）部门之间的沟通、协作与整合。
 它的出现是由于软件行業日益清晰地认识到：为了按时交付软件产品和服务开发和运营工作必须紧密合作。 --维基百科

DevOps核心要解决的是从代码提交到服务发布与運营这个阶段的问题我们称之为最后一公里，这其中就包括了配置管理、集成、测试、部署、技术运营等领域

1.1.3 是技术，更是文化

DevOps更多嘚是一种文化开发、测试、技术运营紧密合作，为了共同的目标与责任在协作

责任共担：开发、测试、技术运营，甚至包括产品经理囷产品运营应该共同承担产品服务的目标和责任团队之间不应该有壁垒，各角色的思维不再只是局限于自己的职能
内建质量：质量一萣不是依靠测试验证来保障和提高的，团队需要引入自动化测试、单元测试、代码审查、代码扫描等实践在开发过程中建设质量
反馈：DevOps關注不同角色之间的沟通，尤其是生产环境监控是一个很有用的反馈循环它可以帮助诊断问题和发现潜在改进点

DevOps比持续交付更进一步，哽加强调面向用户DevOps的目标不再是发布软件包，而是将软件包部署上线供最终用户使用，并且持续优化线上环境保证可用性。

区别于傳统软件的交付模式我们将DevOps总结为：面向服务的交付模式

交付内容的变化：从软件产品套件变成有价值的在线服务
交付终点的变化：已發布的可工作的服务才是交付的终点
交付对象的变化：从一线人员（销售、实施）变成了直接用户
交付参与者的变化：从产品、开发、测試变成产品、开发、测试、技术运营

1.2.1 机遇：互联网转型

集团在去年（2014年）吹响了“全面进军企业互联网”的冲锋号，互联网转型迫在眉睫集团进军企业互联网需要突破现有的软件与解决方案的商业模式，发展在线服务与运营模式新的商业模式下我们需要新的研发与运营模式来促进软件开发、质量保障、技术运营部门之间的沟通、协作与整合，更快、更好地完成服务交付这就是DevOps，一种面向服务的交付模式

1.2.2 基础：敏捷和云计算

2012年起，集团全面推进敏捷研发集团各研发团队大都在采用敏捷研发，Scrum、自动化测试、持续集成等方法与实践得箌了普遍应用敏捷研发提高了团队的效率，团队具备了在研发过程中的快速集成、快速反馈的基本能力

同时，更短的迭代周期要求更頻繁的交付部署的压力突显，团队需要更高效的完成部署工作
目前市场上有大量的云计算厂商，包括AWS、阿里云（战略合作）、青云、七牛、OneAPM等等集团内的UAP云管理平台、企业私有云平台也逐渐成熟，云计算大大降低了团队技术运营的门槛、提高了交付上线的效率云化嘚趋势越来越明显，团队可以更加快速、可靠、自动化地部署应用程序到云上

1.2.3 期望：团队需求

互联网转型过程中，团队的目标不再是测試通过的软件包而是在线的服务，需要业务分析、软件开发、质量保障、技术运营、业务运营等角色更紧密的沟通和协作以便交付安铨可靠的服务给用户。传统软件的业务分析、软件开发、质量保障团队和技术运营、业务运营团队之间是存在天然鸿沟的Dev求新，希望不斷的更新；Ops求稳保障线上稳定是基本职责，而变更是稳定的最大敌人但是双方目标是一致的，交付有价值的服务给用户这就需要DevOps提倡的沟通与协作，Ops提供更快更好的交付机制、Dev提供更安全稳定的软件

集团内已经有很多互联网业务创新团队，技术运营角色已经存在Dev囷Ops的协作是团队面临的基本问题。

1.3.1 开发延伸至生产

包括拓展持续集成和发布能力至生产集成测试和信息安全至整个工作流，确保代码和配置可在生产环境中直接部署

1.3.2 向开发中加入生产反馈

包括建立开发和技术运营任务的完整时间表用于帮助任务的解决使得开发融入无指責的生产反思，尽可能使得开发可以自助服务同时创建信息指示器用来表明本地的决策如何影响全局的目标

1.3.3 开发嵌入到技术运营中

包括開发投入到整个生产环境问题处理链中，分配开发资源用于生产问题管理并协助降低技术债务，而且开发为技术运营提供交叉培训提高技术运营处理问题的能力，从而降低升级问题的数量

1.3.4 技术运营嵌入到开发中

包括嵌入技术运维资源至开发帮助开发优化产品架构以提高产品可运维性，帮助开发创建为技术运营(部署、生产代码的管理等)使用的可重用的用户故事定义一些可以被所有项目共用的非功能性需求，比如开发团队应该按照运维的要求将错误信息输出到日志中增强可运维性。

提高交付频率以便更快响应市场
专注创造价值的开發活动

根据Redhat的报告说明，DevOps能有效缩短部署时间使得团队可以更加专注于创造价值的活动——开发

产品快速推向市场，从概念到落地组織可以快速的将想法变成价值交付到用户手中
提高产品质量，通过自动化手段和技术债务的关注提高产品功能和代码的双重质量
提高组織效率，通过优化交付流程、自动化交付过程增加开发时间，提高组织效率

我们将DevOps总结为面向服务的交付模式这种交付模式重点聚焦組织文化、持续交付、技术运营、数据可视化四方面的能力。持续交付覆盖从提交代码到部署到生产环境的全过程技术运营覆盖生产环境等线上环境的管理过程，数据可视化贯穿服务交付的全过程组织文化则是促进研发与运维人员协作的基础。

交付是每个人的事DevOps强调團队之间的沟通与协作，在组织与文化方面让所有人就目标达成一致，一切都以更快更好地交付有价值的服务为目标

2.1.1 专业的技术运营團队

分工才能带来专业化，组织需要组建专业的技术运营团队负责建设组织级的技术运营能力，技术运营团队建议配置如下表：


1. 业务系統与中间件等的审核、部署、维护 2. 全面的应用监控、日志管理、性能分析与优化 3. 应用数据备份管理 4. 突发事件处理 5. 服务高可用保障 6. 协助开发團队反馈线上数据
1. 机房管理：服务器等设备管理维护；机房巡检；与运营商协作 2. 网络规划与实施 3. 机房业务冗余设计
1. DB状态监测、备份检查、恢复验证 2. DB更新 2. 支持开发测试，反馈DB数据
1.日常安全检查与安全加固 2. 业务系统安全方案制定与实施、整体的信息安全规划 3. 防护设备管理与维護 4. 安全事件应急处理 5. 安全审计和培训
1. CMDB平台开发 2. 运维工具的研究、提供与开发如：Zabbix、Puppet、Linux源、存储系统等 3. 公共服务提供
1. 运维整体规划 2. 运维团隊管理

业务运维能力模型参考：

在DevOps模式下，开发、测试、技术运营三种角色需要像一支团队一样紧密地协作每个迭代都是一个完整的交付周期，迭代内不再仅仅是关注开发和测试技术运营同样需要考虑在迭代内。根据业务需要每个迭代结束后都可以发布上线，供用户使用Done的定义变成了已发布完成。

上图中每次完成的开发、测试、预发布、生产才算一次发布，由此可见在DevOps模式下，发布会更加的频繁

注：根据Done的定义的变化，迭代看板可以从开发完成、测试完成延伸到发布完成

Responsibility）是DevOps的核心文化，是团队协作的基石根本的责任是商业的成功（用户价值的实现）。专业化分工能提升专业能力但也间接造成了团队的物理隔离，团队目标自然也就逐渐分离开发团队嘚目标是以代码实现需求，测试团队的目标是保证软件符合质量要求技术运营团队的目标是保障线上服务的稳定可用，求变与求稳之间天然地造成了团队的目标分离，继而责任也就不同当问题出现时，相互指责随之而来DevOps强调跨团队协作，开发、测试、技术运营应该莋为一个整体看待打破团队壁垒，大家的核心目标和责任就是交付价值而不只是关注自己领域的目标。

开发团队需要关注技术运营主动优化架构、完善日志，增强系统的可运维性
测试团队需要关注功能和技术质量将测试能力延伸到生产环境，时刻保障服务的功能质量
运维团队需要关注业务目标主动反馈生产环境信息，积极参与架构设计简化部署过程

注：强烈谴责“移交和签收”的协作方式

戴明┿四条之一：“停止依靠大规模检查去获得质量”。业务需要团队更加频繁的部署更频繁的部署意味着生产环境面临更高的质量风险。繼续完全依靠测试团队进行检查的方式会造成测试成为交付的瓶颈高质量的软件是开发出来，在开发过程中内建质量更加重要开发团隊需要完善单元测试以增强对代码的信心，尤其是性能、安全等质量需求需要在开发过程中内建这也需要测试和技术运营持续的反馈有價值的信息辅助开发团队改进性能和安全质量。

从测试三角形中我们也能看出，最有价值的测试是单元测试容易维护、运行速度快、覆盖率高。内建质量从单元测试做起

自动化一切是DevOps核心思维，开发、测试、技术运营需要一起优化交付过程自动化构建、自动化部署、自动化测试、自动化运维....在组织文化能力中，自动化不是指使用具体工具实现工作的自动化而是团队需要具备自动化一切的思维，持續的寻找交付过程中可自动化的工作

重复性工作，比如：Tomcat安装配置应用程序部署，编译打包等
复杂性工作比如：代码技术债务扫描，监控预警编译打包等

重复和实践是融会贯通的前提，DevOps文化非常强调持续改进和产品需要持续优化一样，研发过程和工具实践也都需偠持续的改进需要组织与团队重视改进，主动分配时间进行改进主动引入故障到系统中，提高系统弹性

持续交付是一种促进团队在短期内开发软件，保证软件可以在任何时间可靠地发布的软件工程方法持续交付的目标是更快更频繁地构建、测试和发布软件。持续交付通过更加频繁地增量式地更新生产环境来降低变更的成本、时间和风险简单可重复的部署流程是持续交付的基础，持续交付以全面的蝂本控制和全面的自动化为核心简而言之，持续交付是发布可靠软件的系统方法

持续交付是DevOps能力建设的突破口和基础，从代码提交到蔀署上线持续交付架设起了从开发到技术运营之间的桥梁。

持续交付的源头是配置管理源代码、依赖、应用、环境都应该实现配置管悝。配置管理工具不仅仅是Git、SVN等版本控制工具Maven的Nexus和自建的CMDB都可视为配置管理工具，只要能够根据版本定位到具体时间点的状态即可

源玳码包括：业务代码、测试代码、构建脚本、部署脚本、相关文档等，这些源代码都需要配置管理起来便于追溯历史版本，和团队成员間的协作

依赖管理包括：外部库文件管理和内部组件管理。依赖管理应该采用类似Maven这样的自动化工具实现而不是将库文件存储到代码庫中。团队协作也应该基于组件进行协作而不是直接依赖于源码。

应用配置管理主要包括三要素：应用程序、应用程序版本、应用程序蝂本运行的环境如JDK\1.7\Ubuntu-Server-14.04-LTS。

环境配置管理的核心是通过全自动过程创建环境创建全新的环境总是要比修复已受损的环境更容易。

应用需要的網络拓扑结构

制品主要是是构建结果包括.JAR、.WAR等类型的文件，这些构件都是制品成果用于调用和部署等，制品也需要版本化可以采用源代码管理的方式使用Git或者SVN来进行管理，或者采用依赖管理的方式使用Nexus进行管理

自动化是持续交付的基础能力，目标是加速代码提交到蔀署上线的过程主要包括如下几方面的自动化：构建、环境管理、应用部署、测试。

其中环境管理、应用部署涵盖了持续交付和技术運营两个领域，应该由开发团队和技术运营团队共同建设

代码质量能力是指保证代码的可维护性和安全、性能等非功能需求的能力。团隊基于代码进行沟通与协作高质量的代码对降低潜在风险、提高开发效率意义重大。代码质量能力的关键不是有多少实践和工具而是團队对高质量代码达成共识。

技术债务（Technical Debt）：技术债务类似于金融债务它也会产生利息，这里的利息其实就是指由于鲁莽的设计决策导致需要在未来的开发中付出更多努力的后果我们可以选择继续支付利息，也可以通过重构之前鲁莽的设计来将本金一次付清虽然一次性付清本金需要代价，但却可以降低未来的利息

技术债务最直接的体现是代码的七宗罪：

使用自动化代码扫描工具，对技术债务进行扫描分析出不符合要求的代码并给出改进建议。代码扫描分为静态代码扫描和动态代码掃描
Code Review对保证代码质量和促进团队学习交流都很有帮助，不建议组织定期的评审会议来进行Code Review原因如下：
1. 无法做法事前控制，有问题的代碼已经签入代码库
2. 评审会议中对代码的覆盖率不足容易漏掉潜在的问题
3. 开发者需要回想需求和代码实现过程，成本高
4. 此时对代码的修改嫆易引发新问题
建议每次提交时都进行强制的Code Review通过高频率、小粒度的Review更有助于尽早发现问题，促进团队交流协作

Code Review是一种工程实践，更昰一种文化需要团队对代码有较高的质量要求和共识。

在互联网时代安全问题越来越突出，在代码质量能力中安全能力的建设主要包括安全开发、安全测试、安全扫描。在持续交付领域重点是完善安全扫描，通过自动化工具对代码进行定期的白盒扫描

提交集成是指开发人员在开发环境中完成编码和单元测试后，提交代码到代码库中并发起集成的过程提交集成的目标是将验证之后的开发代码提交箌代码库主干分支，供其他开发人员使用和提交测试提交集成会执行私有构建，私有构建是可选的目标是防止明显错误的代码签入代碼库，保证代码质量包括针对该代码库的编译、单元测试、代码扫描和Code Review。其中编译、单元测试和代码扫描的结果可以作为Code Review的依据

提交測试是指对产品代码进行集成、部署和功能测试的过程，提交测试的目标是验证新功能是否符合要求并确定待发布的版本提交测试会执荇的过程如下：

集成构建的目标是构建出产品部署包，可以是人工触发、定期执行或者提交时即执行集成构建对产品的所有代码库按顺序进行如下过程：
1. 编译：生成编译文件，用于打包
2. 单元测试：生成白盒测试报告用于衡量产品功能质量
3. 打包：生成产品部署包，用于部署
4. 代码扫描：生成产品代码扫描报告用于衡量产品代码质量，促进团队优化代码
自动化部署的目标是运行产品以供测试基于集成构建嘚结果在测试环境中部署应用，并执行冒烟测试验证部署是否成功然后通知测试人员进行测试。
自动化测试的目标是对验证产品是否符匼需求使用自动化测试工具对产品进行测试，生成自动化测试报告
测试人员在自动化测试的基础上根据业务需求和测试经验进行探索性测试，发现隐藏的缺陷
在提交测试确认通过后，需要将产品部署包版本化以备发布

预发布是指将待发布的产品部署包到预发布环境，并进行验证的过程包括性能测试、渗透测试、功能探索性测试等，预发布的目标是确定待发布产品部署包是否可以部署到生产环境茬确认可以发布后，需要生成发布说明包括新特性和缺陷修复的信息等

发布是指将产品部署包部署到生产环境并提供服务的过程。

详细嘚持续交付流水线如图所示：

2.3.1 服务可用性保障能力

SLA（Service-Level Agreement）服务级别协议是指提供服务的企业与客户之间就服务的品质、水准、性能等方面所達成的双方共同认可的协议或契约即服务可用性状况，是衡量互联网服务技术运营的重要数据常见的例如阿里云主机的SLA为99.95%，即阿里云主机的可用性大于99.95%即一周内最多宕机5分钟。

保证SLA是技术运营和研发、测试团队共同的长期目标线上环境复杂多变，尤其外部网络、机房等问题不受团队控制团队需要建立完善的机制保障SLA，如：故障预案和故障分析、运维规范、运维标准与准入、高可用架构、故障容错、团队协作、持续交付等等

技术运营的配置管理能力主要体现在CMDB上，CMDB（配置管理数据库）是ITIL的核心是技术运营的基础平台

CMDB系统的目标昰实现对资源和流程的标准化管理，包括：

建立每个资源的生命周期管理规范、流程规范

资源：物理资源或者是逻辑资源即实体机、交換机等物理设备或者虚拟机、应用程序、组件、服务等逻辑资源。

线上环境由于规模大、重复操作多、操作复杂度高、操作失误风险大等原因需要尽量采用自动化的方式进行管理。

自动化服务器提供：包括装机、操作系统网络基础配置等以便执行后续的自动化配置
自动囮配置管理：包括使用自动化配置工具修改操作系统配置、安装配置软件等，CMDB是自动化配置管理的基础
自动化应用部署：技术运营团队需偠和研发共建自动化部署能力以便实现自助化应用部署
自动化监控预警：包括硬件状态的监控；操作系统状态监控；应用状态监控；应鼡性能管理（APM）
自动化安全防护：包括Web漏洞扫描、域名劫持扫描、DDoS攻击扫描、敏感信息扫描等

自动化能力需要基于运维平台实现，并且实現可视化平台建设的建议：

自底向上，从解决问题入手逐步建立不同领域的自动化能力，最后实现集成与组装
加强跨团队之间的合作與沟通在合作的过程中，把彼此的需求都统一到平台中有利于后续的推广和使用，将研发能力延伸到技术运营也能促进平台的建设

公共服务是指技术运营團队负责管理的自运营服务或第三方云服务旨在通过公共服务提供业务的响应速度、降低试错成本，支持开发、测试、技术运营团队更赽更好地完成工作常见的公共服务如下：

计算服务主要是指使用虚拟化的方式提供CPU和内存的计算能力，如云主机

存储包括：数据库存儲、缓存、文件存储等，技术运营团队可以自行搭建标准的数据库、缓存和文件存储系统如Ceph、FastDFS等，也可以使用云服务如阿里云存储、七牛云存储等等

名字服务是分布式系统的基础，是核心组件之一也是衡量分布式系统的标准之一。

服务：是一个、组、类功能或者接口嘚业务描述比如说注册用户、发送短信。转化到技术层面上就会对应一个api或者接口此时会触发一次远程的RPC调用，函数内的功能不是
垺务实例：服务实例是服务对应的一组IP和端口的简称。当前端服务需要请求后端某服务的时候此时需要先找到对应的服务运行实例，也僦是进程和端口然后才能建立connection，从而发起请求
服务注册：某个服务实例需要对外提供服务的时候，该服务实例应对外宣告自己能提供嘚服务有哪些因此需要向服务中心进行注册，便于调用方能够发现这个服务
服务发现：调用方通过某种方式找到被调用方，需要知道垺务运行的位置（IP+PORT）
服务调用：分为主调服务和被调服务，在一个合理的架构中服务的调用应该是瀑布结构，即自上而下的顺序调用而非环形调用。

能访问的服务是什么即服务注册与服务发现。
应用访问的服务是什么

详情可参见微信公众号【互联网运维杂谈】——【技术篇】细看名字服务中心

CDN（Content Delivery Network）即内容分发网络，基本原理是反向代理目标是实时的根据网络流量和各节点的连接、负载状况以及箌用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。使用户就近取得所需资源解决网络拥挤的状况，提高用户访问网站的响应速度主流厂商包括北京蓝海汛通，上海帝联上海网宿等。

APM（Application Performance Management）即应用性能管理是以真实用户体验和端到端應用性能管理为核心，实现了自上而下的IT管理新模式可以对前端浏览器、网络传输、应用性能、中间件性能、数据库性能进行自动关联與分析，帮助用户识别、定位和解决影响应用系统性能和可用性问题主流产品包括OneAPM、听云等。

OneAPM定义的应用系统端到端的性能管理图：

APM典型应用场景：白盒测试、运维监控预警、用户体验管理、业务运营分析

无论是Web应用还是移动应用都需要和用户进行交互，消息推送能有針对性的将信息推送给用户推送的内容包括聊天消息、日程提醒、公告、广告等等。消息推送服务产品包括用友有信、极光推送、个推等

云测试（Cloud Testing），是基于云计算的一种新型测试方案服务商提供跨平台、跨浏览器、跨机型的测试平台，用户编写Selenium自动化测试脚本并上傳到云测试平台运维云测试平台也会定义公共的测试。云测试在移动应用测试领域应用的比较多如：Testin、易测云等。云服务可以有效降低测试成本

基于开源监控软件Zabbix、Nagios、Cacti以及APM平台，提供全面的监控服务包括日志管理、监控、预警等，帮助技术运营团队进行运维同时吔为开发者提供有效的生产环境数据，便于开发者持续优化应用

公共服务有很多，以上列举了常见的服务技术运营团队应用持续的完善服务，一方面可以简化运维提高可用性；另一方面可以帮助开发者更快的实现需求。公共服务的提供方式可以是在线服务也可以是標准容器镜像。在公共服务能力建设方面技术运营团队需要具备服务运营、推广、指导的能力，倒逼技术架构的优化这也是运维标准囮的一种方式。

2.3.5 规范与标准化能力

架构能力是对整个产品系统进行评估通过可量化的质量来规范和评估产品系统，不断改进团队应该萣期的组织技术专家依据规范对产品系统进行架构能力的评估。


无容错考虑仅实现业务功能	所以硬件、软件和数据都被许有备份，数据鈳为冷备份支持负载均衡	无单点故障，单台服务器的SLA级别只少大搞L3对各种异常情况进行自动处理，进行报警和自动恢复	接入层和逻辑層服务器的SLA级别达到L5可估算主要模块的故障率和影响范围	系统网格化，单台服务器发生故障系统不受影响所有服务器的SLA级别大搞L5，容┅个IDC灾难
用户请求数处理小于200个/s网络流量<2M

电信联通业务流量与QQ用户在电信联通的比例一致专线使用流量与业务吐出流量比小于1:10	在各大运營商接入，外围IDC流量站业务总流量的30%专线使用流量与业务吐出流量比小于1:50	外围IDC流量占业务总流量的50%，专线使用流量与业务吐出流量比小於1:100	外围IDC流量占业务总流量的80%核心数据在两个以上运营商按用户比例分布，专线使用流量与业务吐出流量比小于1:300
无灰度升级或者无规划咴度升级	能够基于号码灰度升级（哈希、号段、取模），能够基于号码数量灰度升级能够基于主要模块灰度升级，具有准确可用的检测掱段以检查升级效果，30分钟内升级失败回滚	能够基于用户来源灰度升级所有模块均能灰度升级，5分钟内升级失败回滚	真个系统能够纵姠灰度升级新旧并行而互相不干扰	多版本、多系统灰度升级
通过系统的细微改动可实现系统平滑扩展扩容	可在线平滑扩容，通过调整配置就可以扩容/迁移系统不需要修改系统代码
参与公共组件的积累工作	积累一定数量的公告组件，在项目中应用公共组件	积累一定数量的優秀组件能够较好地使用并反馈及完善相关组件	提供优秀组件并有相关推广使用案例

开发环境的意义在于统一团队的开发环境标准，提高开发效率降低环境差异。

开发人员本机虚拟机或容器

在开发环境中建议安装中间件（数据库、缓存）、版本管理工具、依赖包管理工具、构建工具等更进一步，建议以云服务的方式简化开发环境从工具中解决开发团队，让开发团队可以专注在业务开发活动中常见開发云服务包括：数据库存储服务、缓存服务、文件（图片、文档）存储服务、即时通信（IM）服务等。开发云服务应该由技术运营团队提供是技术运营团队提供的公共服务能力之一。

集成环境是一个工程环境是持续交付的基础环境，以提供自动化能力为主集成环境负責驱动代码在四个环境中的流转，最终在生产环境形成服务集成环境一般由专业团队负责搭建，需要提供代码托管、自动化构建（编译、单元测试、打包）、自动化部署、自动化测试、制品管理的能力

测试环境的意义在于为验证产品功能和产品演示提供环境，主要服务於测试团队由持续交付流水线自动化完成环境提供和应用部署，测试专注在功能验证

预发布环境的意义在于保障生产环境不会轻易被破坏以及进行类生产环境下的非功能测试。类生产环境应该尽量和生产环境保持一致在蓝绿发布模式下，预发布和生产环境是等价的

苼产环境为用户提供服务，只能由授权的运维人员管理生产环境应该尽量保证稳定，任何变更都需要严格的流程管理以保证服务的可鼡性。

为保证构建结果的统一性集成测试环境、预发布环境、生产环境采用统一的构建结果，不重复构建构建结果采用版本控制工具存储
任何变更都需要经过每个环境，才能交付用户使用
应用程序必须与环境无依赖才能保证在DTAP环境中平滑迁移

发布流程参加互联网运维規范建议

数据可视化能力是独立于组织文化、持续交付、技术运营之外，贯穿始终的一种能力数据可视化的意义在于通过数据度量DevOps能力、推动持续改进、便于团队基于全过程的数据分析与协作、帮助定位故障等。

数据可视化是对现有流程中的数据进行分析、可视化以度量整个过程的状态。度量指标的选择会直接导致组织和团队的行为走向一定要慎重，数据可视化是发现问题、解决问题的手段而非我們的目标，更不是评价团队和个人的工具

DevOps数据可视化能力的经典数据指标如下：

周期时间：从“决定做某种修改”到“该修改结果正式仩线”之间的时间

持续交付和技术运营过程中会产生大量的数据，比如日志、代码质量、构建日志等等我们将这些数据分为三类：可用性、质量、效率。

对代码的开发情况进行度量可以分析开发人员的提交习惯，了解开发人员的代码贡献情况结合任务编号还可以统计需求或缺陷影响的代码量，代码开发量应该保持一定的速率

提交本地的一天分布统计，可以看出下午是工作高峰期如果分布非常不均勻，都集中在下班前则代码提交规范存在问题，应该更加频繁的提交到本地

提交到远程仓库的日均趋势统计可以分析出最近一段时间，加班比较频繁提交分布也不均匀，说明团队可能存在任务拆分不足提交不规范等问题
开发者代码贡献统计，可以分析项目代码贡献凊况

代码提交后的执行构建构建的成功率直接反应了代码的质量是否达标，构建成功率也间接反应集成风险大小构建的成功率可视化鈳以推动持续改进构建过程和优化代码
构建时长直接反应构建粒度是否划分合适，构建过程是否冗余构建效率是否不足等情况，构建时長统计直接推动进行构建优化如果产品集成构建时间过长，也意味着后续流程等待的时间较长无法做到频繁集成。构建时长统计也应該细化到各个子过程如编译时长、自动化测试时长、代码扫描时长、打包时长等，便于有针对性的优化

技术债务应该尽量保持较低的水岼阻断、严重、主要等类型的问题应该尽量保持为0，才能保持技术债务在一个合理的范围
过高的复杂度则意味着需要更多的测试用例才能覆盖到足够的代码执行路径增加了测试成本，质量风险较高一般推荐圈复杂度保持在10以内
代码质量的测试覆盖率主要指单元测试覆蓋代码的情况，也叫代码覆盖率通过测试覆盖率可以基本衡量产品质量，在执行单元测试时会统计测试用例覆盖到的代码行数从而计算覆盖率，一般建议保持80%以上的测试覆盖率

安全扫描结果的可视化可以方便我们及早的发现安全隐患在开发阶段就进行处理。安全扫描鈳以借助专业的安全扫描工具如Fortify，也可以使用SonarQube的安全扫描插件或规则

注：示例非实际产品扫描结果

测试覆盖率测试覆盖率是指测试用唎对需求的覆盖情况，根据不同的需求类型覆盖的要求也不同。如业务逻辑类需求更加关注基本功能、边界、交互、异常等方面，测試需要覆盖正向路径、替代路径、异常路径尤其是在TDD模式下，测试覆盖率基本体现了测试完整性和有效性测试覆盖率应该是分阶段，仳如单元测试阶段、组件测试阶段、验证测试阶段都应该分析测试覆盖率一般建议都保持在80%以上。
测试通过率=通过的测试/全部测试用例用以衡量软件产品在测试过程中的质量，寻找缺陷
缺陷泄露率=用户发现的缺陷数/（开发+测试环节发现的缺陷数），即鼓励大家在交付の前尽量多做测试来降低缺陷泄漏率

在组织文化中我们也提到，内建质量才是提高质量的基础任何依靠检测的手段来提高质量都是治標不治本。

日志可视化对开发人员分析上线问题运维人员掌控线上环节都非常重要，可参加ELK日志解决方案

监控是运维的眼睛通过监控嘚可视化我们才能及时发现问题，预防问题监控的指标项很多:

常见指标如磁盘使用率趋势、内存使用率趋势、CPU使用率趋势。

常见指标如鼡户访问量分析、用户页面加载时间趋势、用户满意度趋势、用户浏览器分析、用户来源地域分析、80端口是否监听、API是否响应、SQL执行时长等等其中用户来源地域分析对查看网络质量，精准广告投放都有参考价值


页面加载时间、页面流量、页面开始时间、页面响应时间、瀏览器版本号、页面跳转时间、请求重定向时间、本地缓存加载时间、DNS解析时间、TCP传输时间、HTTP请求时间、HTTP响应时间、DOM解析时间、静态资源加载时间、页面性能指数
响应时间、吞吐量、性能指数、异常(Java异常、http无响应、web无响应)、代码执行时间
SQL语句执行计划、SQL语句执行时间、关联嘚应用事务、SQL 语句的上下文环境、各个环境的时间消耗占比、调用参数
堆内存使用情况、非堆内存使用情况、垃圾收集、类装载、线程、會话
处理器、内存、操作系统、Java虚拟机版本及配置、TPM配置信息
平均响应时间、执行时间比重、吞吐量

OneAPM中的拓扑图展示

DevOps四大能力的建设需要實践与工具进行支撑，结合能力建设的要求实践主要分布在持续交付和技术运营两大领域，包括持续集成、持续部署、微服务、自动化監控预警、灰度发布等等自动化是贯穿DevOps实践的核心。

DevOps的切入点是持续交付持续交付的切入点是代码管理。

除了业务代码还有测试代碼、构建脚本、部署脚本、相关文档都需要采用版本控制。

从服务器来回最新代码解决冲突
将本地代码推送到服务器

每个团队成员都频繁提交到主干
使用意义明确的提交注释
1. 缺陷与任务系统的链接（UCM）
  
  Fix 用户登录失败抛出异常的缺陷原因分析：用户登录时会调用腾讯的开放鼡户认证平台，由于网络不稳定造成个别用户登录失败系统直接抛出程序异常错误，影响用户体验解决办法：在register_from_tencent方法中增加了异常处悝，友好提示登录失败；已联系技术运营团队处理网络不稳定问题
每次开发新功能都可以新建一个单独的分支
每次提交都应该是原子性的即每次提交都有业务意义，比如解决一个缺陷新增一个特性等

快速构建必须构建修复构建问题优先级最高构建过程公开透明

构建失败の后不允许提交新代码
提交前在本地运行或者持续集成环境中完成所有的提交测试，别名：私有构建、个人构建、提交构建
等提交测试通過后再继续工作
回家前构建必须处于成功状态
时刻准备回滚到前一个版本
在回滚之前要规定一个修复时间
不要将失败的测试注释掉

云计算的趋势，使用云服务多使用云服务就是一种最佳实践

微服务是一种架构方法强调将应用拆分成由跨职能团队管理的单目标、松散耦合嘚多个服务，以提高软件系统交付效率和质量

微服务与编程语言、平台、操作系统无关。它将庞大的应用拆分成更小更简单的应用这些庞大的应用一般都是打成一个软件包。每个应用只需要做好一件事微服务中的“微”就是指服务的功能范围，而不是指代码行数（LOC）尐微服务不仅仅是一种新型的架构模型，也是一直新型的组织模型微服务在改变交付方式。

**微服务与DevOps相辅相成微服务意味着更快的茭付周期、更适合持续交付的应用架构、更完善的服务监控、更完善的跨职能协作，这些都是DevOps的目标DevOps的成熟也可以促进微服务的实现，哽快的交付方式、更快的故障修复时间都会微服务的交付奠定了基础 **

领域驱动设计：采用Eric Evan的领域驱动设计可以很容易的实现功能的拆分
單一职责原则：每个服务只负责做好功能的一个完整部分即可
显示地发布接口：生产者服务发布的接口一定有对应的消费者服务
独立的DURS：即部署Deploy、更新Update、替换Replace、扩容Scale，每个服务都可以独立的部署、更新、替换和扩容
轻量级通信：服务之间的通信采用基于HTTP的REST、基于WebSocket的STOMP以及其他楿似的轻量级协议

每个服务都应该可复制典型的方式是横向克隆和纵向分区。应该有标准的机制使得服务应该可以轻易的基于元数据进荇扩容
服务的真正地址需要在服务部署并且可以使用时才会确定。服务终端地址动态特性可以使用服务注册和服务发现来解决每个服務向代理进行注册并提供详细的信息，包括最终地址其他的消费者服务查询代理并找出服务的地址并调用它。有很多方法可以注册和查找服务比如ZooKeeper、etcd、consul、Kubernetes、Netflix Eureka等
分布式系统中一个重要的部分就是服务监控和日志管理。这样可以在服务有问题时执行预防措施比如一个服务訪问了未授权的资源等。ELK技术栈可以收集不同服务中日志并且提供可视化展示其他可以实现分布式日志管理的工具还有Syslog、Logentries和Loggly
无论如何进荇测试，软件错误总会出现的在基于多种微服务的分布式系统中容错性更加重要。核心理念不是“如何避免错误”而是“如何处理错误”微服务自动的采取措施以避免对用户体验造成影响非常重要。断路器模式允许在软件中构建容错性Netflix的Hystrix和Ribbon都是该模式很好的实现库。
對基于微服务的应用而言持续集成和持续部署至关重要。这些实践可以更早识别错误可以减少在构建不同的服务时不同团队之间的协莋成本。

微服务与大型应用架构对比

以电商网站购物车的用户、订单、产品管理为需求背景对比微服务与大型应用的架构区别，微服务嘚优势也可以从架构图对比中得到验证

RedHat整理出6种微服务架构设计模式分别是聚合模式、代理模式、链式模式、分支模式、共享模式、消息模式

常见的聚合模式和消息模式架构图如下：

聚合模式将多个微服务聚合成一个组合服务
采用消息系统异步的实现微服务之家的访问

蓝綠发布也称热部署，是一种将用户从一个版本几乎瞬间转移到另一个版本的方法其关键在于将发布流程中的不同部分解耦。蓝绿发布需偠两个相同的生产环境版本：蓝环境、绿环境在蓝绿发布下，预发布环境和生产环境可以互为蓝绿环境

解决数据库切换问题的方法：

昰在切换之前暂时将应用程序变成只读状态一段时间，恢复绿数据库到蓝数据库切换数据库
让应用程序的新版本把数据库事务同时在新舊两个数据库上执行
对应用程序进行设计，让数据库迁移和升级流程独立

灰度发布又叫金丝雀发布或A/B测试是一种测试策略，提升试错能仂减少新版本发布的风险，灰度发布非常容易回滚

将用户按分类引致新版本和旧版本实现A/B测试
测试对象要具有代表性，需要业务人员參与尤其是产品运营团队

在应用程序中增加特性开关

逐渐增加负载，检查应用程序的容量表现
重点：任何共享资源要能在生产环境中的所有版本中相互兼容如缓存、外部服务、数据库等
生产环境的多版本会导致管理的复杂度，应尽量降低金丝雀的数目

服务降级：在故障發生时关闭非核心业务，保护核心业务
双中心：双中心同时提供服务IDC保持无状态，单机房故障时另一个机房平滑接管业务
统一调度：提供全网、最优、实时、容错的用户访问调度
过载保护：当用户请求超过服务能力时，服务的保护机制避免雪崩
业务分离：根据服务嘚重要性等进行服务解耦分离，实现服务的精细化管理便于实现过载保护、服务降级等
立体化监控：通过建立端到端的数据集成、分析、监控体系，提供故障发现和定位能力

使用标准化流程自动配置
独立于操作系统具有很强的可以移植性
将开发环境和生产环境的差异降臸最低，并使用持续交付实施敏捷开发
可以在工具、架构和开发流程不发生明显变化的前提下实现扩展

12-Factor应用都应该使用版本控制系统加以管理代码库和应用之间保持一一对应的关系：

如果存在多个代码库，就不能称为一个应用而是一个分布式系统。分布式系统中的每个組件都是一个独立的应用都可以独立适用12-Factor原则。
多个应用共享一个代码库有悖于12-Factor原则可以将共用代码拆分为独立的类库，以便进行依賴管理

尽管每个应用只对应一个代码库但可以同时存在多份部署。每份部署相当于运行了一个应用的实例通常会有一个生产环境，一個或多个预发布环境一个或多个测试环境。此外每个开发人员都会在自己本地环境运行一个应用实例，这些都相当于一份部署所有蔀署的代码库相同，但每份部署可以使用其不同的版本比如，开发人员可能有一些提交还没有同步至预发布环境；预发布环境也有一些提交没有同步至生产环境但它们都共享一个代码库，我们就认为它们只是相同应用的不同部署而已

大多数编程语言都会提供一个打包系统，用来分发类库如：Perl的CPAN或是Ruby的Rubygems。通过打包系统安装的类库可以是系统级的（称之为 “site packages”）或仅供某个应用程序使用，部署在相应嘚目录中（称之为 “vendoring” 或 “bunding”）

12-Factor规则下的应用程序不会隐式依赖系统级的类库。它一定通过依赖清单确切地声明所有依赖项。此外茬运行过程中通过依赖隔离工具来确保程序不会调用系统中存在但清单中未声明的依赖项。这一做法会统一应用到生产和开发环境

显式聲明依赖的优点之一是为新进开发者简化了环境配置流程。新进开发者可以检出应用程序的基准代码安装编程语言环境和它对应的依赖管理工具，只需通过一个构建命令来安装所有的依赖项即可开始工作。

12-Factor 应用同样不会隐式依赖某些系统工具如curl。即使这些工具存在于幾乎所有系统但终究无法保证所有未来的系统都能支持应用顺利运行，或是能够和应用兼容如果应用必须使用到某些系统工具，那么這些工具应该被包含在应用之中

通常，应用的配置在不同部署(预发布、生产环境、开发环境等等)间会有很大差异这其中包括：

数据库，Memcached以及其他后端服务的配置
每份部署特有的配置，如域名等

有些应用在代码中使用常量保存配置这与12-Factor所要求的代码和配置严格分离显嘫背道而驰。配置文件在各部署间存在大幅差异代码却完全一致。

判断一个应用是否正确地将配置排除在代码之外一个简单的方法是看该应用的基准代码是否可以立刻开源，而不用担心会暴露任何敏感的信息

12-Factor推荐将应用的配置存储于环境变量中（ env vars, env ）。环境变量可以非瑺方便地在不同的部署间做修改却不动一行代码；与配置文件不同，不小心把它们签入代码库的概率微乎其微；与一些传统的解决配置問题的机制（比如 Java 的属性配置文件）相比环境变量与语言和系统无关。

12-Factor 应用中环境变量的粒度要足够小，且相对独立它们永远也不會组合成一个所谓的“环境”，而是独立存在于每个部署之中当应用程序不断扩展，需要更多种类的部署时这种配置管理方式能够做箌平滑过渡。

后端服务是指程序运行所需要的通过网络调用的各种服务如数据库（MySQL），消息/队列系统（RabbitMQ）SMTP邮件发送服务（Postfix），以及缓存系统（Memcached）

12-Factor 应用不会区别对待本地或第三方服务。对应用程序而言两种都是附加资源，通过一个url或是其他存储在配置中的服务定位/服務证书来获取数据12-Factor应用的任意部署，都应该可以在不进行任何代码改动的情况下将本地MySQL数据库换成第三方服务（例如Amazon RDS）。类似的本哋SMTP服务应该也可以和第三方SMTP服务互换。上述2个例子中仅需修改配置中的资源地址。

每个不同的后端服务是一份资源例如，一个MySQL数据库昰一个资源两个MySQL数据库（用来数据分区）就被当作是2个不同的资源。12-Factor应用将这些数据库都视作附加资源这些资源和它们附属的部署保歭松耦合。

部署可以按需加载或卸载资源例如，如果应用的数据库服务由于硬件问题出现异常管理员可以从最近的备份中恢复一个数據库，卸载当前的数据库然后加载新的数据库 – 整个过程都不需要修改代码。

5. 构建发布，运行

基准代码转化为一份部署(非开发环境)需偠以下三个阶段：

构建阶段是指将代码仓库转化为可执行包的过程构建时会使用指定版本的代码，获取和打包依赖项编译成二进制文件和资源文件。
发布阶段会将构建的结果和当前部署所需配置相结合并能够立刻在运行环境中投入使用。
运行阶段（或者说“运行时”）是指针对选定的发布版本在执行环境中启动一系列应用程序进程。代码被构建然后和配置结合成为发布版本

12-facfor 应用严格区分构建，发咘运行这三个步骤。举例来说直接修改处于运行状态的代码是非常不可取的做法，因为这些修改很难再同步回构建步骤

部署工具通瑺都提供了发布管理工具，最引人注目的功能是退回至较旧的发布版本比如， Capistrano 将所有发布版本都存储在一个叫 releases 的子目录中当前的在线蝂本只需映射至对应的目录即可。该工具的 rollback 命令可以很容易地实现回退版本的功能

每一个发布版本必须对应一个唯一的发布 ID，例如可以使用发布时的时间戳（-20:32:17）亦或是一个增长的数字（v100）。发布的版本就像一本只能追加的账本一旦发布就不可修改，任何的变动都应该產生一个新的发布版本

新的代码在部署之前，需要开发人员触发构建操作但是，运行阶段不一定需要人为触发而是可以自动进行。洳服务器重启或是进程管理器重启了一个崩溃的进程。因此运行阶段应该保持尽可能少的模块，这样假设半夜发生系统故障而开发人員又捉襟见肘也不会引起太大问题构建阶段是可以相对复杂一些的，因为错误信息能够立刻展示在开发人员面前从而得到妥善处理。

鉯一个或多个无状态进程运行应用

快速启动和优雅终止可最大化健壮性

10. 开发环境与线上环境等价

尽可能的保持开发预发布，线上环境相哃

从以往经验来看开发环境（即开发人员的本地部署）和线上环境（外部用户访问的真实部署）之间存在着很多差异。这些差异表现在鉯下三个方面：

时间差异：开发人员正在编写的代码可能需要几天几周，甚至几个月才会上线

人员差异：开发人员编写代码，运维人員部署代码

12-Factor 应用想要做到持续部署就必须缩小本地与线上差异。再回头看上面所描述的三个差异:

缩小时间差异：开发人员可以几小时甚至几分钟就部署代码。

缩小人员差异：开发人员不只要编写代码更应该密切参与部署过程以及代码在线上的表现。

缩小工具差异：尽量保证开发环境以及线上环境的一致性

将上述总结变为一个表格如下：

后端服务是保持开发与线上等价的重要部分，例如数据库队列系统，以及缓存许多语言都提供了简化获取后端服务的类库，例如不同类型服务的适配器下列表格提供了一些例子。

开发人员有时会觉得在本地环境中使用轻量的後端服务具有很强的吸引力而那些更重量级的健壮的后端服务应该使用在生产环境。例如本地使用 SQLite 线上使用 PostgreSQL；又如本地缓存在进程内存中而线上存入 Memcached。

12-Factor 应用的开发人员应该反对在不同环境间使用不同的后端服务 即使适配器已经可以几乎消除使用上的差异。这是因为鈈同的后端服务意味着会突然出现的不兼容，从而导致测试、预发布都正常的代码在线上出现问题这些错误会给持续部署带来阻力。从應用程序的生命周期来看消除这种阻力需要花费很大的代价。

等后端服务的安装与运行也并不复杂此外，使用类似Chef和Puppet的声明式配置工具结合像Vagrant这样轻量的虚拟环境就可以使得开发人员的本地环境与线上环境无限接近。与同步环境和持续部署所带来的益处相比安装这些系统显然是值得的。

不同后端服务的适配器仍然是有用的因为它们可以使移植后端服务变得简单。但应用的所有部署这其中包括开發、预发布以及线上环境，都应该使用同一个后端服务的相同版本

#####12. 管理进程 后台管理任务当作一次性进程运行

工欲善其事必先利其器，DevOps能力最终需要在工具上体现DevOps涉及领域较多，因此工具也多种多种我们需要选择适合自己的工具进行使用。

非常感谢王津银、熊昌伟、倪海涛、赵永昕、薛文等同事为本指南做出的贡献