时长10:39大小9.77M
你好,我是葛俊,曾在 Facebook 内部工具组工作,与两个同事共同负责软件研发工具套件 Phabricator 的开发和开源,是Phabricator的主要作者之一。
最近这十年,国内互联网产业的发展速度不亚于硅谷,在商业模式创新方面甚至已经完成超越,但是我们在研发效能方面始终比较落后。今年年初爆发的 996 大讨论,让国内的加班问题,吸引了国内外开发者的关注。我们很难予以否认,在互联网行业繁荣发展的背景下,国内很多公司采用了“拼工时”的做法,却忽略了最最应该关注的研发效能。
现在,我想请你回忆下,你是否也曾为下面这些问题感到困扰呢?
这其实就是团队的研发效率,也就是研发效能出现了问题。那么,研发效能到底是什么呢?
一提到研发效能,很多人的第一反应可能都是开发的速率,也就是研发团队能否快速发布产品。但在我看来,速率只是效能的三大支柱之一。
除了快,产品开发更重要的是方向正确,因为不能给用户和公司真正提供价值的产品,做了也是白做。另外,高效能还需要有可持续性,否则短期的高产出可能会严重伤害长期的产出。比如,连续熬夜加班带来的身体问题,会导致后续工作效率低下,得不偿失。
因此,研发效能的完整定义应该是:团队能够持续地为用户产生有效价值的效率,包括有效性(Effectiveness)、效率(Efficiency)和可持续性(Sustainability)三个方面。简单来说,就是能否长期、高效地开发出有价值的产品。
可喜的是,国内越来越多的公司开始在研发流程、工具、文化等方面下功夫,很多百人研发人员规模的公司开始组建了专门的效能团队,来提高整个公司的研发效能。
这是一个很好的现象和趋势。但,很多公司在推进研发效能的时候,常常不知道从何下手,或者是花了精力、加大了投入却看不到效果,产出抵不上投入。比如,我在一些公司做内训和顾问工作的时候,经常会遇到下面这样的案例:
这些问题的根源都在于,软件开发的灵活性决定了研发效能提升的困难性:可以关注的点太多,可以使用的方法也很多,但如果只是简单照搬业界研发实践的话,效果往往不好,有时甚至会造成负面效果。
而与国内公司形成鲜明对比的是,硅谷的互联网公司在推进研发效能方面做得要好得多。在 2000 年互联网泡沫之后,美国的互联网产业从疯狂增长进入到了“精耕细作”的阶段,需要通过比拼效能在竞争中取得优势,并在此过程中积累了很多经验。
在这其中,Facebook 的研发效能非常高,更是硅谷公司中的一个典范。比如,早在 2012 年 Facebook 月活达到 10 亿的时候,后端服务及前端网站的部署,采用的是每周一次全量代码部署、每天一次增量代码部署,以及每天不定次数的热修复部署,但部署人员就只有三个,达到平均每个部署人员支撑 3.3 亿用户的惊人效率。
又比如,社交网络出现 Bug 的时候,调测起来非常麻烦。因为要复现 Bug 场景中错综复杂的社交网络数据,困难并且耗时。但在 Facebook,它采用开发环境跟生产环境共享一套数据的方法。这就使得开发人员可以非常方便地在自己的机器上复现这个 Bug,进行调测。当然,这样的数据共享机制背后有着强大的技术和管理支撑来规避风险。
2010 到 2013 年之间,我在 Facebook 基础平台团队的内部工具组,作为核心成员,研发并开源了研发工具套件 Phabricator。2013 到 2015 年,我又作为效能工具的使用者,参与了 Facebook 对外产品的研发。也正因为这几年的工作,我对 Facebook 如何提高研发效能有了越来越清晰的理解,认识到研发效能的提高,需要整个公司在研发流程、工程方法、个人效能和文化管理等方面进行精心设计。
离开 Facebook 之后,我在硅谷的 Stand Technologies 公司、国内的创业公司以及华为担任过技术总负责人、CTO、技术专家和团队主管等角色,带领百人技术团队进行研发。
比如,2017 年到 2018 年,我在华为开发工具部主导下一代集成开发工具环境,为软件开发工程师提供全栈的端云一体工具平台,服务于 2 万多开发者,致力于提高公司整体的研发效能。同时,我也尝试将研发效能的工程实践引入华为。比如,我在团队进行了几次黑客松(Hackathon),每次活动,平均 10 个开发者就产生一个项目,每 10 个项目中就有 1.5 个成功落地。
工作 15 年来,我在研发效能团队工作过,也在产品团队中推动过研发效能,这其中包括硅谷和国内的公司,也包括大型企业和创业公司。对怎样在一个公司或者团队引入效能实践,有比较丰富的经验。
所以,当极客时间团队邀请我写一个与研发效能相关的专栏时,我毫不犹豫地就答应了,希望能够借此把之前的经验、教训做一次系统地梳理,帮助到同样对效能有期待同时又有困惑的同行者,另外对自己也是一次温故知新的机会。
在这个专栏中,我会从 4 个方面,分 5 个模块与你讲清楚如何做到研发的高效能。
研发效能和软件开发一样,都具有很大的灵活性,提高研发效能也不是照搬照套就能做好的。所以在写作专栏的过程中,我会着重讲解 Why,带你深入了解效能实践背后的原理,然后才给出 How,也就是具体的实践。因为只有深刻理解原理,才能灵活运用。
同时,我会与你分享尽量多的案例,带你一起了解国内外一些公司的优秀做法,分析它们成功的经验,当然,我也会分享失败的案例,以及背后的原因。不过更重要的是,我希望你能够跟着我一起分析,通过对比思考,找到真正适合团队和自身的实践。而这,是我写作这个专栏的真正初衷。
这是研发效能专栏的第一篇文章,如果可以的话,欢迎你在留言区做个自我介绍,和我聊聊你或者你的团队在研发效能方面的实践以及遇到的问题,增进我们彼此的了解。而且,我也希望你看过这个专栏后,能够再回头来看看最初留下的内容,相信届时你已经对研发效能有了新的理解和思考。
作者回复: 好的。这方面的书籍并不是很多,不过我后面会记得介绍。今天先介绍一本关于流程的通用一点的书。我大概5年以前读的,觉得大开眼界,映象深刻:The Principles of Product Development Flow: Second Generation Lean Product Development。https://book.douban.com/subject/3844532/ 没有找到中文版。
作者回复: 欢迎讨论,感谢支持!
作者回复: 你提供的上下文信息比较少。不清楚是新的项目还是维护项目,公司是技术驱动还是业务驱动,等等。所以我的回复会比较笼统。
不过一般来说,一个人负责技术,有好有坏。好处是自由度非常大,可以提高的空间很大!困难是技术全在一个人身上,压力大,可能会疲于应付,没有时间去系统性的思考和提高。
总的来说,最需要快速学习快速实践的能力。
如果你有更多的问题,欢迎交流!
作者回复: Facebook自动化测试水平很高。facebook.com没有测试人员。只有测试工具团队。
技术方案比较复杂,这里列举几点:
- 在本地开发,代码入库前,持续发布过程中运行大量的测试。越是靠近流水线后端测试越多
- 开发、测试、生产共享一套数据库。测试数据使用标签区别出来
- 通过精准测试,减少测试的运行量,提高运行速度
- 测试工具和其他工具联动。比如,测试用例发现问题,自动化的使用`git bisect`命令发现导致问题的提交,然后自动生成bug,自动分配优先级,自动分配给问题提交的开发者。最后,自动显示在测试运行情况的面板里。
作者回复: Kent Beck跟我在Facebook有交集,但是我没有听说过这个事儿😀 不过TDD在Facebook的确不是很流行。
这个是Kent自己在Quora.com上面写的关于在Facebook使用TDD的一段话。我觉得讲到点子上了。供你参考:
Question: “Does Kent Beck use TDD at Facebook? How?”
Kent: “Sometimes, but not as often as I did before joining Facebook. Going back to first principles, I am responsible for the quality of my work. The only way to check the quality of my work is with feedback. Some of that feedback can be collected before going into production and some can only be collected in production (this was a point I didn't understand four years ago). For the feedback that can be collected before going into production, tests are one way of generating that feedback (tests can be ruinously expensive to write and/or maintain if your system isn't designed for them). When I do write tests, I nearly always write them TDD-style (one at a time, before coding).”
link: https://www.quora.com/Does-Kent-Beck-use-TDD-at-Facebook-How
作者回复: 这个会的。讲效率一定会讲到工具的!
专栏后面我会在个人效能部分介绍开发中常用的工具,包括命令行工具(日常工作各种操作),编辑器(会详细介绍VIM的高效使用原则),Git使用,API调试,log查看,网络查看等等。另外,我会友有一篇文章专门讲工具的集成使用,因为那样才是最高效的工具使用方法。
实际上,我一直是同事眼中的“工具达人”。之前在Facebook工具部的时候,同组的同事到日本出差,还远程打电话让我帮他解决git的问题呢 :)
你对哪一方面的工具比较感兴趣?
作者回复: 多谢支持,后面请多提问题,多提意见!我尽力写好专栏 :)
作者回复: 一个人做也有一些好处,就是自由度高。你又愿意学习,那就没有问题。感觉你现在的知识点比较广。建议可以找到整个流程中自己比较有兴趣的一个方向深入学习。一个方向做好了,其他会触类旁通。
具体方法推荐在工作中学习。比如各个部门的网站有没有什么可以提高的共同点?实践中学习效果最好。
作者回复: 嗯嗯,后面我会讨论流程优化,团队高效能实践,个人高效能实践,以及管理和文化。应该会有帮助。
作者回复: 这个情况确实比较棘手。我建议大家花一点时间分析一下整个过程中的各个节点中的瓶颈问题。找到一个容易解决但是效果又会比较好的,进行优化。让大家能够比较看到效果,从而逐步形成提高的意识。事实上,没有时间考虑任务以外的事情,一段时间可以,但是不能总是这样。一定要至少偶尔停下来做一些优化。否则技术债越级越高,会塌的。
作者回复: 组织变革一向是很有挑战性的任务。对一个新人来说更是如此。如果你能提供一点不敏感的背景,我说不定可以给一些具体建议。
作者回复: 60多人的技术团队,的确会在管理上出现蛮多挑战了。欢迎后面一起讨论,一起进步!
作者回复: 这个情况,首先好要优化流程,我在第四篇文章中会讨论。
具体来说,我觉得比较直接的是首先要控制WIP(work in progress)。推荐使用看板的方法。这本书不错:
中文版:https://book.douban.com/subject/25788807/
英文版:https://book.douban.com/subject/5350839/
作者回复: 谢谢支持!你们云效的分支管理很赞,让我影响深刻。功能分支自动化产生;功能分支自由组合部署到上环境;线上验证之后分支再合入主仓。全程自动化,厉害。
作者回复: 是呀。本来软件行业是最容易自动化的。但是很遗憾的是很多人总是说“业务太忙,业务太忙”。实际上投入自动化的时间用不了太久就可以有效果的。
每个团队都应该既有业务目标,又有技术目标,不然很难走远。
作者回复: IDEA。名字跟Intellij那个重复了 😅
作者回复: 我觉得最重要是让他们看到效能能够满足他们的需求。这几年效能开始逐渐受到重视,也是因为效能可以节省成本,增加产出。所以关键是怎么让主管或老大看到并相信效能投资是值得的。一个通常有用的办法是使用数据,也就是引入一些方法,收集数据,然后给他们看效果。另一个方法是跟竞品公司比较。总之,从他们的角度出发,觉得花这个钱值得。