如何往Spark社区做贡献，贡献代码

随着社区正在努力准备Apache Spark的下一版本3.0，您可能会问自己“我如何参与其中？”。现在的Spark代码已经很庞大，因此很难知道如何开始自己做出贡献。Spark PMC & Committer Holden Karau以开发人员为中心，教你如何为Spark社区做贡献，逐步发现好的问题点，格式化代码，寻找代码评审者以及在代码评审过程中期望得到什么。除了如何编写代码之外，她还探讨Apache Spark做出贡献的其他方法，从帮助测试RC(Release Candidate)版本，到进行所有重要的代码评审，错误分类等等，也包括例如回答别人的技术问题。

Apache Spark社区已经有大量中国人的身影，在国内也常常有开发者线下聚会研讨，本文末尾也有示说网参与的上海和杭州地区Apache开源社区活动（完全免费），可以了解目前开源技术社区的前沿动态。

文末可以查看Holden演讲视频（含中英字幕），以下为PPT原文截图和核心要点整理，希望对如何贡献Apache Spark开源社区的同学有一定启发。

本文是基于Holden Karau在2019年Spark Summit EU上的分享视频整理而成，按照Holden自己的说法，不代表Spark PMC的观点，（虽然Holden是Spark PMC & Committer），仅仅是她个人的建议和看法，供广大开发者朋友参考。

主要讨论如下几个方面：

目前Spark开发社区的状态；
为什么要给Apache Spark做贡献；
给Spark社区做贡献的几个途径；
如何找到可以参与贡献；
贡献代码和文档修改，可能用到的工具集合；

作为Spark的PMC，她认为你可能有如下几个原因，期待能够给Spark社区做出贡献：

修复工作中碰到的Spark的bug或者问题
学习分布式系统
强化你在Scala/Python/R/Java等语言的技能
函数式编程的奇技淫巧
个人成长的光辉记录和成就感，（或许有利于找到更好的工作？）
基于Spark弄点有意思的事

如何向Spark做出自己的贡献？

直接提交相关的代码修改
Spark Package中的代码修改
帮助审查Spark代码
Spark周边的库代码
Spark书籍，技术分享，技术博客等
在Spark邮件列表，StackOverflow等地方回答技术问题
Spark测试和发行的验证工作

当然，每个人对于Spark的熟悉程度不一样，这个和每个人的工作内容及兴趣有很大关系，Holden列举了相关的工作涉及到的具体内容和问题。

假如你希望能从直接为Spark贡献代码：

或许你碰到了Spark的bug并希望修复它
或许你希望给Spark增加新的特性
你得先看看你的想法有没有人已经着手在做了
如果你期待的代码改动比较复杂，除非你已经有相当的经验，否则最好还是挑个简单的开始
千万别一意孤行，干起来再说，至少得先看看http://spark.apache.org/contributing.html 或者读完本文

既然已经下定决心要为Spark做点代码的活，那么先了解一下Spark 3.0目前的模块。

开始之前你还需要了解，Spark的任何改动，都会关联一个JIRA的Issue，你得先注册JIRA，然后关注JIRA上面的Spark社区动静。这个不是Spark独有的，貌似基本上所有的Apache开源项目都是通过JIRA来跟踪各种问题。

基本上JIRA里会包含别人发现，或者计划要做的那些事，如果你想修复一个bug或者增加新的特性，先查查JIRA上有没有人已经提了类似的Issue，如果没有，那很好，你可以创建一个JIRA，并且告诉别人你已经着手做了，当然，你也可以挑一个别人没有着手做的Issue，自己先干起来，当然，干之前你需要在Issue里留下点文字，告诉其他人你已经在做这个共组了。