Atlas 2.1.0 实践（1）—

为什么要做数据治理？业务繁多，数据繁多，业务数据不断迭代。人员流动，文档不全，逻辑不清楚，对于数据很难直观理解，后期很难维护。

在大数据研发中，原始数据就有着非常多的数据库，数据表。

而经过数据的聚合以后，又会有很多的维度表。如果想要对这些数据做好管理，光用文字、文档等东西是不够的，必须用图。

Atlas就是把元数据变成图的工具。

http://atlas.apache.org/

Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。

Apache Atlas为组织提供开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。

那么如何安装并使用Altas呢？

Atlas的安装坑较多，本教程将详细介绍Atlas2.1.0整个安装过程，有任何问题欢迎关注实时流式计算

后台留言~

下载

请前往官网 https://atlas.apache.org/#/Downloads

下载对应版本的源码包本文使用最新的 2.1.0版本

国内站点速度要快一些

https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

编译

比较难受的是 Atlas不提供安装包下载的是源码包需要自行编译打包

注意，需要先安装maven，因为这是使用maven开发的java web工程。maven3.6.3版本即可

安装maven

一些下载地址

http://maven.apache.org/download.cgi

https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

上传到linux的/usr/local目录

cd /usr/local

解压文件

tar -zxvf apache-maven-3.6.3-bin.tar.gz

配置环境变量

vi /etc/profile

export MAVEN_HOME=/usr/local/apache-maven-3.6.3
export PATH=MAVEN_HOME/bin:PATH

刷新环境变量

source /etc/profile

检查版本

mvn -v

配置好maven的环境变量
注意国内需要配置好maven的国内镜像，一般使用阿里，华为，清华等镜像
vi /usr/local/apache-maven-3.6.3/conf/settings.xml

<mirror>
    <id>alimaven</id>
    <name>aliyun maven</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
    <mirrorOf>central</mirrorOf>
</mirror>

把这个setting.xml 拷贝到 ~/.m2/

cp settings.xml .m2/

编译Atlas

解压源码包

tar -zxvf apache-atlas-2.1.0-sources.tar.gz

1.修改atlas源码工程的pom.xml

将hbase zookeeper hive等依赖的版本修改成自己环境中一致的版本（或者兼容的版本）

父工程pom文件
<zookeeper.version>3.4.14</zookeeper.version>
<hbase.version>2.2.3</hbase.version>
<solr.version>7.7.2</solr.version>

2.执行maven编译打包

atlas可以使用内嵌的hbase-solr作为底层索引存储和搜索组件，也可以使用外置的hbase和solr
如果要使用内嵌的hbase-solr，则使用如下命令进行编译打包
cd apache-atlas-sources-2.1.0/
export MAVEN_OPTS=”-Xms2g -Xmx2g”
mvn clean -DskipTests package -Pdist,embedded-hbase-solr

不用内置就这样 mvn clean -DskipTests package -Pdist

改完路径还会非常快的耐心等待