MooseFS分布式文件系统介绍

一、简介

　　MooseFS是一个具备冗余容错功能的分布式网络文件系统，它将数据分别存放在多个物理服务器或单独磁盘或分区上，确保一份数据有多个备份副本。对于访问的客户端或者用户来说，整个分布式网络文件系统集群看起来就像一个资源一样。从其对文件操作的情况看，MooseFS就相当于一个类UNIX文件系统。

二、适用场景

　　MooseFS是一款相对小众的分布式文件系统，不需要修改上层应用接口即可直接使用，支持FUSE的操作方式，部署简单并提供Web界面的方式进行管理与监控，同其他分布式操作系统一样，支持在线扩容，并进行横向扩展。MooseFS还具有可找回误操作删除的文件，相当于一个回收站，方便业务进行定制；同时MooseFS对于海量小文件的读写要比大文件读写的效率高的多。但MooseFS的缺点同样明显，MFS的主备架构情况类似于MySQL的主从复制，从可以扩展，主却不容易扩展。短期的对策就是按照业务来做切分，随着MFS体系架构中存储文件的总数上升，Master Server对内存的需求量会不断增大。并且对于其单点问题官方自带的是把数据信息从Master Server同步到Metalogger Server上，Master Server一旦出问题Metalogger Server可以恢复升级为Master Server，但是需要恢复时间。目前，也可以通过第三方的高可用方案（heartbeat+drbd+moosefs）来解决 Master Server 的单点问题。

三、四大组件

MooseFS文件系统主要由四大组件构成，分别为管理服务器、元数据日志服务器、数据存储服务器、客户端，相关解释如下：

管理服务器（Master Server）：这个组件的角色是管理整个mfs文件系统的主服务器，除了分发用户请求外，还用来存储整个文件系统中的每个数据文件的metadata信息，metadata（元数据）信息包括文件（也可以是目录、socket、管道、设备等）的大小、属性、文件位置路径等，以及文件空间的回收和恢复，控制多chunk server节点的数据拷贝。很类似lvs负载均衡主服务器，不同的是lvs仅仅根据算法分发请求，而master根据内存里的metadata信息来分发请求。这个master只能有一台处于激活工作的状态。
元数据日志服务器（metalogger Server）：作用是备份管理服务器master的变化的metadata信息日志文件，文件类型为changelog_ml.*.mfs，以便于在主服务器出现问题的时候，可以经过简单的操作即可让新主服务器进行工作。这很类似Mysql的主从同步，只不过他不像mysql从库那样在本地应用数据，而只是接收主服务器上文件写入时记录的文件相关的metadata信息。这个backup可以有一台或多台，它很类似于lvs从负载均衡器。
数据存储服务器（Chunk Servers）：存放数据文件实体的服务器了，这个角色可以有多台不同的物理服务器或不同的磁盘及分区来充当，当配置数据的副本多于一份时，剧写入到一个数据服务器后，会根据算法在其他数据服务器上进行同步备份。
客户端（Client）：挂载并使用mfs文件系统的客户端，当读写文件时，客户端首先连接主管理服务器获取数据的metadata信息，然后根据得到的metadata信息，访问数据服务器读取或写入文件实体。mfs客户端通过FUSE mechanism实现挂载MFS文件系统的。因此，只要系统支持FUSE，就可以作为客户端访问MFS整个文件系统。所谓的客户端并不是网站用户，而是前端访问文件系统的应用服务器，如web