解决方案

    现在使用最多的是云硬盘。因为云硬盘只能单机访问,为多个应用实例做备份就需要维护很多磁盘,而且会遇到最大容量限制,需要做好容量规划,管理复杂。使用备份数据时,需要先找到对应的磁盘,挂载到用来恢复应用的主机上,这个过程难以自动化,运维效率难以提升。

    如果上传至对象存储归档,虽然能弹性扩容,价格也便宜,但是备份 - 验证 - 恢复的流程需要很长时间。在 GitHub 2018 年数据库脑裂的事故中,大约有 8 小时花在从对象存储下载备份数据。

    方案

    将 JuiceFS 挂载到做备份的应用节点(比如数据库的副本节点),执行物理备份命令,将数据直接写入 JuiceFS 挂载目录。写入过程 JuiceFS 会自动压缩数据,大幅降低网络数据传输,提升速度。

    还可以开启数据加密,在备份同时并行完成数据加密,保障数据隐私安全的同时,仍然保持高备份效率。

    JuiceFS 支持基于目录的原子快照,可以对备份数据创建快照,然后使用快照数据启动 MySQL 实例验证备份正确性,过程中的数据基于 copy-on-write 机制修改,不会破坏原始备份。验证完成后直接删除快照即可。

    日志收集与归档

    痛点

    如今,日志已经不仅仅用在系统问题的定位上,很多用户访问相关的日志已经被广泛使用在商业智能领域,通过对日志分析和挖掘可以发现很多被忽视的重要价值,提升用户体验,增加商业价值。对日志数据的收集和归档就是迈向商业智能的第一步。

    每个业务服务都会产生日志,所以日志产生是极度分散的,需要一个服务把散落在各个节点的日志收集汇总到一起做归档。在开源和商业领域,已有不少日志收集系统,但是它们的部署、维护、故障处理很复杂,需要持续投入人力运维。

    同时,归档好的日志经年累月,需要很大的空间存储,一方面要能满足分析计算的性能需求,一方面成本也要经济。对象存储虽然满足弹性扩展、价格便宜的优势,但在分析、查询、管理上很不方便,性能差、人效低。

    方案

    JuiceFS 有多机共享的特性,又可以基于目录结构归档管理,天生适合做日志收集和归档。只需将 JuiceFS 挂载到所有产生日志的节点(可以是容器、虚拟机、物理机),利用系统自带的日志滚动机制就能完成自动改名、打包、压缩、复制到 JuiceFS 中。

    使用 JuiceFS 做日志收集、归档会为你带来以下优势:

    1. 无需再维护收集组件,部署大量的 agent;

    2. 完全兼容 POSIX,没有任何学习门槛;

    3. 兼容 Hadoop 生态的计算框架,性能是对象存储的十倍以上;

    4. 查询方便,兼容所有 Linux 命令行工具;

    5. 弹性伸缩,容量无限,再也不需要做容量规划;

    6. 支持回收站,防止误删除。

    NAS 是企业数据共享最普遍的方案,但是维护高可用的 NAS 非常困难。而且还要优化 NFS 网关的性能瓶颈,访问机器数量有限,明文数据传输不安全等多项问题。企业数据共享需要新一代存储产品的支持。

    方案

    使用 JuiceFS 进行数据共享有以下优势:

    1. 基于 Raft 协议的高可用性;

    2. 容量弹性伸缩,可达 10PB;

    3. 支持上千个客户端同时挂载,同时读写;

    4. 毫秒级时延,高吞吐量;

    5. 使用 TLS 加密传输,访问安全。

    6. 支持快照、回收站、完整的 Linux 权限控制。

    异地灾备

    痛点

    数据不灾备,业务两行泪。即使是 Google 的数据中心,也发生过被雷劈丢数据的事故。很多客户都忽视了异地灾备,重要数据需要在不同城市甚至不同国家之间做备份。以保证业务的安全性和连续性。

    在过去的异地灾备方案中,通常需要在异地建设机房,即使使用公有云也往往需要搭建一套计算资源,用来和主要的业务中心做通信完成备份任务。人力物力的投入都是很大的,这也是异地灾备在过去一直难以实现的原因。

    方案

    JuiceFS 提供全自动的数据复制,可以跨服务区,跨云厂商。混合云客户也可以轻松将 IDC 中的数据通过 JuiceFS 备份上云。

    使用 JuiceFS 做数据异地灾备有以下优势:

    1. 全自动,无需任何干预;

    2. TCO 大幅下降,异地只消耗对象存储,节省了大量 CPU、内存资源;

    3. 提供亚分钟级的中美跨大洲数据复制能力;

    4. 数据分块加密存储,放心备份敏感数据;

    5. JuiceFS 默认跨两个可用区部署,相当于同城双活,不受公有云单可用区故障影响。

    如果将对象存储用于大数据分析,性能差,且缺少一致性保证,会带来计算错误。

    方案

    JuiceFS 是全托管服务,保证 99.95% SLA,无需客户运维。容量弹性伸缩无上限,成本相比使用云硬盘自建 HDFS 节省 60% 以上。 而且 JuiceFS 与 Hadoop / Spark / Hive / HBase / Presto / Impala 等完全兼容。即可以将 JuiceFS 作为 HDFS 的补充,保存空间需求最多的冷数据。也可以用 JuiceFS 完全替代 HDFS,实现存储与计算分离,更好的利用公有云计算弹性伸缩的能力;

    使用 JuiceFS 作为大数据存储有以下优势:

    1. JuiceFS 无需任何运维,99.95% SLA。

    2. 容量弹性伸缩,适合海量数据归档,无需容量规划;

    3. 数据强一致性保证;

    4. 性能比对象存储高数十倍以上;

    5. 与云上自建 HDFS 相比,成本节省 60% 以上;

    6. 临时查询可以直接用 Linux 命令行完成。如果数据存在对象存储中,需要先下载再使用,浪费大量时间。

    人工智能

    痛点

    人脸识别技术已经应用到各种生活场景之中,自动驾驶离我们好像也越来越近了。在人工智能到来的今天,一切的“智能”源于对海量信息的处理和分析能力,这里的信息包含千千万万中形式,有文本、图片、音频、视频、医学影像,还有来自于各种传感器采集到的数据。数据量正在指数级的增长,对我们的存储提出了新的挑战。

    我们走访了很多人工智能领域的顶尖团队,看到数据存储是大家正在共同面对的挑战,尤其在图像识别、声音合成、自动驾驶等领域,要存储和处理数以十亿,甚至百亿级别的数据量。对于现有的存储系统都是巨大的挑战。

    方案

    JuiceFS 对机器学习场景和亿级文件规模做了针对性优化,为模型训练提供充沛的 I/O 能力。JuiceFS 使用 POSIX 接口,无需任何定制开发就能支持 TensorFlow / MXNet / Caffe / PyTorch 等机器学习框架。

    在机器学习场景下,JuiceFS 具有以下优势:

    1. 针对亿级 inodes 优化,内存效率是现有开源存储方案的 5~10 倍。

    2. 有完备的缓存策略提升机器学习场景下的 I/O 负载需要。

    3. 无需任何定制开发、API 适配。

    4. POSIX 提供了直观的数据管理方式。