ReAir

一套易于使用的工具,用于在 Hive 数据仓库之间复制表和分区。
261
作者Paul Yang

ReAir 是一套易于使用的工具,用于在 Hive 数据仓库之间复制表和分区。这些工具面向已经熟悉基于 Hadoop 和 Hive 的数据仓库操作的开发者。

概述

ReAir 的复制功能适用于以下用例:

  • Hive 数据仓库迁移
  • 两个仓库之间的增量复制
  • 灾难恢复

迁移 Hive 数据仓库时,ReAir 可用于将现有数据复制到新的数据仓库。由于 ReAir 同时复制数据和元数据,因此数据复制完成后即可立即查询数据集。

许多组织最初都只使用单个 Hive 数据仓库,但他们通常希望在生产工作负载和临时工作负载之间实现更好的隔离。两个独立的 Hive 数据仓库可以很好地满足这一需求,而有了两个仓库,就需要复制不断演变的数据集。ReAir 可用于将数据从一个仓库复制到另一个仓库,并在数据更新时增量地传播这些更新。

最后,ReAir 可用于将数据集复制到热备数据仓库,以便在灾难恢复场景中快速故障转移。

为了适应这些用例,ReAir 包括批量复制和增量复制工具。批量复制执行一次性复制表列表的操作。增量复制是一个长期运行的进程,它会在源仓库中创建或更改对象时复制这些对象。