Omniduct

用于从各种数据源提取数据的接口
90
作者Daniel Frank,Matthew Wardrop

Omniduct 提供了统一的接口,用于连接和提取来自各种(可能是远程的)数据存储(包括 HDFS、Hive、Presto、MySQL 等)的数据。

文档: http://omniduct.readthedocs.io
源代码: https://github.com/airbnb/omniduct
错误报告: https://github.com/airbnb/omniduct/issues

它提供了

  • 一个通用的基于插件的编程 API,用于以一致的方式跨不同服务访问数据(请参阅 支持的协议)。
  • 一个框架,用于延迟连接到数据源并在相关 Python 会话的整个生命周期内维护这些连接。
  • 在无法直接建立连接的情况下,通过 SSH 自动转发远程服务的端口。
  • 方便的 IPython 魔法函数,用于在 IPython 和 Jupyter Notebook 会话中与数据提供程序交互。
  • 实用程序类和方法,用于协助维护有用服务的注册表。

Omniduct 的设计使得它可以直接使用(每个用户可以配置自己的服务定义)或通过另一个包(可以创建预定义服务的库,例如用于公司)使用。有关如何部署 Omniduct 的更多信息,请参阅 部署

链接