pandas Ecosystem

原文:http://pandas.pydata.org/pandas-docs/stable/ecosystem.html

译者:飞龙 UsyiyiCN

校对:(虚位以待)

越来越多的软件包在大熊猫上构建,以满足数据准备,分析和可视化的特定需求。这是令人鼓舞的,因为它意味着熊猫不仅帮助用户处理他们的数据任务,而且它为开发者提供了一个更好的起点,构建强大和更集中的数据工具。创建补充熊猫功能的图书馆也允许熊猫开发继续专注于它的原始要求。

我们希望让用户更容易找到这些项目,如果您知道您认为应该在此列表中的其他实质性项目,请告诉我们。

Statistics and Machine Learning

Statsmodels

Statsmodels是着名的python“统计和计量经济学图书馆”,它与熊猫有着长期的特殊关系。Statsmodels提供强大的统计,计量经济学,分析和建模功能,超出了熊猫的范围。Statsmodels利用pandas对象作为计算的基础数据容器。

sklearn-pandas

scikit-learn ML管道中使用pandas DataFrames。

Visualization

Bokeh

Bokeh是一个用于大型数据集的Python交互式可视化库,本地使用最新的Web技术。其目标是以Protovis / D3的风格提供优雅,简洁的新颖图形构造,同时为大型数据向瘦客户端提供高性能交互性。

yhat/ggplot

Hadley Wickham的ggplot2是R语言的基础探索性可视化包。基于“图形语法”它提供了一个强大的,声明性和极其一般的方式来生成任何类型的数据的定制图。这真的很不可思议。各种实现到其他语言是可用的,但一个忠实的实现python用户长期以来一直缺失。虽然仍然年轻(截至2014年1月),yhat / ggplot项目已经在这个方向上迅速发展。

Seaborn

虽然熊猫有相当多的“只是绘图”的功能内置,可视化,特别是统计图形是一个广泛的领域,具有悠久的传统和大量的地面覆盖。Seaborn项目构建在pandas和matplotlib之上,以便于绘制更多高级类型的数据,然后提供由pandas提供的数据。

Vincent

Vincent项目利用Vega(进而利用d3)创建图表。虽然功能,从2016年夏天Vincent项目在两年内没有更新,不太可能收到进一步更新

IPython Vega

像Vincent一样,IPython Vega项目利用Vega创建图,但主要针对IPython Notebook环境。

Plotly

Plotly的 Python API可提供互动数字和网页分享功能。使用WebGL和D3.js来呈现地图,2D,3D和实况流图。该库支持直接从pandas DataFrame和基于云的协作绘制。matplotlib,ggplot for Python和Seaborn的用户可以将图形转换为基于Web的互动图。绘图可以在IPython笔记本中绘制,使用R或MATLAB编辑,在GUI中修改,或嵌入在应用程序和仪表板中。Plotly可免费无限制分享,且拥有离线内部帐户供私人使用。

Pandas-Qt

从主熊猫库跳出,Pandas-Qt库可以在PyQt4和PySide应用程序中实现DataFrame可视化和操作。

IDE

IPython

IPython是一个交互式命令shell和分布式计算环境。IPython Notebook是一个用于创建IPython笔记本的Web应用程序。IPython notebook是一个JSON文档,包含输入/输出单元格的有序列表,其中可以包含代码,文本,数学,图表和富媒体。IPython Notebook可以通过Web界面中的“下载为”和ipython t1转换为多种开放标准输出格式(HTML,HTML演示文稿幻灯片,LaTeX,PDF,ReStructuredText,Markdown, > nbconvert

Pandas DataFrames实现了IPython Notebook用于显示(缩写)HTML表的_repr_html_方法。(注意:HTML表格可能与非HTML IPython输出格式兼容,也可能不兼容)。

quantopian/qgrid

qgrid是“用于排序和过滤IPython Notebook中的DataFrames的交互式网格”,使用SlickGrid构建。

Spyder

Spyder是一个跨平台的基于Qt的开源Python IDE,具有编辑,测试,调试和内省功能。Spyder现在可以内省和显示Pandas DataFrames,并显示“列方式最小/最大值和全局最小/最大着色”。

API

pandas-datareader

pandas-datareader是用于pandas的远程数据访问库。pandas.io from pandas < 0.17.0 is now refactored/split-off to and importable from pandas_datareader (PyPI:pandas-datareader). 许多/大多数支持的API在pandas-datareader docs中至少有一个文档段落:

以下数据Feed可用:

  • 雅虎金融
  • Google财经
  • FRED
  • Fama /法语
  • 世界银行
  • 经合组织
  • 欧洲统计局
  • EDGAR索引

quandl/Python

Quandl API for Python包装Quandl REST API以返回带有时间序列索引的Pandas DataFrames。

pydatastream

PyDatastream是Thomson Dataworks Enterprise(DWE / Datastream) SOAP API的Python接口,用于返回带有财务数据的带索引的Pandas DataFrames或面板。此程序包需要此API的有效凭据(非免费)。

pandaSDMX

pandaSDMX是一个可扩展的库,用于检索和获取在SDMX 2.1中传播的统计数据和元数据。本标准目前由欧洲统计局(欧盟统计局)和欧洲中央银行(欧洲中央银行)支持。数据集可以作为pandas系列或多索引的DataFrames返回。

fredapi

fredapi是由圣路易斯联邦储备银行提供的联邦储备经济数据(FRED)的Python接口。它与包含时间点数据(即历史数据修订)的FRED数据库和ALFRED数据库一起工作。fredapi在python中为FRED HTTP API提供了一个包装器,并且还提供了几种方便的方法来解析和分析来自ALFRED的时间点数据。fredapi使用pandas并返回一个Series或DataFrame中的数据。此模块需要FRED API密钥,您可以在FRED网站上免费获取。

Domain Specific

Geopandas

地理空间扩展了熊猫数据对象,以包括支持几何操作的地理信息。如果你的工作需要地图和地理坐标,你喜欢大熊猫,你应该仔细看看地球圈。

xarray

xarray通过提供核心熊猫数据结构的N维变量将大熊猫的标记数据功率带到物理科学。它旨在提供一个用于多维数组分析的熊猫和熊猫兼容工具包,而不是熊猫擅长的表格数据。

Out-of-core

Dask

Dask是一个用于分析的灵活的并行计算库。Dask允许熟悉的DataFrame接口用于核外,并行和分布式计算。

Blaze

Blaze提供了一个标准API,用于使用各种内存和磁盘后端进行计算:NumPy,Pandas,SQLAlchemy,MongoDB,PyTables,PySpark。

Odo

Odo提供了用于在不同格式之间移动数据的统一API。它使用pandas自己的read_csv来获取CSV IO,并利用许多现有的包(如PyTables,h5py和pymongo)在非熊猫格式之间移动数据。它的基于图的方法也可以由最终用户扩展自定义格式,可能太具体的odo的核心。