pandas:强大的Python数据分析工具包

原文:http://pandas.pydata.org/pandas-docs/stable/index.html

译者:飞龙 UsyiyiCN

校对:(虚位以待)

日期:2016年12月24日版本:0.19.2

二进制安装: http://pypi.python.org/pypi/pandas

源代码仓库: http://github.com/pydata/pandas

问题&想法: https://github.com/pydata/pandas/issues

Q&A支持: http://stackoverflow.com/questions/tagged/pandas

开发人员邮件列表: http://groups.google.com/group/pydata

pandas是一个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进行实用的真实世界数据分析的基本高级构建块。此外,它的更广泛的目标是成为最强大和最灵活的任何语言的开源数据分析/操作工具。它已经很好地朝着这个目标前进了。

pandas非常适合许多不同类型的数据:

pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域。对于R用户,DataFrame提供R的data.frame所有功能及其他功能。pandas建立在NumPy之上,旨在包含更多其他第三方库并与之集成为优秀的科学计算环境。

这里只是几个pandas做得很好的事情:

许多此处原则是为了解决在使用其他语言/科学研究环境时常常所遇到的不足。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显示的形式。pandas是处理所有这些任务的理想工具。

其他一些注释

注意

本文档假定你熟悉NumPy。如果你还没有熟练使用NumPy或者根本没用过numpy,请先花一些时间学习NumPy

有关库中的内容的更多详细信息,请参阅软件包概述。