pandas
python
大数据
看过来
《pandas 教程》 持续更新中,可作为 pandas 入门进阶课程、pandas 中文手册、用法大全,配有案例讲解和速查手册。提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。查看更新日志。作者开办 Python 数据分析训练营正在报名中,详情 Python 数据分析训练营。
![]() |
本教程作者所著新书《Python之光:Python编程入门与实战》(ISBN:9787111729891)已由机械工业出版社出版上市,各大电商平台有售,欢迎:查看详情并关注购买。 |
![]() |
本教程作者所著新书《深入浅出Pandas:利用Python进行数据处理与分析》(ISBN:9787111685456)已由机械工业出版社出版上市,各大电商平台有售,欢迎:查看详情并关注购买。 |
pandas 的诞生背景并不是在大数据使用场景下。pandas 作者 Wes Mckinney 于 2008 年开始构建,基于 Numpy 的基础数据类型和机制。
pandas 如此优雅便利用数据处理接口,不能处理超大数据让人遗憾。本文将介绍在利用 pandas 类似的数据模型和接口情况下,如何处理分析超大数据。
在大数据场景下,pandas 遇到的问题主要原因是 pandas 是基于内存的计算,加载数据时会读取到内存,包括计算时数据也在内存,但对于超出内存容量的数据就无能为力了。
pandas 的主要问题有:
近些年来,出现了一系统用于处理大数据的 Python 三方库,如 Dask、Ray、Modin、Vaex、Polars 以及 Apache Arrow 等。常用的 dask 和 ray 是并行多任务库,modin 是计算资源调度库。
其他内容:todo
无「盖若」授权,请勿以任何形式转载,公众号:gairuo
Copyright © 2019 - 2023
Gairuo.com All Rights Reserved v7.6.1.0919
京公网安备11010502033395号
京ICP备15019454号-4