pandas
数据清洗
看过来
《pandas 教程》 持续更新中,可作为 pandas 入门进阶课程、pandas 中文手册、用法大全,配有案例讲解和速查手册。提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。查看更新日志。作者开办 Python 数据分析训练营正在报名中,详情 Python 数据分析训练营。
![]() |
本教程作者所著新书《Python之光:Python编程入门与实战》(ISBN:9787111729891)已由机械工业出版社出版上市,各大电商平台有售,欢迎:查看详情并关注购买。 |
![]() |
本教程作者所著新书《深入浅出Pandas:利用Python进行数据处理与分析》(ISBN:9787111685456)已由机械工业出版社出版上市,各大电商平台有售,欢迎:查看详情并关注购买。 |
数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。识别数据中不完整、不正确、不准确或不相关的部分,然后替换、修改或删除脏的或粗糙的数据。
数据清洗是通过删除或修改不正确、不完整、不相关、重复或格式不正确的数据来为数据分析做准备的过程。
当涉及到分析数据时,这些数据通常是不必要的或没有帮助的,因为它可能会阻碍分析过程或导致不准确的结果。有几种方法可以清理数据,具体取决于数据的存储方式以及数据分析的方向。
数据清理不是简单地擦除信息以为新数据腾出空间,而是找到一种在不必删除信息的情况下最大限度地提高数据集准确性的方法。
首先,数据清理包括删除数据,也包括修复拼写和语法错误、标准化数据集、纠正相关错误(如空字段、缺少代码和识别重复数据点)。数据清理被认为是数据科学基础的一个基本要素,因为它在分析过程和发现可靠答案中起着重要作用。
最重要的是,数据清理的目标是创建标准化和统一的数据集,以允许商业智能和数据分析工具轻松访问和查找正确的数据。
Pandas 提供以下核心的数据清洗操作:
主要完成以下工作:
接下来,请继续查看教程,看看 Pandas 在这方面是怎么做的吧。
无「盖若」授权,请勿以任何形式转载,公众号:gairuo
Copyright © 2019 - 2023
Gairuo.com All Rights Reserved v7.6.1.0919
京公网安备11010502033395号
京ICP备15019454号-4