上一章给大家介绍了如何查看数据与选取你所需要的数据,这篇给大家介绍一下选择完数据如何对数据进行处理。
往往我们拿到的数据经过查看过都会存在一些不能满足需求的问题,这时就可能需要对原数据进行一些修改与整理。比如:Python字段名修改、列名选择修改、索引重置、异常值替换、数据类型转化、数据组合等。还是主要给大家介绍一下一些常用涉及到的方法,本章结构请见目录:
文章目录
一、清理数据
列名修改
索引修改
内容修改
数据类型转换
时间转换
二、代码案例
列名/索引修改案例
一、清理数据
列名修改
索引修改
内容修改
数据类型转换
主要的数据类型有int(整数型)、float(浮点型)、str(字符串型)
时间转换
二、代码案例
列名/索引修改案例
手上有一份泰坦尼克号船票信息,先摸清数据的特征
import pandas as pd #导入pd库
data=pd.read_csv(r'/Users/huangjunwen/Desktop/test.csv')#导入本地csv数据文件
print(data.info())#先查一下数据各列的数据类型等
数据有11列418行,数据类型包含了object/int/float三种类型,列名都是英文||-.-看着难受,有的列数据只有91行,存在空值。
data.columns=['乘客','类型','姓名','性别','年龄','关系','Parch','船票','票价','船舱','登船口']#把所有列名换成中文名字,有一个parch不知道是什么意思理解不了
print(data['性别'].value_counts())#看一下男女人数情况
print(data['年龄'].describe())#看一下年龄统计数据情况
性别记录是完整的,也没有出现人妖的情况。。。。年龄有效记录了332人,年龄最小的不到1岁,最大的76岁,平均年龄在30岁,50%分为数为27岁。
data['年龄'].fillna(27,inplace=True)
#将年龄为空的全部替换成27岁,保证数据完整性方面后续的分析。inplace=True是直接将原数据直接替换,如果不指定默认是False原表数据不替换
年龄非空数从332变成了418,补全了空值
####数据类型转化案例
data['Parch']=data['Parch'].astype('str')#将parch列数据类型改成字符串格式
评论区