0x00 简单说明
作为机器学习小白,看了一段时间的coursera上Andrew Ng的视频,感觉还是难以入门,所以报名参加阿里天池上的比赛将理论和实践结合来提高姿势。题目是公交线路客流预测,所给的数据中并没有将乘客数量统计出来,需要自己对数据进行统计。先是自己写个python来统计分析数据(大概900M),但跑了一晚上,发现太慢,在网上搜索到了pandas库,不到半个小时就统计完成。
0x01 数据提取
pandas.read_csv可按照一定的格式打开txt、csv文件。read_csv可选参数很多,全部参数请看官方文档,这里我只记录我觉得有用的和我用到的参数。
0x02 数据分析与统计
当数据比较大时,记事本或者notepad++等程序无法打开,pandas给出了几个函数可以快速进行数据分析与统计。
df.head()
查看前5行数据
df.describe()
快速统计数据,可以方便我们观察数据的特性。describe有3个参数percentiles、include、exclude。percentliles可设置数据分层百分比,不填则默认为25%、50%、75%。include设置要统计的数据类型,默认为numeric dtypes,还有object dtypes、mixed dtypes可选。
df[u’columns name’].value_counts()
统计设置的columns有哪些value,对应的value counts,返回的结构中包含index和value数组。index数组存放value,value数组存放value counts。
条件过滤
|
|
pd.Series()
添加列。两个参数,第一个参数为要添加的列数组,第二个参数为index。