python-pandas基礎操作

簡單的紀錄一下pandas觀看數據以及load數據的方法

#data source:http://archive.ics.uci.edu/ml/datasets/Iris
import urllib3
##from bs4 import BeautifulSoup
import pandas as pd
import io
http = urllib3.PoolManager()
url= http.request('GET', 'http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')

#通常如果文件中含有列標題可以使用 
#可以在read_csv使用參數parse_dates=[0]讀取文件第一行的字串來當作names
#然後header=None不寫
column_name=[
    'sepal_length_in_cm',
    'sepal_width_in_cm',
    'petal_length_in_cm',
    'petal_width_in_cm',
    'class'
    ]
#取得資料
iris=pd.read_csv(io.StringIO(url.data.decode("utf-8")),header=None,names=column_name)

1 2	#資料前部分(可以指定顯示行數，預設5) iris.head(3)

	sepal_length_in_cm	sepal_width_in_cm	petal_length_in_cm	petal_width_in_cm	class
0	5.1	3.5	1.4	0.2	Iris-setosa
1	4.9	3.0	1.4	0.2	Iris-setosa
2	4.7	3.2	1.3	0.2	Iris-setosa

1 2	#資料後部分(可以指定顯示行數，預設5) iris.tail(3)

	sepal_length_in_cm	sepal_width_in_cm	petal_length_in_cm	petal_width_in_cm	class
147	6.5	3.0	5.2	2.0	Iris-virginica
148	6.2	3.4	5.4	2.3	Iris-virginica
149	5.9	3.0	5.1	1.8	Iris-virginica

1 2	#資料摘要 iris.describe()

	sepal_length_in_cm	sepal_width_in_cm	petal_length_in_cm	petal_width_in_cm
count	150.000000	150.000000	150.000000	150.000000
mean	5.843333	3.054000	3.758667	1.198667
std	0.828066	0.433594	1.764420	0.763161
min	4.300000	2.000000	1.000000	0.100000
25%	5.100000	2.800000	1.600000	0.300000
50%	5.800000	3.000000	4.350000	1.300000
75%	6.400000	3.300000	5.100000	1.800000
max	7.900000	4.400000	6.900000	2.500000

1 2	#選取特定列 iris['sepal_length_in_cm'].head()

0    5.1
1    4.9
2    4.7
3    4.6
4    5.0
Name: sepal_length_in_cm, dtype: float64

1 2	#選取特定多個列 iris[['sepal_length_in_cm',"class"]].head()

	sepal_length_in_cm	class
0	5.1	Iris-setosa
1	4.9	Iris-setosa
2	4.7	Iris-setosa
3	4.6	Iris-setosa
4	5.0	Iris-setosa

#在讀取的時候如果數據集太大的讀取
#可以使用chunk的方式去做
#chunk就是一塊快的數據快
chunks=pd.read_csv(io.StringIO(url.data.decode("utf-8")),header=None,names=column_name,chunksize=10)
#可以使用這樣印出所有
#for chunk in chunks:
#    print(chunk)
#以這裡就是10個一組
#這裡印出其中一組

print(chunks.get_chunk(10))

   sepal_length_in_cm  sepal_width_in_cm  petal_length_in_cm  \
0                 5.1                3.5                 1.4   
1                 4.9                3.0                 1.4   
2                 4.7                3.2                 1.3   
3                 4.6                3.1                 1.5   
4                 5.0                3.6                 1.4   
5                 5.4                3.9                 1.7   
6                 4.6                3.4                 1.4   
7                 5.0                3.4                 1.5   
8                 4.4                2.9                 1.4   
9                 4.9                3.1                 1.5   

   petal_width_in_cm        class  
0                0.2  Iris-setosa  
1                0.2  Iris-setosa  
2                0.2  Iris-setosa  
3                0.2  Iris-setosa  
4                0.2  Iris-setosa  
5                0.4  Iris-setosa  
6                0.3  Iris-setosa  
7                0.2  Iris-setosa  
8                0.2  Iris-setosa  
9                0.1  Iris-setosa

#當真的在使用chunk讀取非常大的數據集時
#分配一個iterator將會 動態分配每個pandas的數據框長度
iris_iterator=pd.read_csv(io.StringIO(url.data.decode("utf-8")),header=None,names=column_name,chunksize=10)
iris_iterator.get_chunk(10)

	sepal_length_in_cm	sepal_width_in_cm	petal_length_in_cm	petal_width_in_cm	class
0	5.1	3.5	1.4	0.2	Iris-setosa
1	4.9	3.0	1.4	0.2	Iris-setosa
2	4.7	3.2	1.3	0.2	Iris-setosa
3	4.6	3.1	1.5	0.2	Iris-setosa
4	5.0	3.6	1.4	0.2	Iris-setosa
5	5.4	3.9	1.7	0.4	Iris-setosa
6	4.6	3.4	1.4	0.3	Iris-setosa
7	5.0	3.4	1.5	0.2	Iris-setosa
8	4.4	2.9	1.4	0.2	Iris-setosa
9	4.9	3.1	1.5	0.1	Iris-setosa

本文地址： https://david6686.github.io/blog/silentink/10255/