Open Data:

Mobile App Statistics (Apple iOS app store)

當我們在使用python進行一些基本的資料處理時,很常使用python原生的物件,像是 list() , dict() 去存取及運用資料,但當我們的資料變得複雜的時候,這些原生物件反而顯得有些不便,像是二維陣列的元素計算就是較為複雜的資料形式,每一次的運算可能都要使用多個巢狀迴圈去處理,所以面對這種複雜且大量的資料,我們需要專門處理資料的套件幫我們節省一些作業時間,讓我們可以專心的研究資料內容。

Notebook Content:

這次我們會使用apple(AppleStore.csv)的公開資料,其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料,假設我們是一間app開發公司的分析人員,我們想研究目前市場中哪些分類的評分以及下載量是比較高的。

我們先利用python原生的方式處理看看,首先第一步就是將csv檔引入並轉換為二維陣列,我們利用 list() 處理:

import csv
def openData(file):
    f = open(file)
    reader = csv.reader(f)
    data = []
    for e in reader:
        data.append(e)
    return data
app = openData("AppleStore.csv")
print(app)

我們先定義了一個函式,函式功能是開啟指定檔名的檔案並透過 csv 套件讀取csv檔中的每一行資料作為陣列然後將每一個陣列透過 append() 方法加入名為 data 的陣列,最後回傳 data 。所以我們將資料 AppleStore.csv 透過這個函式存取為變數 app 然後將他 print() 出來。

[['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot',
 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating',
'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic'],
['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5',
'3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1'], ['389801252',
'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23',
'12+', 'Photo & Video', '37', '0', '29', '1'], ['529479190', 'Clash of Clans',
'116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+',
'Games', '38', '5', '18', '1'], ['420009108', 'Temple Run', '65921024', 'USD',
'0.0', '1724546', '3842', '4.5', '4.0', '1.6.2', '9+', 'Games', '40', '5', '1',
'1'],......]

從上面的結果可以看到,我們得到了一個二維陣列,其中的第一個 list() 是欄位名稱,從第二行開始為每一筆資料。雖然我們成功獲得了每一筆資料,但這樣的資料易讀性極低,即使透過迴圈將每一筆資料分開列印,依然會因為字串長短導致同一欄的資料卻在不同位置使我們很難分析資料。

這時我們試試看 pandas 套件做同樣的事情,我們將資料透過 pd.read_csv(filename) 方法將資料存取為變數 app 並利用 df.head() 指定顯示 app 的前五筆資料,然後把他 print() 出來:

import pandas as pd

app = pd.read_csv('AppleStore.csv')
app.head(5)
					id               track_name  size_bytes currency  price  \\
0  284882215                 Facebook   389879808      USD    0.0   
1  389801252                Instagram   113954816      USD    0.0   
2  529479190           Clash of Clans   116476928      USD    0.0   
3  420009108               Temple Run    65921024      USD    0.0   
4  284035177  Pandora - Music & Radio   130242560      USD    0.0   

   rating_count_tot  rating_count_ver  user_rating  user_rating_ver      ver  \\
0           2974676               212          3.5              3.5     95.0   
1           2161558              1289          4.5              4.0    10.23   
2           2130805               579          4.5              4.5  9.24.12   
3           1724546              3842          4.5              4.0    1.6.2   
4           1126879              3594          4.0              4.5    8.4.1   

  cont_rating        prime_genre  sup_devices.num  ipadSc_urls.num  lang.num  \\
0          4+  Social Networking               37                1        29   
1         12+      Photo & Video               37                0        29   
2          9+              Games               38                5        18   
3          9+              Games               40                5         1   
4         12+              Music               37                4         1   

   vpp_lic  
0        1  
1        1  
2        1  
3        1  
4        1

從上面的結果可以發現,pandas 會將所有欄位對齊,讓我們可以更容易的區分不同欄位的資料,如果配合使用 jupyter notebook軟體,甚至可以讓資料以表格的方式顯示:

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/15ca73a3-338c-4c36-a98e-77b0740b5332/_2019-08-11_3.51.06.png

剛才提到的jupyter notebook是一個可以讓我們更方便進行資料分析的軟體,這個軟體可以將程式碼分段執行,因為我們在進行資料分析的時候,不會像在執行程式開發時把所有程式碼打包好一次執行,而是分段進行,像是先導入資料、確認資料欄位的關係、分欄位進行資料清理、進一步分析、視覺化⋯⋯等,會經過多個不同的步驟,而且每一個步驟的結果都需要進行確認,所以如果是對資料分析領域有興趣的朋友,我都蠻推薦使用這個軟體的~

接下來讓我們來透過資料 app 介紹 pandas 套件的各種方法與功能吧: