Open Data:

Mobile App Statistics (Apple iOS app store)

上一篇我們提到了pandas最重要的兩個資料物件(沒有看過的可以點這個連結),但我們光會存取資料是不夠的,假設我們今天要分析的資料有一萬多筆,且每筆資料都有一百多個欄位,要能直接從如此龐大的資料中分析趨勢或是關聯,基本上是不可能的,所以今天的重點就是介紹如何檢視與定位資料。

Notebook Content:

這次我們一樣會使用apple(AppleStore.csv)的公開資料,其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料,假設我們是一間app開發公司的分析人員,我們想研究目前市場中哪些分類的評分以及下載量是比較高的。

首先我們先試著利用 pd.read_csv() 讀取檔案:

import pandas as pd
app = pd.read_csv('AppleStore.csv')

pd.read_csv() 讀取檔案方法 (官方document):


這邊我們做一個小補充,大部分我們在進行資料分析時,常會遇到不同的檔案類型,像是.csv, .txt 甚至是.spss之類的檔案,為了能夠方便讀取各類型的檔案,pandas套件提供了非常多的方法讓我們使用,其中最常使用的莫過於 pd.read_csv() ,畢竟各大公開資料平台以及所有統計相關軟體都可以接受csv檔,所以csv檔案算是非常常見的一種資料檔案類型。

要讀入csv檔也非常的簡單,只要使用 pd.read_csv() 方法並在括號內引入檔案名稱加上副檔名即可,不過有時候會遇到編碼的問題,大部分檔案都可以使用 UTF-8 編碼, 不過有些檔案的編碼可能比較不一樣,會導致檔案讀取錯誤或是出現亂碼,所以要調整 encoding 參數:

data1 = pd.read_csv('DataScience/data1.csv',encoding='UTF-8')  #UTF-8編碼
data2 = pd.read_csv('DataScience/data2.csv',encoding='iso-8859-1')  #其他編碼

除了上面的 iso-8859-1 編碼之外,也可以試試看 encoding='latin1', encoding='cp1252' 這些編碼(編碼的使用可能會因為語系的不同而有差異,這邊提供的主要是英文常用的編碼)。

以上是csv檔案基本的讀取方法,如果有其他類型檔案的讀取需求,可以詳閱官方文件