Python資料處理套件part2 - Pandas 檢視與定位資料

Open Data：

Mobile App Statistics (Apple iOS app store)

上一篇我們提到了pandas最重要的兩個資料物件（沒有看過的可以點這個連結），但我們光會存取資料是不夠的，假設我們今天要分析的資料有一萬多筆，且每筆資料都有一百多個欄位，要能直接從如此龐大的資料中分析趨勢或是關聯，基本上是不可能的，所以今天的重點就是介紹如何檢視與定位資料。

使用資料表

Notebook Content：

這次我們一樣會使用apple（AppleStore.csv）的公開資料，其中紀錄了兩個app平台商店中所有app的分類、評分、下載量、名稱、大小⋯⋯等相關資料，假設我們是一間app開發公司的分析人員，我們想研究目前市場中哪些分類的評分以及下載量是比較高的。

首先我們先試著利用 pd.read_csv() 讀取檔案：

import pandas as pd
app = pd.read_csv('AppleStore.csv')

`pd.read_csv()` 讀取檔案方法 (官方document)：

常用參數

這邊我們做一個小補充，大部分我們在進行資料分析時，常會遇到不同的檔案類型，像是.csv, .txt 甚至是.spss之類的檔案，為了能夠方便讀取各類型的檔案，pandas套件提供了非常多的方法讓我們使用，其中最常使用的莫過於 pd.read_csv() ，畢竟各大公開資料平台以及所有統計相關軟體都可以接受csv檔，所以csv檔案算是非常常見的一種資料檔案類型。

要讀入csv檔也非常的簡單，只要使用 pd.read_csv() 方法並在括號內引入檔案名稱加上副檔名即可，不過有時候會遇到編碼的問題，大部分檔案都可以使用 UTF-8 編碼，不過有些檔案的編碼可能比較不一樣，會導致檔案讀取錯誤或是出現亂碼，所以要調整 encoding 參數：

data1 = pd.read_csv('DataScience/data1.csv',encoding='UTF-8')  #UTF-8編碼
data2 = pd.read_csv('DataScience/data2.csv',encoding='iso-8859-1')  #其他編碼

除了上面的 iso-8859-1 編碼之外，也可以試試看 encoding='latin1', encoding='cp1252' 這些編碼(編碼的使用可能會因為語系的不同而有差異，這邊提供的主要是英文常用的編碼)。

以上是csv檔案基本的讀取方法，如果有其他類型檔案的讀取需求，可以詳閱官方文件。

Open Data：

Notebook Content：

pd.read_csv() 讀取檔案方法 (官方document)：

`pd.read_csv()` 讀取檔案方法 (官方document)：