去年年底的時候,想說耶誕假在家沒事,可以開啟 Coursera 七天免費的活動,於是就上了看起來很多人推薦的 Python for Everybody (PY4E)。課程還不錯,算是有系列的學習,之後可以自己活用,但是因為很長,一個禮拜其實上不完,那時候繼續上的話費用有 discount,所以就繼續上,又想說既然付費了,就上一下其他的課程。會上 Google Data Analytics 是因為看到 YT 有人介紹,所以就上上看。
基本上 Google 把資料分析分成六個階段,每個階段用一堂課介紹。六個階段分別為:
1. Ask: 你要回答的問題是什麼?
2. Prepare: 準備你的 data,包括資料來源、可信度等等。
3. Processs: 清理資料,主要是看有沒有錯誤或是缺少的地方,如果有就把它清乾淨。
4. Analyze: 用各種軟體分析資料,這個課程主要是教用 Google Spreadsheet, SQL, RStudio 和 Tableau。
5. Share: 分享你的分析結果,可以分享在 Google site, Kaggle, GitHub, Tableau,或是自己的部落格。
6. Act: 應用你的分析結果,因為通常是以商業分析為主,所以應用的部分就是怎麼把你的分析應用在商業上,例如怎麼增加客群之類的。
最後堂是 Capstone,也就是 Case Study,挑一個做,然後分享在你選擇的平台。
前面的 Ask 和 Prepare 過程其實只是教一個概念,像是如何找出你要回答的問題,你要如何解決問題?簡單來講就是研究所的思考訓練,如果你是研究生,這個部分其實就是你天天在做的事情,而 Spreadsheet, SQL, RStudio 和 Tableau 就是用來分析工具,就像是 WB 和 IF 等等,只是在 data science 你的工具是 SQL 和 RStudio。
不過這堂課程主要是著重在思考,試著讓你了解怎麼去找出問題的答案,所以在技術上的著墨不是很深入,Google 比較像是希望給你一個開頭,然後深入的技術上問題你自己去 stackoverflow 或其他平台上問,所以它也常強調你要如何在論壇上有禮貌、有技術的問問題。我的 SQL 主要是在 Python for Everybody 這堂課學的(沒錯,它後面也有教 SQL!)RStudio 則是之前在 UBC 學的,還有額外的自學,我也把筆記都放在這個部落格了,搜尋 R program 這個 tag 就有很多篇。
我最後是把 Capstone 的 case study 分享在 Kaggle,上面有各種 data science 的分享,你可以看到別人的思考過程,他們是怎麼做資料分析的。當然,你也可以做成 R Markdown 分享在 GitHub 或自己的網站。
R Markdown:
Fitbit case study
R html: Fitbit case study
沒有留言:
張貼留言
歡迎發表意見