临沧韵滓信用担保有限公司

招高級人才,上覽優獵頭! | 服務熱線:0755-86153389
覽優獵頭
個人服務
企業服務

數據科學家/統計學家應該養成哪些好習慣?

作者:鄒昕
鏈接:https://www.zhihu.com/question/26894983/answer/130559382
來源:知乎
著作權歸作者所有,轉載請聯系作者獲得授權。

做過一點統計模型,做過一點數據分析,現在工作名字叫數據科學家,厚著臉皮拋磚引玉,聊聊數據分析中需要養成的良好習慣。

1. 了解數據分析的目的/需求

做數據分析的新人可能都遇到過,辛辛苦苦花了幾個小時做出來的結果,跟客戶 / 合作伙伴 / PM / 老板要的不是一個東西,運氣好的話回去修補一下,花個半小時之類的,運氣不好的話直接推倒重來,搞不好又得晚上加班了。

比如說下午六點,正準備收拾東西回家,PM 跟你說想看知乎用戶的活躍度,跟數據分析師提出需求說,我們來看看大家使用時長吧。那么問題來了,是看平均呢還是看中位數?是看某一種客戶端比如移動端嗎,或者是想每種客戶端都分開來看?要根據用戶的注冊時間來做下劃分嗎?是否想看具體某個城市的?

甚至再退后一步,PM 想看這個干什么?僅僅是好奇,還是現在有個很重要的決定需要以此為基礎?數據分析師需要以此來決定這件事情的優先級,是可以推回去的呢?還是說需要立馬動手做,下班之前就需要給結果的。

二十歲的人生,三十年的工作經驗,都是加班鬧的。


來源:s3.amazonaws.com/lowres

2. 用常識來驗證結果

雖然說數據說話,但是前提是數據來源、分析過程、解讀等都是正確的。如何保證結果的正確性,最基本的一點就是不同方面來快速驗證一下數量級。

比如說 PM 想看知乎用戶使用 Live 的數量,發現迄今為止有 50 萬 iPhone 用戶點擊了 Live 的頁面,2 萬安卓用戶點擊了 Live 的頁面。同時還知道知乎有五百萬 iPhone 日活,而安卓的日活是三千萬,由此可見 iPhone 用戶就是舍得花錢啊,同時安卓用戶那里還有很大的機會。然后簡單比較一下可以發現,二者的參與率差了 150 倍,常識判斷這差得有點太大了,難以解釋。再仔細研究一下數據來源發現,原來安卓客戶端的數據記錄是取樣 1% 的,所以直接看只有 2 萬安卓用戶點擊,但實際上應該在兩百萬左右,這樣一來 iPhone 和安卓的差別就比較合理了。

時刻謹記常識
來源:almostmakessense.com/?

3. 時刻注意數據分析的結果是否具有誤導性

經常說的一句話叫“數據會說謊”。然后數據自身是不會說謊的,而是取決于如何做數據分析、如何展示結果。有時候是數據分析無意中引入了誤導性元素,比如說不合理的坐標軸,有時候是刻意引入某些誤導性元素,以達到特別的目的,這些都是應該盡量避免的。

比如說下圖同樣的增幅,因為用了不同的 y 軸,左右看起來就完全不一樣了。如果聽眾沒有仔細看坐標軸而僅僅看圖形的話,妥妥的就被忽悠了(來源:Look out for these lies with charts)。

此外還有一些數據分析中常見的錯誤,可以參考下面回答:
數據分析中會常犯哪些錯誤,如何解決? - 鄒昕的回答

4. 想想你的聽眾是誰

數據很多時候不僅僅是一個人埋頭苦干,還需要跟人交流,比如說跟合作伙伴的溝通,跟老板的溝通,跟其他組員的溝通,跟不同部門的人溝通。針對不同的聽眾,相應的需要強調不同方面。

比如說跟合作伙伴溝通的時候,可能他們知道你做這個的目的是什么,可能會對結果更感興趣,以及由數據提供了什么建議或者決定。至于具體數據來源或者分析方法之類對他們來說不是那么重要,大多數時候只要確保數據分析師知道自己在做什么就可以了。

跟老板溝通結果的時候,大部分時候可能他們知道你做的大致方向,對分析思路的方法基本一點就通,細節方面可能無法面面俱到。

而跟不同部門的人溝通的時候,分享數據分析的結果之前,最好還能講講這件事情的目的,一些背景,大方向是什么諸如此類。

img.zcool.cn/community/

5. 動手之前先看看這件事情是不是已經有人做過了

這點在大一點的公司尤其明顯,PM 或者老板提出一個需求,或者數據分析師自己對某一個問題感興趣,然后想也沒想,就 SQL 寫得飛快跑了起來。很快一天過去了,產出了一大堆數據和報表,被自己的高效感動了,收拾書包回家。

晚上打開電腦,突然不知道哪根經搭錯了,想白天做的這個事情會不會已經有人做過了呢?于是內網搜了一下,豁然發現某個角落里有一堆早就做好的 pipeline,數據、報表一應俱全,90% 想要的結果都在里面了,真是不知道該哭還是想笑。

數據分析很多時候是不需要重新造輪子的。



6. 數據大小很重要又不重要

幾年前,有個大數據的笑話,Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. 看不懂的請 google translate.

幾年過去了,teenage 應該也長大成人不再是 teenage sex 了,很多時候大家是真的在做大數據了。雖然 size matters,但是數據分析師更應該關注數據能提供什么價值。

本來想放個 size matters 的圖,然后 google 了一下之后,出來的都是辦公室不宜的,所以你們自己腦補吧。

7. So what?

描述性的數據據分析很重要,是了解用戶,了解產品,感受大方向的基礎。比如針對知乎活躍用戶做個畫像,發現 55% 男性,40% 女性(別問我剩下 5% 怎么回事),70% 年薪百萬,80% 985/211,90% 健身,100% 都是活躍用戶(廢話),如此種種。這么一大堆圖表、信息堆起來之后,需要仔細想想這到底說明了什么問題?對改進產品有什么啟示,比如說開個健身爆照專欄輪帶逛?如果僅僅是停留在描述性數據分析階段的話,那么就無法發揮數據的最大作用,從數據的角度引導產品的改進。

ps. 引導產品改進可以是多個方面的,數據引導僅僅是其中的一部分。

8. 保持好奇心
數據分析不是一個新的學科,但是工具、內容、應用方向等一直在不斷改變,所以保持好奇心,持續學習進步,探索新領域對長期發展是最重要的一點,(個人認為)沒有之一。

 

 

粵公網安備 44030502004557號