關(guān)于何為數(shù)據(jù)科學(xué)家LinkwayS2調(diào)制解調(diào)器,小科曾在文章中如此解釋:
數(shù)據(jù)科學(xué)家是二十一世紀(jì)的煉金術(shù)士:他們洞悉原始數(shù)據(jù),從而進(jìn)行轉(zhuǎn)化。數(shù)據(jù)科學(xué)家利用統(tǒng)計、機(jī)器學(xué)習(xí)和分析方法來解決關(guān)鍵業(yè)務(wù)問題,幫助公司將大數(shù)據(jù)量化為有價值、可操作的見解。
感興趣可查看:數(shù)據(jù)科學(xué)家vs數(shù)據(jù)工程師,誰是你的真實(shí)身份?
事實(shí)上,成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家,是許多數(shù)據(jù)人的夢想。那么,立志成為數(shù)據(jù)科學(xué)家的你,認(rèn)為什么是數(shù)據(jù)人不可缺少的好習(xí)慣呢?小科特地摘取LinkwayS2調(diào)制解調(diào)器了知乎的高票答案,供大家借鑒,大家也可在文末留言區(qū)發(fā)布看法哦~
答主:曾耀輝
原答鏈接:https://www.zhihu.com/question/26894983
已有的答案大多談的都是high level的比較抽象的東西,像了解業(yè)務(wù)、閱讀人文、培養(yǎng)好奇心這些。我來說說具體關(guān)于數(shù)據(jù)分析的習(xí)慣好了。
1. 分析數(shù)據(jù)前,一定要盡可能多的進(jìn)行數(shù)據(jù)可視化LinkwayS2調(diào)制解調(diào)器!可視化!可視化!做exploratory data analysis!
?。ㄕf三遍?。。。?/p>
我上過的幾乎所有的應(yīng)用性的統(tǒng)計課程上的老師都會強(qiáng)調(diào)這一點(diǎn)。這個習(xí)慣對于數(shù)據(jù)科學(xué)家、統(tǒng)計學(xué)家來說估計是最最實(shí)用的。在實(shí)際的數(shù)據(jù)分析過程中,數(shù)據(jù)可視化可以揭示很多insights:從選擇什么樣的模型,選擇哪些feature建模,到如何分析結(jié)果,解釋結(jié)果等等。
給一個很著名的例子, Anscombe's quartet (安斯庫姆四重奏):
https://link.zhihu.com/?target=https%3A//en.wikipedia.org/wiki/Anscombe%2527s_quartet
這個例子包含四組數(shù)據(jù)。每組數(shù)據(jù)有11個(x, y)數(shù)據(jù)樣本點(diǎn)。四組數(shù)據(jù)樣本里x的均值方差全相等,y的均值方差基本相等,x與y的相關(guān)系數(shù)也很接近。導(dǎo)致的結(jié)果是,四組數(shù)據(jù)線性回歸的結(jié)果基本一樣。但是,這四組數(shù)據(jù)本身差別很大。如下圖。
如果不做可視化,簡單跑一個線性回歸,我們只能得到同樣的回歸線。數(shù)據(jù)可視化后,很直觀的,左上圖是傳統(tǒng)的線性回歸;右上圖需要high-order nonlinear term;左下圖x和y是線性關(guān)系,但是有outlier;右下圖x和y沒有線性關(guān)系,也有outlier, etc.
每一個數(shù)據(jù)科學(xué)家都應(yīng)該熟悉各種圖的畫法,更重要的是,不同的圖如何反映不同的信息以及面對不同的數(shù)據(jù)類型時,應(yīng)該選擇哪種圖才能最好的揭示數(shù)據(jù)里蘊(yùn)含的信息。
為此,強(qiáng)烈推薦關(guān)于R里ggplot包的教程:ggplot2 - Elegant Graphics for Data Analysis
https://link.zhihu.com/?target=http%3A//www.springer.com/us/book/9780387981406
當(dāng)然另一方面,如果數(shù)據(jù)量太大維度太高,數(shù)據(jù)可視化做起來就比較困難。這時候就需要一些經(jīng)驗(yàn)技巧了。
2. 跑完程序得到模型結(jié)果時,一定提醒自己:任務(wù)只完成50%,分析,驗(yàn)證,解釋結(jié)果才是根本!
很多時候,我們以為寫完code跑完程序就完事了。能做到這一步只能算是一個合格的data analyst。這離數(shù)據(jù)科學(xué)家,統(tǒng)計學(xué)家還差遠(yuǎn)了。分析,驗(yàn)證,解釋結(jié)果才是根本! 這個過程更需要data sense, domain knowledge, and statistical expertise.
在拿到結(jié)果的時候,一定要多問自己為什么。模型assumptions是否滿足?結(jié)果是否make sense?能否解答research question?特別當(dāng)結(jié)果不符合expectation時,要么有新發(fā)現(xiàn),要么有錯誤!如果有錯,錯在哪里?如果模型假設(shè)不成立,如何修正?是否有outliers,如何處理?或有missing values,missing的機(jī)制是啥樣的(missing at random, completely at random, or NOT at random)? 是否有multicollinearity? 數(shù)據(jù)收集是否有bias (如selection bias)?建模是否忽略了confounding factors (Simpson's paradox)?
3. 養(yǎng)成story-telling的習(xí)慣!
把分析結(jié)果跟你的boss或者collaborator講!務(wù)必讓他們明白!這個太需要技巧了, 特別是當(dāng)你的collaborator是layperson的時候。
不會說只能等著被虐,哪怕analysis做的再好!Over.
編輯 汪夢夢 王飛翔
推薦閱讀
攜程云海數(shù)據(jù)算法應(yīng)用大賽啟動 海量商業(yè)數(shù)據(jù)同步開放
國內(nèi)首個專業(yè)人工智能大賽——2016上海BOT大數(shù)據(jù)應(yīng)用大賽正式發(fā)布
專業(yè)大數(shù)據(jù)競賽平臺
中國數(shù)據(jù)青年成長之家
評論列表
還沒有評論,快來說點(diǎn)什么吧~