新闻中心
关于何为数据科学家,小科曾在文章中如此解释:
数据科学家是二十一世纪的炼金术士:怎样利用数据可视化技术提升信息检索他们洞悉原始数据,从而进行转化。数据科学家利用统计、机器学习和分析方法来解决关键业务问题,帮助公司将大数据量化为有价值、可操作的见解。
感兴趣可查看:数据科学家vs数据工程师,谁是你的真实身份?
事实上,成为一名优秀的数据科学家,是许多数据人的梦想。那么,立志成为数据科学家的你,认为什么是数据人不可缺少的好习惯呢?小科特地摘取了知乎的高票答案,供大家借鉴,大家也可在文末留言区发布看法哦~
答主:曾耀辉
原答链接:https://www.zhihu.com/question/26894983
已有的答案大多谈的都是high level的比较抽象的东西,像了解业务、阅读人文、培养好奇心这些。怎样利用数据可视化技术提升信息检索我来说说具体关于数据分析的习惯好了。
1. 分析数据前,一定要尽可能多的进行数据可视化!可视化!可视化!做exploratory data analysis!
(说三遍!!!)
我上过的几乎所有的应用性的统计课程上的老师都会强调这一点。这个习惯对于数据科学家、统计学家来说估计是最最实用的。在实际的数据分析过程中,数据可视化可以揭示很多insights:从选择什么样的模型,选择哪些feature建模,到如何分析结果,解释结果等等。
给一个很著名的例子, Anscombe's quartet (安斯库姆四重奏):
https://link.zhihu.com/?target=https%3A//en.wikipedia.org/wiki/Anscombe%2527s_quartet
这个例子包含四组数据。每组数据有11个(x, y)数据样本点。四组数据样本里x的均值方差全相等,y的均值方差基本相等,x与y的相关系数也很接近。导致的结果是,四组数据线性回归的结果基本一样。但是,这四组数据本身差别很大。如下图。
如果不做可视化,简单跑一个线性回归,我们只能得到同样的回归线。数据可视化后江南体育下载,很直观的,左上图是传统的线性回归;右上图需要high-order nonlinear term;左下图x和y是线性关系,但是有outlier;右下图x和y没有线性关系,也有outlier, etc.
每一个数据科学家都应该熟悉各种图的画法,更重要的是,不同的图如何反映不同的信息以及面对不同的数据类型时,应该选择哪种图才能最好的揭示数据里蕴含的信息。
为此,强烈推荐关于R里ggplot包的教程:ggplot2 - Elegant Graphics for Data Analysis
https://link.zhihu.com/?target=http%3A//www.springer.com/us/book/9780387981406
当然另一方面,如果数据量太大维度太高,数据可视化做起来就比较困难。这时候就需要一些经验技巧了。
2. 跑完程序得到模型结果时,一定提醒自己:任务只完成50%,分析,验证,解释结果才是根本!
很多时候,我们以为写完code跑完程序就完事了。能做到这一步只能算是一个合格的data analyst。这离数据科学家,统计学家还差远了。分析,验证,解释结果才是根本! 这个过程更需要data sense, domain knowledge, and statistical expertise.
在拿到结果的时候,一定要多问自己为什么。模型assumptions是否满足?结果是否make sense?能否解答research question?特别当结果不符合expectation时江南体育app,要么有新发现,要么有错误!如果有错,错在哪里?如果模型假设不成立,如何修正?是否有outliers,如何处理?或有missing values,missing的机制是啥样的(missing at random, completely at random, or NOT at random)? 是否有multicollinearity? 数据收集是否有bias (如selection bias)?建模是否忽略了confounding factors (Simpson's paradox)?
3. 养成story-telling的习惯!
把分析结果跟你的boss或者collaborator讲!务必让他们明白!这个太需要技巧了, 特别是当你的collaborator是layperson的时候。
不会说只能等着被虐,哪怕analysis做的再好!Over.
编辑 汪梦梦 王飞翔
推荐阅读
携程云海数据算法应用大赛启动 海量商业数据同步开放
国内首个专业人工智能大赛——2016上海BOT大数据应用大赛正式发布
专业大数据竞赛平台
中国数据青年成长之家