大数据与数据科学概论
一、决策依据的变化
直觉判断与经验估计 → 数字分析
两个经典案例:
葡萄酒品质预测(回归方程):
棒球手得分预测:
二、核心概念
大数据分析
大数据分析是决策者自己执行并为自己决策服务的。
长尾理论
一定条件下,“小众商品”也会有非常大的需求——只要获取到这个条件。
本质
二八定律的叛逆。关键在于找到那个触发长尾需求的条件。
回归分析
使用历史数据估计不同的原因变量对某个变量的影响大小。如上面的葡萄酒品质方程。
"回归"名称由来
因第一个回归方程得出的结果是一条趋于平均的曲线而得名”回归”。
三、数据科学家
Quote
数据科学家 = 统计学家 + 程序员 + 讲故事的人 + 艺术家。
核心技能
- 数学和统计技能
- 了解机器学习 — 机器学习使用人工智能算法将数据转化为价值,并且无需显式编程
- 编程语言 — Python
- 数据库、数据池及分布式存储
- 数据修改和数据清洗 — 数据修改是将原始数据转为更容易访问和分析的格式;数据清理有助于消除重复和”坏”数据
- 数据可视化和报告
- 大数据工具 — Hadoop、R 语言、Spark 等
四、数据安全与隐私
核心担忧:数据误用、隐私泄漏
驾驶比喻
每次开车其实都是冒着生命危险的。任何时候都可能有人撞过来,即使我们什么都没做错。发生这样的事情确实很可悲,但它发生的几率太小了,以至于我们都可以接受这种风险。而从中我们获取了许多好处——我们能自由去任何地方,其好处足以弥补可能发生的风险。没有人会为了阻止车祸而建议禁止汽车上路。
大数据也是如此,利大于弊。
另一观点
隐私问题是悬在大数据领域头上的达摩克利斯之剑。数据价值与数据隐私安全是一对矛盾,就像互联网安全与易用性的矛盾一样。实际上,熟人通过非定位行为数据很容易反推出你的数据,并且熟人如果有恶意,危害更大。
五、数据开放与交易现状
由于行业壁垒重、法律不健全以及涉及顾客隐私,现阶段很多数据还不能轻易进行交易。
- 美国和英国数据开放的第一步是跟生物相关的数据
- 目前社会上开放的,往往是宏观、经济、政府公共部门的数据(天气、地质等)
- 贵州大数据交易所更多涉及政府相关数据,必然要对数据进行脱敏
六、数据驱动的鸿沟
Important
许多公司可能并不缺少将大数据充分利用起来的必要技术;它们缺少的,是寻找彻底将数据充分利用起来的那种方式的渴望。
分析员们解读数据是一回事,而真正利用分析结果扒动公司业务的实时变化,则是另外一回事。