大数据与数据科学概论


一、决策依据的变化

直觉判断与经验估计 → 数字分析

两个经典案例:

葡萄酒品质预测(回归方程):

棒球手得分预测:


二、核心概念

大数据分析

大数据分析是决策者自己执行为自己决策服务的。

长尾理论

一定条件下,“小众商品”也会有非常大的需求——只要获取到这个条件。

本质

二八定律的叛逆。关键在于找到那个触发长尾需求的条件

回归分析

使用历史数据估计不同的原因变量对某个变量的影响大小。如上面的葡萄酒品质方程。

"回归"名称由来

因第一个回归方程得出的结果是一条趋于平均的曲线而得名”回归”。


三、数据科学家

Quote

数据科学家 = 统计学家 + 程序员 + 讲故事的人 + 艺术家。

核心技能

  1. 数学和统计技能
  2. 了解机器学习 — 机器学习使用人工智能算法将数据转化为价值,并且无需显式编程
  3. 编程语言 — Python
  4. 数据库、数据池及分布式存储
  5. 数据修改和数据清洗 — 数据修改是将原始数据转为更容易访问和分析的格式;数据清理有助于消除重复和”坏”数据
  6. 数据可视化和报告
  7. 大数据工具 — Hadoop、R 语言、Spark 等

四、数据安全与隐私

核心担忧:数据误用、隐私泄漏

驾驶比喻

每次开车其实都是冒着生命危险的。任何时候都可能有人撞过来,即使我们什么都没做错。发生这样的事情确实很可悲,但它发生的几率太小了,以至于我们都可以接受这种风险。而从中我们获取了许多好处——我们能自由去任何地方,其好处足以弥补可能发生的风险。没有人会为了阻止车祸而建议禁止汽车上路。

大数据也是如此,利大于弊

另一观点

隐私问题是悬在大数据领域头上的达摩克利斯之剑。数据价值与数据隐私安全是一对矛盾,就像互联网安全与易用性的矛盾一样。实际上,熟人通过非定位行为数据很容易反推出你的数据,并且熟人如果有恶意,危害更大。


五、数据开放与交易现状

由于行业壁垒重、法律不健全以及涉及顾客隐私,现阶段很多数据还不能轻易进行交易。

  • 美国和英国数据开放的第一步是跟生物相关的数据
  • 目前社会上开放的,往往是宏观、经济、政府公共部门的数据(天气、地质等)
  • 贵州大数据交易所更多涉及政府相关数据,必然要对数据进行脱敏

六、数据驱动的鸿沟

Important

许多公司可能并不缺少将大数据充分利用起来的必要技术;它们缺少的,是寻找彻底将数据充分利用起来的那种方式的渴望

分析员们解读数据是一回事,而真正利用分析结果扒动公司业务的实时变化,则是另外一回事。