阅读笔记:《智能时代》

Abstract:《智能时代》是吴军老师所著,书中主要围绕大数据与机器智能展开阐述。

数据

  • 狭义:所有能输入计算机并被计算机程序处理的符号介质的总称
  • 广义:能被处理以表示编码的信息或知识,可被测量、收集、报告、分析、可视化

范式(paradigm,科学学概念)

  • 一个共同体成员所共享的信仰、价值、技术等等的集合。指常规科学所赖以运作的理论基础和实践规范,是从事某一科学的研究者群体所共同遵从的世界观和行为方式。

  • 科学研究发展的四个范式:描述自然现象的实验科学,以牛顿定律和麦克斯韦方程等为代表的理论科学,模拟复杂现象的计算科学,数据密集型科学

  • 每一次技术革命都会围绕一个核心技术展开:蒸汽机——>电——>计算机和半导体芯片——>大数据与机器智能

数据密集型科学

  • 产生背景:多维度和多变量导致很大的不确定性,虽还不能解释其因果关系,但可从足够多的数据中发现相关性从而把握事物的发展轨迹
  • 大数据:源于需求,得益于技术的发展
  • 数据的产生:互联网宽带化、移动互联网和物联网技术与应用

智能化时代

  • 大数据与机器智能相伴而生,促进物联网从感知到认知并只能决策的升华
  • 计算无所不在,软件定义一切,数据驱动发展
  • 时代特征:以大数据应用、智能化为标志
  • 如何在智能时代跨越思维的不连续性

大数据解决问题的本质用不确定的眼光看待世界,再用信息来消除这种不确定性

  • 世界的不确定性来自两方面:

    • 影响世界的变量太多以至于无法用数学模型来描述
    • 来自客观世界本身的不确定性(宇宙的特性)
  • 解决智能问题:将问题转化为消除不确定性的问题,而大数据则是消除不确定性的关键

  • 现有产业 + 新技术 = 新产业

信息论:建立在不确定性上的理论

  • 信息熵:将世界的不确定性与信息相联系

  • 信息熵(C.E.):信息的度量,描述信源的不确定度

  • 研究大数据与机器智能的基石

  • 要消除不确定性,就要引入信息,而引入多少信息取决于系统中的不确定性有多大(——>谁掌握信息,就能获得财富)

  • 互信息(Mutual Information):信息的相关性

  • 香农第一定律(信源编码定律):对信源发出的所有信息设计一种编码,则编码的平均长度一定大于该信源的信息熵;且一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵

    • 霍夫曼最优编码:把最短的编码分配给最常见的汉字
  • 香农第二定律:信息的传播速率不可能超过信道的容量

  • 最大熵原理:当我们要对未知事件寻找一个概率模型时,这个模型应当满足我们所有已看到的数据,但是对未知的情况不要做任何主观假设(应用于机器学习)

数据 vs 数字

  • 数据的范畴大得多,文字、图片、音视频等等
  • 范畴随人类文明的进程不断变化、扩大
  • 语料库:专门针对语音、文字的数据库
  • 数据是人造物

信息

  • 关于世界、人、事物的描述
  • 信息可以是客观存在的,也可以是人造的

使用数据的标准流程

  • 获取数据——>分析数据——>建立模型——>预测未知

数据驱动方法

  • 先有大量数据,而不是预设的模型,然后用很多简单的模型去契合数据(fit data)
  • 即只要数据量足够,就可以用若干个简单模型取代一个复杂模型
  • 切比雪夫大叔定律:当样本足够多时,一个随机变量和它的数学期望值之间的误差可以任意小

建立数学模型要解决2个问题

  • 找到合适的模型
  • 模型参数

大数据的特征

  • 体量大Vast
  • 多维度variety
  • 完备性

变智能问题为数据问题

计算机自动回答

  • 7类问题:What,when,where,which,who,why,how
  • 前5类已经可以回答的很好,难的是why、how

思维方式决定科学成就

工业革命:机械思维的结果

  • 机械思维的核心思想:确定性(可预测性)和因果关系

  • 爱因斯坦和牛顿的思维方式是一致的:建立在确定性(绝对时空)的基础上

  • 机械思维的局限性:否认不确定性和不可知性

  • 张首晟教授用3个公式概况人类科学文明的最高成就:

    • 爱因斯坦质能转换公式:$E=me^2$
    • 量子力学测不准原理
    • 熵的定义

从因果关系到强相关关系

技术改变商业模式

  • 技术革命导致商业模式的变化,尤其是新商业模式的诞生

技术的拐点

  • 拐点:重大科技图片常常需要酝酿很长时间,技术进步是个缓慢的量的积累,当量积累到一定程度就会在短时间内取得质的突破,然后新科技全面迸发,此即拐点

科技拐点

大数据形成的技术条件:从数据的产生、存储、传输、处理四维度分析

  • 数据的产生:电脑 & 传感器 & 已有信息数字化
  • 信息的存储:存储技术的进步,如SSD
  • 传输(从采集端到存储端): 移动通信
  • 处理:算力 & 并行计算

机器学习

  • 不断迭代进步的过程,即“期望最大化(Expectation Maximization)”,只要事先定出一个学习目标,这些算法就会不断优化模型,以越来越接近真实情况;算法迭代次数越多,学习得越深入,则得到的模型效果越好
  • 机器学习方法不可能每家公司都自己去研究,最终会由专业公司为大众提供机器学习服务

数据安全与隐私保护

  • 对数据安全性和隐私保护的诉求
  • 数据安全:保证用户数据不损坏 & 保证数据不被偷走或盗用

大数据应用

  • 体育

  • 农业

  • 医疗

  • 律师

  • 记者、编辑

计算机写作

  • 计算机写作的层次
    • 书写完整的句子
    • 组织几个句子构成符合逻辑的段落
    • 给予特定格式或写作模板,能清晰传递信息
    • 能不限定格式地写作内容,达到一般人写作水平
    • 能达到专业记者、作家、学者水平
  • 目前计算机已达到第3层次
拿钱去买猫粮和狗粮嗷 ~