大数据文摘作品
编译:VVN、蒋宝尚、龙牧雪、魏子敏
正在让这个时代激动不已,但也正引发不少担忧。被誉为机器学习之父的美国三院院士、伯克利教授MichaelI.Jordan昨天在美国知名科技媒体Medium上,难得的发布了他的第一篇文章。一反以往的技术干货输出,这篇文章的主题是对当前AI研究中的问题进行冷静反思。
这篇名为《人工智能:革命远未到来》的长文阅读时间在20分钟左右,从14年前Jordan教授自己的一个关乎生死抉择的故事说起,回顾了AI发展的过往,更重要的是,提出了数据和机器学习当前研究是如何偏离初衷,又蕴含了怎样的巨大威胁。他认为,我们还有机会来建构一种新学科领域——真正以人类为中心的工程学科。
大数据文摘对这篇文章进行了全文编译,对原文感兴趣的读者可以科学上网去Medium查看原文。
以下为MichaelI.Jordan博客全文:
作为这个时代的代名词,人工智能正被技术人员、学者、记者和风险投资人共同吟诵。
和其他专业名词一样,这个名词在被使用过程中伴随着种种误解。事实上并不是公众不理解科学家,而是科学家有时候也像公众一样迷惑。
“与人类智能相媲美的硅基智能正诞生于我们所处的时代。”这类想法让我们激动万分,也带来了同等程度的惊吓和分心。
而关于当前的时代,也有一些不同的声音。
让我先讲一个故事,它涉及到人类、计算机、数据和生死抉择。
超声波检测数据和唐氏综合征
14年前我的太太怀孕时,我们做了一次超声波检查。一位遗传学家指出,胎儿心脏周围有一些白色斑点。
“这些都是唐氏综合症的标志,”她说,“患病风险已经高达5%。”她还告诉我们,我们可以通过羊膜穿刺术来了解胎儿的实际情况,但羊膜穿刺术具有一定的危险性,手术中胎儿死亡的概率约为1/。
作为一名统计学家,我决定找出这些数据来源。
长话短说,我发现十年前有人在英国做过一项统计分析,这一分析称,这些白点反映了钙的积累,确实是唐氏综合症的一个预测指标。
但我也注意到,在我们的测试中使用的成像仪比英国研究中使用的,每平方英寸多几百像素。我回去告诉遗传学家,我相信这些白点很可能是假阳性的,它们实际上是“白噪音”。她说:“啊,这就解释了为什么自从我们开始用新机器,唐氏综合症的诊断就不断上升。”
我们没有做羊膜穿刺术,几个月后,一个健康的女孩出生了。
这一事件让我非常困扰,特别是在粗略计算后,我发现全世界每天有成千上万的人正接受这种诊断,而且其中很多父母选择了羊膜穿刺术,导致了一些婴儿不必要的死亡。
这种情况一天又一天发生,不知何时才能停止。
这个故事中的问题与我个人的医疗保健无关;它关乎医疗系统,测量不同地点和时间的变量和结果,进行统计分析,并在其他地方和时间使用结果。
这个故事中的问题与数据分析本身有关,而且与数据来源有关。
广义而言,数据来自哪里,数据得出了什么推论,这些推断与当前情况之间的相关程度如何?
一个训练有素的专家也许能够逐案解决所有这些问题,但问题能否是设计出全球医疗系统的解决方案,以至于不用人类监督也可以解决这些问题。
我也是一名计算机科学家,想要建立这种全球的推理和决策系统所需的原则,将计算机科学与统计学相结合,并考虑到人类的福祉,我所学的知识并不能帮助我解决这些问题。
不仅在医疗领域,而且在商业、交通和教育等领域,这些原则的发展至少与建立能让我们眼花缭乱地玩游戏和进行运动感知的AI系统一样重要。
无论我们是否很快就能理解“智能”,我们都面临着一个重大挑战,即将计算机和人类友好交互,从而给人类生活带来便利。
尽管有些人将之视为“屈从于人工智能”,但它也可以被更平常地看待,就像创建一个工程学科的新分支一样。
就像过去几十年兴起的土木工程和化学工程一样,这门新学科的目标是聚合几个核心思想的力量,以安全的方式为人们带来新的资源和能力。
土木工程和化学工程建立在物理和化学之上,而这个新的工程学科将以上个世纪落地的思想为基础,这些思想包括“信息”、“算法”、“数据”、“不确定性”、“计算“、”推理“和”优化“等等。
此外,由于这个新学科建立在有关人类的数据之上,所以其发展也需要从社会科学和人文科学的视角剖析。
虽然人工智能大工程的积木块已经有了,但是把这些积木块组合在一起的原则还没有出现,所以这些积木的组合仅仅以特例的方式存在。
就像在土木工程学科出现之前建造房屋和桥梁一样,人类开始着手构建大规模的推理和决策系统,它涉及机器、人类和环境。
正如早期的建筑和桥梁有时会以不可预见的方式崩塌并带来悲催的后果一样,目前许多早期的大规模推理和决策系统已经暴露出了严重的概念缺陷。
不幸的是,我们并不善于预测下一个会出现的严重缺陷。我们缺少的是一个具有分析和设计原理的工程学科。
当公众谈到这一话题时,他们过于频繁地使用“AI”,仿佛它是个通配符(wildcard),这使得人们很难推理AI这项新兴技术的范围和后果。
因此我们需要仔细思考AI这一名词在历史上和今天,到底指的是什么。
什么才能被称为AI?
今天大多数所谓“AI”,指的是过去的几十年中被称作“机器学习”(ML)的东西。ML是一个算法范畴,它将来自统计学、计算机科学和许多其他学科的想法融合在一起,设计算法来处理数据、做出预测并帮助做出决定。
ML真正给世界带来了影响,而且它所带来的影响不是最近才发生的。事实上,在90年代初就已经非常明确了:ML会给工业界带来大规模的影响。
在本世纪初,亚马逊这样的前瞻性公司已经在所有业务中使用了ML,解决了欺诈检测和供应链预测方面的关键问题,并且对面向消费者的服务做出了创新,如推荐系统。
在接下来的20年中,随着数据集规模和计算资源的快速增长,很明显,ML将不仅为亚马逊,而且将为任何一家能够将决策与大规模数据联系在一起的公司提供动力。
新的商业模式将会出现。“数据科学”这个名词开始被用来指代这种现象,反映出ML算法专家需要与数据库和分布式系统专家合作以建立更强的ML系统,也反映这一推理系统在社会和环境方面的潜力。
这种思想和技术趋势的融合在过去几年中被重新命名为“AI”。这一重塑值得仔细推敲。
从历史上看,AI这个词在上世纪50年代末被创造出来,表达了在软件和硬件中实现具有人类智能实体的强烈愿望。我们将使用“类人AI”一词来指代这一愿望,它强调人工智能实体似乎应该是我们中的一员,即使不是身体上,但至少在精神上(无论这可能意味着什么)。
这类研究主要存在于学术领域。虽然相关的学术领域,如运筹学、统计学、模式识别、信息论和控制论已经存在,并且常常受到人类智能(和动物智能)的启发,但这些领域可以说是集中在“低级”信号和决策上。
比如说,一只松鼠能够感知它所生活的森林的三维结构,并在树枝之间跳跃,这种能力给我们带来许多启发。
“人工智能”的