美国硅谷数字技术科学家凌棕在科创中国数字

白癜风是怎样得的 http://pf.39.net/bdfyy/bdfjc/140928/4484856.html

我演讲的题目是《大数据存储的挑战》和《人工智能大潮的新浪——ChatGPT》。我们谈数字经济,数字就是我们的基础。我谈三个小专题,数据需要存储,容量有困境,纾困需要寻找出路。

数据的存储这是一个最基本的问题。其实我们可以从数字信息技术的本质谈起。我们所谓的数字信息技术的本质,就是将现实世界中的信息,转换成二进制电子数据。现实当中有图片、流量甚至金钱,我们变成二进制的电子数据,然后用计算机进行采集、搜集、显示等等,帮助人们进行正确的决策。所以数据本身就是支撑数字经济的重要基石,也是推进着智慧管理的重要资料。数据,还是数字化的数据。

那么为了引领数字经济创新服务潮流。我们在IT这个领域已经奋斗了上百年的历史。从早期的打字机,到计算机主机、个人电脑、手机、可穿戴设备等等,这些数字化的手段,引领整个社会的数字化进程。在这个进程当中,我们一步一步地产生了电子商务、智慧地球、智慧城市、认知业务等等。就像一棵树,我们看到了树枝、树叶、果实、树干等等。这里面区块链、人工智能、智慧城市等等很多琳琅满目的题目和应用。特别是像中国的美团、饿了么、携程等等。这些是我们肉眼可见的应用方面。就像我们看到一棵树,我们看到树枝、树叶、果实在地面部分。这棵树能够成长,生根发芽,依赖的是树根。根通常在地面之下,我们通常看不到,这就是数据,数据的存储和存储的关联,这是我们要谈论这件事情的关系。

这件事情,数据存储的技术产品,已经沿革了上百年了。从早期一百年以前,大家用纸质的笔记本来记录数据。我们用穿孔卡片,打洞,光线能穿过去,穿不过去这种形式记录,当时写程序就是一张卡片。然后变成穿孔纸带,一个操作系统我们28层纸带,然后做成了磁性的硬盘,磁性的软盘,光盘,固态盘,以及未来将会出现的原子级存储器,分子级存储器。数据存储技术在不断地蓬勃向前发展,这是我们很多人不容易看到。因为我们看到树的时候很难看到树根,但是它在扎扎实实地引领着创新基础技术的发展。

那这件事情有多重要呢?这就是我们今天要谈论的的话题。首先是教育上的创新,数据存储在任何的高校,很少会有一个专门的专业来开设。我们有计算机专业,这是八十年前IBM开创的计算机科学这样一个教育学科。现在全世界的普通高校都有这样一个学科。但是数据存储,没有一个独立的学科。这涉及到教育上的创新。产业上的创新,目前的存储器体积太大,效率太低,涉及到安全性等等一系列的问题,需要研发新型的数据存储产品,于是需要技术深的创新,而数据存储涉及到底层核心技术,涉及到了很多不为人知的短板。这就是我们现在亟待解决的问题。

数据存储一直面临很多困难。现在我们面对的一个很大的困难就是容量困境。现在的数据存储技术无法回答未来我们将数据往哪里放。那么数据量是蓬勃的发展,不论是有疫情、战争,国与国的争端,数据就是在增加。但是我们数据存储空间的速度赶不上数据量增加的速度。

那怎么办呢?现在在中国,至少我们看到这样的权宜之计:定期的删除数据。比如说智慧城市,全国的智慧城市大概只能存一个月的数据。就是哪些十字路口的监控摄像头等等,只能存一个月。那么把老数据删掉,才能把新数据存进来,这是目前的管理办法,这是一个权宜之计,删掉就没有了。如果你想要看一个三个月前的视频,就没有了。不删库存,没有地方。这就带来了很痛苦的一个问题,现在我们搞大数据。历史数据你把它删掉了,这个数据的学习方法就受到限制了,这不是一个好办法。但是目前这是权宜之计,全国各地都没有办法。

还有一个办法,盖房子,我去圈一块地,然后拆迁盖房子,把通水通电拉进去,一个数据中心建成,我可以存数据了。这也不是一个好办法。耗费资源,耗费电力资源,人力资源,国土资源等等,这种形式都不是好办法,我们认为这一些都是非技术手段,来对大数据容量的困境进行纾困,这是不可持续的。当然现在没有办法的办法,国家的一个战略部,叫东数西算,把东边的数据放到西边去,这个工程投资体量,达到一年上千亿元。

传统的基建是盖房子,盖房子这件事,我们认为这是一个房地产行业,绝对不是存储技术。数据存储中心的建设,如果靠房地产的方式来进行,有很多痛点,维护设备的痛点,运维人员的痛点,数据中心能耗的痛点,这涉及到双碳等等。中国对国际上有一定保证,我们要达到一定的双碳目标,如果铺天盖地盖数据中心,这是不合理的。

那么土地资源的占比,虽然我们有很多国土,大家它还是有限的。据估计,减少一个PB存储容量,可以减少三百块钱,这是有利可图的商务行为。特别要指出的,数据存储的管理核心技术。是我们卡脖子关键技术清单中的基础,我们有30几项卡脖子关键技术清单,中间的操作系统、核心工业软件、核心算法等等,基础的核心技术是数据存储的管理,都是建立在数据存储之上的,所以这件事情非常重要。那么怎么样做才是合理的呢?要用创新研发,应对扩容的挑战。

我们至少可以讲两个容量纾困的思路,第一减少数据存储空间的需求。比如开发数据驱重的产品。第二可以缩小数据存储的体积。比如探索原子级的存储器。纾困的思路,这两者我们应该在这方面发力气一来做这个事情。数据去重,这是一个减少数据存储空间需求的方法,识别重组数据的模块是操作系统之下的模块,然后只存储单一的模块和存储的链接关系。产生的效果就是我今年要采购十个存储机柜,经过数据去重处理之后,只要两个就够了。十个机柜,五百万美元。两个,一百万。节省了空间,节省了资金,这种原理简单。

我们十年前,IBM已经将这个产品推向世界了。目前大型的企业,都在使用这类的去重技术。中国大型的银行也使用。但是不是中国自主可控的产品,是国外的产品,IBM是一个国外公司,所以实用的产品技术要多年积淀,才能形成产品力量。这样的产品市场需求十分旺盛,刚需的场景至少有两个,一个是企业的通用数据灾备系统,需要备份,备份一个月,备份三十个版本。这三十个版本中间,有大量的重溯数据,于是识别这种重溯数据进行有效存储,是节省存储空间的有效方法。

还有智慧城市监控视频,对准着我们一个位置一天24小时拍摄下来的视频,背后的立交桥是不变的,只有车身网能变动。所以这类的视频信号有大量的重溯数据,地形、地貌、建筑等等是可以进行去重处理的。曾经北京海淀区做过一个估算,他一年需要人民币一亿六千万,如果使用数据去重产品,可以降低存储空间一半,于是可以节省八千万,全国有三百多个地级市,有近三千个行政区。所以这是一片亿万商机的海洋,目前是我们的空白点,没有自主可控的产品。

第二个思路,探索原子级的存储,大幅缩小数据存储设备的体积。缩小多少倍,几十倍,几百倍,几十万倍,这是我们的目标。基本的想法是盖一栋楼,是一个海量的数据存储中心,我们希望中间所存的数据,可以存到一个便携式的存储设备上去,比如一个U盘,类似一个火柴盒,或者打火机。这是便携式的,可能吗?可能的,数十万个原子表达一个零或者是一,就是物理键,不管你是光盘,U盘,还是磁盘,每表达一个零或者一,大概要几十万个原子。我们希望用一个原子表达0或者1,比如正转为0,反转为1,就这么一个思路。当然这中间有一系列的专利,用这样一个办法,就指引着未来数据存在的发展方向,微型化数据存储设备。这件事情,已经有了一些进展,但还没有形成产品,它的要点就是采集原子状态的切换,实现数据的微型化。这是一个创意的思路,需要进行顶盘的实践,年3月份,IBM已经宣布成功在单个原子存储一个比特的数据,这已经发表了论文。这种思路,会指引着我们来面对大数据存储容量的困境。

我们还看到有一些公司,像微软,也在做这件事情,用DNA的分子级数据,来存储大数据。在这种情况之下,那我们的数据存储设备也可以降到分子级别,于是可以节省存储空间。

所以今天我的第一个话题就是数据存储这件事情是一个问题,它的容量我们面对的困境。那我们提出来的纾困的思路是从技术上想办法,减少存储空间需求,缩小数据存储设备的主机,这是我要分享的第一个题目。

第二个题目,是现在最为热火的题目,ChatGPT,跟我们有着非常密切的合作关系。我们认为它是一个人工智能大潮的一个新浪。人工智能这个领域,它有一个漫长的发展过程,有几百年了。很多杰出的科学家做了铺垫工作。什么是人工智能?怎样实现人工智能?怎么样判定某一个机器具备了人工智能?著名的图灵试验,就是做这类的事情。那么在90年代,当时IBM做了一个实践,就是造了一个深蓝计算机,下棋,战胜了人类的象棋大师。这是人类历史上第一次,我们用一代机器,它不是人,但是战胜了人的某种智力,从那之后开辟了将人工智能用计算机设备来实现的一个方向。机器人、机器手,当然下象棋、跳棋,围棋、打扑克,蓬勃的发展。

人工智能研究领域,我们在这张图上简单表示是这样。右边是人类的智能,我们作为人类,这个物种生活在世界上,我们拥有很多的智能。左边是计算机所能做的事情,怎么样让计算机越来越多越来越逼真地模拟人的能力,这是人工智能研究领域。中间的黄色部分是成千上万的科研工作者,在用毕生的精力,论文、算法等等来做这件事情,这是我们在这个领域的概况。

那这个领域,目前有很多问题,但是并不妨碍它蓬勃的发展,影响着我们现代社会的实际应用。我们产生了人工智能技术的产业链群,有方案、应用技术、基础设施,产生了一系列的细分的行业。这样的行业不是我们今天的主题,它的要点,只要有一个现实生活中的应用,我们就希望用信息技术的手段来提高这个应用的使用效率。客户的满意程度和它的生产过程、质量等等。这是我们的基本思路。

所以人工智能沿着这个思路在发展。这个思路最早是棋类游戏,下棋,它的规则是固定的,但是计算数量非常大。人忙不过来,那用计算机的大量算力,来跟人力智力比。下一个级别是智力问答,它就是回答问题,背后是海量数据,将这些问题分类,然后演示出来,用跟人自然对话的方式进行交流。然后是辩论比赛。两个辩手,一个是真实的人,一个是计算机进行辩论,产生题目,然后制造话题,互相听取论点,然后进行反驳,最后结尾,这个已经到了这一步。下一步是高级决策,帮助我们的企业经理、决策人、政府官员提供数据型的关键性的的人工智能的方案。

这个方案现在遇到了强劲的风口,人工智能正在进军人类的独有领域。以前我们认为这个领域只有人类才能做到,机器不可能做到的,现在人工智能新的设备不断登场。早期已经有几个,在去年的时候,Lthaca帮助历史学家恢复古代铭文,并追溯铭文的起源,这里面有很多智能的算法和数据集。AlphaCode,它可以编程序,编出来的程序和初级程序员写出来差不多。这个DeepNash可以学会下西洋的陆军棋,现在他的冠军永远是计算机了,人类已经下不过它了。还有像AlphaFold和ESM-Fold,它可以预测一种蛋白质结构,过去结构,生物化学里面很重要的手段是分析预测蛋白质的结构,一个实验室一年分析出四五个人来,花费大量的人力,现在不用了,人工智能可以做这个事,一年可以做各级亿个。像ALphaTensor就是矩阵式相乘的运算,今天我们要谈的是ChatGPT,回答复杂的问题,我们叫做生成内容式的人工智能,叫IAGC。它本身就是让计算机非常聪明的与人进行对话。计算机是计算机,但是它对话的时候,就像我们跟一个人进行交谈一样。这个手段不是唯一的,不是ChatGPT全世界独一的。有很多聊天机器人,谷歌有,facebook有,当然openAI出尽了风头,ChatGPT做得最好。

ChatGPT它适合人机对话,它结合了目前处于巅峰状态的人工智能机器学习的方法,变成一个人工智能机器人。在这种对话的方式当中,它模仿人类的对话。过去我们在计算机上要搜索一个东西,它会给你一个答案,或者给你一组答案,让你自己去学。现在不是了,现在它相当于人坐在背后,找到这个答案之后,经过逻辑思考,推理出来很有条有理地表述这个答案,像是在聊天的过程。这种方式是企业为客户服务非常需要的一种方式,像聊天的实时交流的方式。

所以ChatGPT目前有一些主要功能,我就是在ChatGPT上咨询了这个功能,我说你有什么功能,它说我可以做这样一些事,聊天对话,文本生成,翻译,摘要等等。它可以做这样一些事情,这些事情可以有很多实际的应用,比如说自动化的客服,你打电话问银行,你们的利率多少,几点钟开门,地址在哪里。另外它可以产生文章,产生一些内容来进行宣传,产生一个连续的问答系统,这一些都是ChatGPT的非常有意思的地方,也是目前人们非常


转载请注明:http://www.180woai.com/afhhy/4980.html


冀ICP备2021022604号-10

当前时间: