图片来源
视觉中国大模型的热潮,正推动AI(人工智能)基础设施走向新的历史舞台。
“大模型,就跟过去的小模型一样会变得趋同化,也就是对算力成本的消耗会逐渐降低,在应用领域(场景)的落地能力得到了更强的扩大。从更长远来看,AI的落地会落实到某种具体业务的支撑,这同时也会导致某些角色(岗位)被替代掉。在新的稳态下,会形成新的基于大模型能力的产业链分工。”九章云极DataCanvas联合创始人尚明栋告诉钛媒体。
定位于AI基础软件服务商,而不是一个单纯的模型方案提供商,九章云极这个思路,与当下大模型技术带来的产业变革密切相关。
尚明栋认为,大模型与过去训练的小模型出现了根本性区别,即模型两段论:首先有一个基础大模型,然后在这个基础之上基于知识库/知识图谱技术,构建面向专业领域的微调模型。
但聚焦于AI基础软件又有些不容易让人理解,与通常意义上讲的EDA、ERP等工业核心软件不同,AI基础软件不仅仅是涉及到软件层面,它还是面向中国客户的ToB软件生态。
在年成立之初,九章云极并没有AI基础软件的概念,而更多是数据智能基础软件,这个中间的变化也是源自ToB软件产业能力栈的分工改变,这个过程也伴随了客户市场的成熟。如今ChatGPT进行了一场非常成熟的全民性教育,因而大模型的能力建设在时间上会被极大的压缩。九章云极也在大模型训练的关键环节上“啃了硬骨头”,并具备快速形成标准化工具的能力。
但这家企业过去也走过弯路,怎么提供一套符合中国客户需求的产品服务,相比于以效率为先的思路,以国央企客户为服务主题,很多企业首先要保证数据信息安全的问题,因此九章云极最早是围绕数据为企业构建存、算能力。
目前九章云极提供了数据基础平台、机器学习平台,以及行业大模型平台。在数据基础层,包括数仓、流批一体的实时数据能力。在AI机器学习平台方面,九章云极一方面会长期投入可形成核心壁垒的部分,同时也在于头部企业客户形成早期合作。比如包括AutoML、大规模分布式训练框架、因果推演YLearn,都是从年起就开始投入。
而在预计推出的大模型方面,由于同样受限于传统深度学习的方式,大模型技术在可解释性上依然存在挑战。
赛迪顾问最近提出一则观点:国内企业在大模型发展方向研判上呈现出跟随式发展态势。例如GPT开启多模态大模型发展方向后,国内先发大模型也纷纷发展多模态,如何摆脱跟随式发展路径依赖,构建自主可控创新型大模型是当前重点任务。
大模型预计为产业带来了巨大影响,但同样存在不小的应用风险和商业化成本问题。这值得思考。从目前来看,大模型在企业场景中的应用形态还比较单一,更多局限于语音/文字交互,如金融行业可能就是一张金融报表或检索工具。
但大模型已经在增强模型泛化能力,意味着AI落地性增强了,与此同时也在对过去的基础设施进行冲击,过去需要的是计算、存储、网络三要素,而现在带宽支撑已经远远不够,算力密集型应用场景中需要大量的算力建设。
尚明栋认为,未来影响大模型多样化路径发展的三大重要因素,算力、数据和基础软件。未来随着算力性能逐渐同质化和标准化,数据的差异性和企业需求的个性化逐渐加大。作为模型生态系统的中坚力量,AI基础软件将会成为大模型应用落地的最主要的效率支撑,并通过大模型+小模型的方式,形成模型训练新范式。
以下为钛媒体与尚明栋的对话,主要解读了当下产业趋势、大模型带来的影响,以及九章云极在其中扮演的角色。以下内容经摘编:
钛媒体:如何理解九章云极在做的大模型基础设施?
尚明栋:其实我们偏向于行业构建大模型,这与九章云极一开始的定位有关,一是服务于多个行业,二是打造的工具栈基本也是面向ToB为主。目前已经非常明显地出现了行业模型的分化,所以我们更多也是基于行业构建大模型,或者说行业小模型。
钛媒体:但难度还是存在的,除了算力和数据,是不是意味着会跟业内其他大模型企业合作?
尚明栋:从长远看,大模型跟小模型一样会更加趋同化,对算力的成本消耗会持续降低。之所以说“大”,其实讲的是它具备一定的数据规模和技术门槛,同时起应用领域得以进行非常多的扩大。大模型会逐渐构成一个新的产业链分工,因此AI的工业落地一定会落实到对于某个具体业务的价值体现。
例如大模型中涉及的专业知识库的构建,原先可能都需要数据分析师利用SQL语言进行软件涉及,而未来可能直接通过自然语言交互,从而降低了很多对专业性技能的依赖。从这个角度上,我们也会有自己的长期定位。
钛媒体:领域大模型或垂直大模型,如果引入银行客服、风控、反欺诈等场景,大模型的底层应用逻辑是什么?看到或预判了什么样的场景?
尚明栋:坦白讲我不能列举太多,但我们的思考是,过去小模型解决的是“场景”,大模型往往代替的是“分工”和“角色”。大模型一方面为企业带来了收益,同时也在为企业节省出了人工成本。根据这样一个逻辑,与我们自身行业生态结合比较紧密的,或者说消耗了大量人力成本的环节,更有可能成为被大模型替代或驱动的目标,也是我们努力的方向。
目前银行业的风控、营销、运营等场景,都在非常密集地使用AI模型,用于替换原有的专家规则系统,本质上起到了开源节流的效果。
钛媒体:九章云极在开源方面也做了一些工作,比如因果学习YLearn、实时交互式分析DingoDB,观察国内外的企业组织,有哪些在开源生态运营或培育种子客户方面,有哪些值得借鉴或可以超越的地方?
尚明栋:我们希望能够持续在开源社区发声,更好地提高项目框架的开发者活跃度。但就今天而言,在开源生态运营方面,我们其实也有短板,或者能力会相对有限。我们会积极参与到开源生态里,对于需要行业工程化或能力复用的部分,会更好地根据行业或企业特性进行支持。
以DingBD为例,DingBD的出现本质上是源自其行业客户在实时数据应用过程中的能力不足。例如某企业客户此前搭建了一套传统数仓,后来又因非结构化数据搭建了数据湖,并引入流数据能力,以实现数据服务的实时化。
但在这个过程中,随着模型应用的实时化,会发现越来越多的模型在训练和推理过程中所需的实时框架,是原先内存式数据库所不能满足的。在解决存储问题的同时,实现高并发的实时计算,DingBD原先解决的就是这样一个问题。
如今随着行业数据的丰富,最早的键值数据库的定义已经在改变,我们也会进行新的升级,在支持高并发的同时,提供支持存储的交互式数据库。
钛媒体:目前客户应该是国央企占多数,所以是因为有这样的客户群体,最终决定了产品设计,包括推出云中云战略?
尚明栋:这里面国央企占了绝大多数。结合国家在十四五期间对于大数据、人工智能的定调,我们认为中国数字经济的三家马车,一定是算力、云计算和大模型。所以作为一家企业,也是顺应时代潮流,积极参与到国家在大数据和人工智能的生态建设中。
钛媒体:服务这类客户时,比如会提及数据安全层面的话题,怎么呈现这样一个数据战略?会参与数据云建设吗?
尚明栋:单从技术趋势看,面对数据出现了存算分离,这其实有益于上一代存算一体背景下对数据分析的新范式。数据云,可能更偏向于集中化数据标准能力建设或者更偏向于“存”,而我们提供的是怎么能让企业高效计算并支撑上面的应用。
就目前所服务的客户需求而言,基本属于数据密集型业务,需要一定的算力规模,同时客户自身也具备一定的技术能力。
钛媒体:哪些行业是数据密集型,其典型的需求特征是什么?
尚明栋:数据不会凭空产生,未来模型也是数据资产的一部分,从趋势上看,数据的产生是一个持续建设的过程。例如,互联网行业属于信息化与数据更加密集的行业。
九章云极最早进入的其实是金融银行业,然后逐步拓展至证券、保险、基金,进而从金融行业延伸到了运营商、智能制造、交通、能源电力等行业。另外,伴随企业信息化建设的延续,如物联网感知设备数量的增长,产生了非常多的非机构化、半结构化数据。
钛媒体:这些数据是可以高效利用的吗?
尚明栋:所谓理想的高效利用还有距离,但从趋势上来讲,我认为行业对于数据资产的价值体现上,已经有明显都带有对数据资产价值的高度共识。
(本文首发钛媒体APP,作者
杨丽)