第四范式是一家备受关注的公司。
仅创始团队成员来看,哪一个不是计算机、机器学习领域响当当的名字?
戴文渊是ACM2005全球冠军,百度机器学习系统带队打造者,百度最年轻高级科学家,华为诺亚方舟实验室主任科学家;陈雨强设计了全球第一个商用深度学习系统,还曾是今日头条推荐系统的负责人;胡时伟则先后任职百度、链家网,负责多个核心系统的系统设计及研发管理。
2015年,他们和杨强、涂威威一起,发起创立了AI公司第四范式。
但第四范式又是一家大众“陌生”的公司。
有时外界把他们比作AI时代的Windows,有时也把他们和“iPhone相机”放在一起。总之,第四范式所要做的事情,是要提供一整套可以直接拿起来用的系统工具——一整套AI系统工具。
拿创始人及CEO戴文渊的话来说,第四范式当前的核心任务,是要不断降低企业使用人工智能的门槛。
在乌镇世界互联网大会现场,他决定用产品说话,推出“第四范式先知”3.0产品,并向量子位详解了背后逻辑。
戴文渊说,先知系统的核心出发点是让企业零门槛拥有AI能力。1.0解决了IT上的门槛,2.0解决了算法方面的门槛,3.0的针对门槛则是“认知”——让企业用户知道如何正确打通数据闭环,如何喂“正确的数据”。
先知3.0把AI使用门槛降低到什么程度?
戴文渊告诉量子位,利用先知3.0系统,一个完全没有机器学习经验的HR、前台等公司职员,也能轻松打造一个新闻资讯软件使用的推荐系统。
为此,一方面是让机器学习系统程序化,另一方面,第四范式在先知3.0系统打磨中引入了“学习圈”概念。
戴文渊认为,人工智能是模拟人类智能、实现机器智能的科学,要想机器可以更聪明地学习,就要研究下人类的学习过程。
所以可参考“库伯学习圈”理论,这是人类心理学研究史的著名理论,其认为人类学习的过程是由“行动——经验——反思——理论”这四个阶段构成,即通过行动产生经验,再通过反思将经验总结为理论,指导新的行为。
△ 学习圈
类比到机器学习领域,机器决策则是由过程数据(行动)、反馈数据(经验)、机器学习(反思)、产出模型(理论)构成的“机器决策闭环”。
换而言之,就是建立机器对复杂事情的判断能力和场景决策能力,模拟人的思维过程,训练机器能像人一样作出决策规划、产生策略。
以较常见的新闻个性化推荐场景为例。
首先,业务人员需要定义清晰需要达成的目标;
其次,第四范式先知会帮助企业“规范化”收集、记录用户行为的“过程数据”,如用户看了哪些新闻、系统曾经推荐了哪些新闻;
进而,系统会记录结果明晰的“反馈数据”,如推荐的新闻,用户点击与否;
在此基础上,系统通过智能的模型,对“过程数据”、“反馈数据”进行计算,最终指导机器做出决策。
SHAPE \* MERGEFORMAT
△ 信息推荐系统“学习圈”原理
戴文渊表示,先知3.0结合了机器学习特点,以及第四范式数百个行业应用案例的经验,产品迭代中,已经实现了从面向系统开发者的“机器学习平台”,迭代为企业经营管理人员服务的一体化“企业AI核心系统”,也就意味着,在生产决策层,AI也可以系统性发挥作用。
他举了个不能具名的银行使用案例。在第四范式与某全国性股份制银行的合作中,先知企业AI核心系统帮助该行制定了超过25亿个新的信用卡欺诈侦测策略,提升了超过7倍的反欺诈识别准确率。
不仅如此,该银行利用这套AI核心系统在其它20多个业务场景中发挥价值,快速实现业务线的全面智能升级。
“机器在策略方面相较人是有优势的。”戴文渊认为,机器能够依靠计算力从数据中发掘更多、更细的业务规则,精细化地做出判断。
“企业构建AI核心系统之后,大多数的一线决策行为会由效率更高的人工智能来完成,企业可以在投入最少人力、财力的成本下,获得强大生产力。”
不过,企业想要快速搭建定制化AI系统,并快速高效使用AI服务,还需要“三驾马车”。
这三驾马车分别指的是:数据核心、算法核心与生产核心。
企业AI系统只有连接这三驾马车、打通这三大核心,才能实现数据接入和处理、数据管理与访问、模型调研、智能建模、模型仓库、应用服务等能力。打造出具有海量数据存储和处理能力、超高维度算法、实时反馈的全流程企业AI核心系统。
第四范式的具体逻辑如下:
首先,数据核心方面,数据作为AI的输入端,价值日益凸显。但从现阶段来看,各个行业数据标准差异明显,且数据的组成与处理手段只为BI系统做过针对性优化,面对AI多格式、高维度、高实时性的要求显得捉襟见肘。
于是,先知3.0中的数据核心直接面向AI应用的需求,支持结构化与非结构化的数据接入,可将业务指标等结构化数据、文本等非结构化数据以及图关系数据进行处理,产生海量高维特征,并通过分布式内存数据库和统一的元数据管理系统,使机器学习训练和上线的过程能够高速获取特征数据。
与此同时,为提升智能决策的实时性和准确度,数据接入的时效性通过实时数据集成平台从T+1/T+N提升为“毫秒级”。一体化的数据平台不仅为单一业务提供支撑,更能够将企业部门间的数据壁垒打通,使多个业务的数据在同一个机器学习模型中产生化学反应,形成“1+1大于2”的效果。
其次,算法核心方面,基于第四范式技术研发,企业AI核心系统提供决策能力的生成算法及降低机器学习成本和门槛的协助算法。
其中,决策能力生成算法包括高维机器学习与深度学习训练算法、基于深度学习的高维特征生成算法、图像文本以及图关系的高维特征挖掘算法;协助算法则提供了自动模型选择、自动调参、特征组合自动探索等功能。
以特征组合自动探索为例,特征组合是一种提升模型预测效果的方法,以往业务人员需要在成百上千个特征中进行组合,组合后的特征数量呈指数级增长,而第四范式自主研发的FeatureGO算法,可以实现机器自动组合特征的功能,有效解决人为添加组合特征门槛高、耗时长等问题。
除此之外,先知3.0基于底层知识图谱,提供金融、教育、地理位置的特征增强服务以及地址验真、商户分类等应用级服务。
最后,生产核心方面,通过提供一套私有PaaS架构,将数据服务、算法任务、线上服务等基础能力服务化,成为AI应用运行态的载体。
不仅如此,先知3.0将“学习圈”中的步骤转化成运行中的具备高可用、可伸缩、可监控的应用程序。在保证功能完整性之外,生产核心还具备模型管理、灰度发布、资源隔离、审计支持等企业级关键特性,满足企业对AI业务应用的管理、运维、审计需求。
还是金融领域的例子,第四范式方面称,正是由于三驾马车并肩前行,不仅可以信用卡交易等反欺诈准确性,还把线上数据集成到提供最终欺诈评分的全过程缩短至20毫秒,而强大的生产平台能力,也使得系统可以快速通过横向扩展x86服务器的方式、达到每秒钟数十万笔交易的吞吐量。
不过,戴文渊也强调,第四范式的AI应用目标绝非止于金融,他们的初心始终未变,希望帮助企业零门槛拥有AI能力,而且今年以来,在金融之外,医疗行业的突破也已经展开。
之所以第四范式目前把金融作为当前领域,是因为内部认定,金融是服务于各行各业的。
戴文渊认为,科技+金融,能服务到更多的领域,他坚信金融在未来会和科技成为一体化服务的行业。
他还透露,银行领域的“战役”基本结束。第四范式把业内能拿下的标杆客户都拿下了,而且潜在的标杆也被收入囊中,“未来有竞争对手进入这个行业,已经没有机会拿到标杆了,在市场覆盖上,难度就会更大。”
不难看出,创立两年来,第四范式已经在企业市场打开了局面。
但这算不上第四范式创业两年的全部。
在乌镇,戴文渊还向量子位讲述了公司的其他进展。
比如在内部,“一颗赛艇”比赛已经举办了两届。区别于其他互联网公司的程序设计比赛,第四范式的“一颗赛艇”旨在检测先知系统的“门槛”性。
第一届,机器学习相关的工程师,都不被允许参加“一颗赛艇”,但公司其他全员中的70%,达到了公司开源科学家的水平,可以做到机器学习领域开源科学家可以做到的事情。
第二届,机器学习科学家和非专业选手可以分队混合参赛,但最终结果来看,专业选手参赛的成绩,并没有比非专业公司成绩更好。
这样的结果让戴文渊十足兴奋,他认为由于工具系统不断提升,更低AI使用门槛的产品,已经越来越近了——这也是先知3.0打磨完成的“前夜”。
戴文渊说,现在公司有超过一半的人,都拥有了为企业开发机器学习模型和算法的能力,即便这些人中不少人是前台、行政、HR等非技术人员。
他表示这两年来,AI门槛已经被第四范式降低到了什么程度?“类似今日头条的信息推荐应用,在我们公司有一半以上的人做得出来。”
戴文渊并不担心作为To B公司在大众视野中的短暂“缺失”。他表示IBM到底是一家什么样的公司呢?公众层面很少有统一答案。
“但对于每一家银行或我们的客户来讲,第四范式就是那家帮助他千人千面、服务更广泛受众用户的服务者。”
戴文渊很自豪,由于第四范式的所在,让越来越多B端企业拥有了新能力:对每一个客户都能提供不同的专属服务。而且由于第四范式,让这些“为科技进展而焦虑”的企业,拥有开发出智能的能力。
这位为百度打造了机器学习系统的前百度T10还说,现在通过第四范式所做的事情,可以说是“普及AI能力”,并让这种能力拥有普适性。
戴文渊比喻,他之前在百度,打造的是一辆赛车,每一个部件,都是榔头敲打出来的,可能只有参与的人才知道如何驾驭。但如今通过第四范式打造的企业AI核心系统,是民用车,每一个驾照考到C的人,都可以开。
即便公司层面进展还不错,但戴文渊认为AI普及依然任重道远。
他告诉量子位:AI仍旧是个稀缺的产品、奢侈品,并不是每一个人都能用的。我们希望让更多人驾驭这个能力,让每一个都有一个“智能手机”,现在进展而言,还属于大哥大时代,拧着出去是财富的象征。
但戴文渊同时表示,AI能力进入千行百业会比智能手机普及更快、更迅猛,他认为会是指数级增长,应该用不了5年。
此外,这种AI汹涌也体现在第四范式的增速上。
过去一年,他们业务上完成了新一轮爆发式增长——末位添0式的增速。员工也增加了一倍,即便已经在刻意控制。
对于第四范式的现在和未来,戴文渊认为,核心导向依然是“问题”。他向量子位强调:始终关注的,一定是在解决什么样的问题。
其他进展,都会顺其自然而来。