范式|第四范式:借势PC霸主,推出企业级AI操作系统
_原题为 第四范式:借势PC霸主 , 推出企业级AI操作系统
文章图片
AI落地热火朝天 , AI团队变身施工队 , 挨家挨户敲开传统企业的大门……然而 , 这是一种非常低效的做法 。
第四范式创始人兼CEO戴文渊博士的洞察是:“重新按照AI的要求制定标准和规范 , 实现规模化 。 ”
文章图片
第四范式的定位一直不是SaaS产品公司 , 其核心能力在于 PaaS 层 , AI应用的构建和积累都向平台集中发力 。
回顾五年的产品发展路径 , 第四范式联合创始人、首席研究科学家 , 陈雨强告诉《亲爱的数据》:
“第一代、第二代产品的时候 , AI对人才的要求特别高 , 需要非常强的统计学和编程功底 , 特别是C++底层编程 , 还要python编程和组件代码能力 。 先知平台(Sage)的出现 , 用一个拖拉拽的界面 , 先建模 , 后上线 , 方便了数据科学家 。 2015年 , 在建设先知平台的同时 , (我们)科学技术部做了两件事情 , 第一 , 高维机器学习模型 , 保证效果 。 第二 , AutoML技术 , 不依赖于大量科学家手工打造模型 。 归根到底 , 三个字 , 降门槛 。 ”
AI的原始社会 , 自己动手、丰衣足食 。 AI的现阶段 , 陈雨强强调:“以后就不会这样了 , 都要现成的AI应用 。 ”
原始社会喝水得从烧制陶器做盛水器皿开始 , 现代社会瓶装水3元一瓶 , 这是趋势 。
AI进化 , 第四范式思考出一套“心法” 。
2017年库伯学习圈(HyperCycle) 。 这个出生于1984年的理论在AI时代释放了新能量 。 暗合体验学习的四大步骤(反馈、反思、理论、行动) , 又对应(数据采集、数据标注、机器学习、机器模型) , 闭环结构实现对接和循环 。 用人类学习过程类比机器学习的过程 , 用一个熟悉事物的类似原理 , 去理解新鲜事物的规律 。
可以这样说 , 理解了库伯学习圈 , 就理解了简版AI原理 , 绕过数学与编程的大山 。
2019年 , 第四范式曾用「1+N」回答企业转型如何用 AI 构建竞争力 。 「1」代表企业的核心业务需要用 AI 做到极致 , 「N」代表企业的众多场景要用 AI 大规模落地 。
“心法”解救普通人 , “做法”解救无数亟需转型的传统企业 。
2020年的发布会传达出 , 第四范式想做的是 , “心法”+“做法”的双重智慧 , 这些都需要一个平台属性的产品去承载 。
什么是数据形式?
过去的五年里 , 第四范式也有用高人力成本为合同项目填坑的事情 , 客户有时并不接受建议的方法论 。 陈雨强说:“我们的经验来自于踩坑 , 但不是100%的客户都接受 。 没有人配合数据改造 , 苦坐在现有的数据垃圾堆上 , 龟速前进 , (项目)花了三年才完工 。 ”
2020年 , 越来越多的解决方案瞄准AI整个生命周期 。 AI模型开发从启动到结束 , 包括数据准备、模型训练、模型测试、模型上线等环节 。 每一个环节做到极致 , 整个周期才有可能高效 。 在规模化中追求极致 , 有一样东西非常重要——标准化 。 图片、文本、日志 , 数据的形式多种多样 , 如何标准化?不同的业务场景 , 不同项目的数据平台 , 如何标准化?AI应用需要打通数据 , 第四范式就推出了“数据形式” 。 所谓“不定义 , 无数据” , 数据从哪来、到哪去、类型、结构、关系……想要标准化 , 就是全方位地定义标准与格式 。 这些工作并不是一个新概念 , 名叫“数据治理” 。 数据形式是数据治理的终点 。 开始 , 一般是IT工程师对数据治理有深刻体会 , 也是他们最先意识到数据治理的重要性 , 而且数据治理最终是在IT层面落地 。 接着 , AI工程师也感同身受了 。
数据问题和IT问题高度混杂 。 第四范式是一家AI公司 , 几乎拥有一家IT公司全栈人才 , 与IT公司一模一样的人才配置 。 AI公司集体吐槽:“如果一个AI应用工作量是100% , 那95%都是在数据上面 。 ”陈雨强吐槽:“定义不清楚的话 , AI生命周期后面所有环节 , 所有的人都会偏离 , 这也是做AI那么难的原因之一 。 做不到 , AI科学家跑到每个细节去 , 跟每个工程师讲 , 为什么这个数据必须这么编码 , 为什么这个数据必须这么去拿 , 相当于做IT的人必须懂了AI , 才能把这个事情完全做对 。 ”一场嵌入式的革命 , 工程化、集成化随处可见 , 烦Skr人 。
让一个新事物融入原有的体系是高难度、精细化的工作 , 也有人管这个过程叫 , 企业「智能化改造」 。
AI落地不是科学发明 , 是一个具有时代代表性的复杂工程 , 背后藏着排山倒海的工程细节 。 数据治理就好比是建筑物的整体地基 。
数据形式就好比万里长城上的砖、天坛祈年殿里的榫卯、宫苑凉亭里劈成条的竹篾 , 它们是藏在中国建筑里的灵魂 。 从某种角度讲 , 数据形式是藏在AI技术里的灵魂 。 “数据形式”一口气解决了三个问题 。 第一个 , 数据缺闭环 , 建模过程没有反馈机制 。 比如 , 人是环境的函数 , 人的成长需要有外部环境持续不断地刺激(教育) 。 数据不断供给 , 模型不断迭代 。 第二个 , 数据不一致 。 使用线下的数据建模 , 到了线上模型效果不好 , 原因是线下的数据经过了按照BI思路的ETL , 导致使用了和真实的线上数据不一致的离线数据 。 错误的数据训练出来的模型到了线上 , 当然效果不好 。
推荐阅读
- 社会新鲜事|张柏芝怀第四胎?小腹凸起似怀孕,直言想要女儿
- 黄晓明|《中餐厅》黄晓明邀请赵丽颖参加《浪姐2》,赵丽颖的回答很耿直
- 鬼才狗仔|黑豹男主博斯曼去世,漫威宇宙第四阶段开启,黑豹2主角成迷!
- 家居|2020第四届中国家居品牌大会公开发布“2019-2020十大定制家居领袖品牌”
- 家居|2020第四届中国家居品牌大会发布十大优选中国家居消费平台
- 疫情|是否进入经济复苏第四阶段?秘鲁政府将开会评估
- |第四届中医药文化大会将于9月在山东日照召开
- | 顺势而为,应时而变——9月5日,畹町第四代品牌形象全新升级!
- 8月|是否进入经济复苏第四阶段?秘鲁政府将开会评估
- 扶贫办:建设第四方平台 防止打着消费扶贫旗号谋利敛财