数据@74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀

看点:数据科学部署挑战多?IDC揭秘中国市场现状 , 实例教学企业加速高级数据分析 。
数据@74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀
图片

在数据和算法重新定义的世界中 , 数字化转型正构成传统企业的新竞争力 , 但实际被收集和利用的数据 , 远比人们想象中少 。
数据@74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀
图片

有效数据量少、模型开发效率低、专业技术人才匮乏 , 这些问题在企业应用数据分析面前形成了难以跨越的天堑 。 一边中国市场上超半数的企业已经采用机器学习方法 , 实现高级数据分析预测 , 另一边机器学习、数据科学的普及之路仍荆棘丛生 。 在这一背景下 , IDC发布《数据分析新速度:加速数据科学转变成商业洞察》白皮书 , 重新审视数据科学的定义与生态 , 对机器学习、数据科学在中国市场的落地现状进行全面调研 。 如需查阅此白皮书 , 可直接点击左下方的“阅读原文”下载 。
数据爆炸时代:加速AI落地中的困境
在大数据、人工智能等新兴技术的助推下 , 数据科学从常规数据分析发展到高级预测分析与智能预测 , 其定义正在被重新审视 。 本白皮书中 , IDC将机器学习与图算法为主的工作负载定义为数据科学 , 其核心技术即经典机器学习技术 , 正在企业用户中开始复兴 。 据IDC调研 , 当前中国市场上74%的企业已采用包含机器学习的数据科学平台 , 其他企业均表示在未来24个月内有计划采用这一平台 。 在当前金融应用场景中 , 80%的分析预测模型采用机器学习模型 , 支撑预判欺诈风险、优化量化投资等业务应用 。 而每成功识别一笔欺诈交易行为 , 每准确预测一次市场行情变化 , 对企业的经济利益可能是百万级甚至上亿级 。 还有在零售场景 , 随着个性化服务需求升级 , 更多零售企业正通过机器学习形成线下线上融合的用户画像追踪 , 实现千人千面精准营销 , 显著提升用户粘度 。 数据科学在文娱、教育、电信、制造、医疗、政府等、媒体、能源、交通、地产等行业中均得到广泛应用 。 根据IDC提供的数据 , 中国企业在深度学习和机器学习方面的投入持续增加 , 高级数据预测分析、经典机器学习相关的市场规模在2018年达到3.0亿美金 , 预计到2022年将达到29亿美金 。
数据@74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀
图片

▲2018-2022年中国人工智能应用市场规模(单位:百万美金)不过企业要想应用机器学习 , 还需先解决很多挑战 。 首先 , 数据准备和建模耗时长 。 其次 , 数据资源严重匮乏 。 IDC调研发现 , 目前只有一线互联网公司拥有超数千PB级别数据 , 大部分企业的数据量仅在1TB-20TB之间 。 另外企业积累的大部分数据不能直接用于模型训练 , 被注入到AI模型的数据不足1% 。 此外 , 数据科学工作负载开发效率不高 。 许多刚涉足机器学习应用的企业 , 对底层算力和基于硬件的优化缺乏清晰的认知 , 尚未意识到加速计算给企业开发效率带来的价值 。
数据@74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀
图片

▲企业采用加速方案后的效果要在应用机器学习时绕开这些瓶颈 , 选择合适的数据科学平台则至为关键 。
数据科学平台选型:门槛低 , 速度快
IDC在白皮书中 , 就平台选择的考量因素给出许多具体可行的建议 。 例如使用机器学习平台开发模型时 , 应与企业实际业务需求充分匹配 。 IDC发现 , 大部分企业已采用加速方案 , 其中采用GPU加速的居多 , 占比达50% 。
数据@74%企业已采用数据科学平台!IDC新报告,揭秘加速数据分析的核心要诀
图片

▲企业采用机器学习平台时使用到的加速方案情况其中 , 英伟达在2018年10月推出RAPIDS开源GPU加速平台正得到越来越多企业的应用 。 英伟达RAPIDS平台致力于加速大规模数据分析和机器学习工作负载 , 该平台建立在英伟达CUDA-X AI平台之上 , 提供了一系列面向机器学习、深度学习和高性能计算的专用GPU加速库 , 这些库与英伟达Tensor Core GPU无缝地配合工作 , 可加速从数据准备、模型训练到预测的整个端到端流程 , 大大提升AI任务执行效率和模型精度 , 同时降低基础架构TCO 。 当前百度、阿里云、IBM、Oracle、Kinetica、H2O、SAP、SAS、Databricks等公司都已采用英伟达RAPIDS平台加速数据科学研究 。


推荐阅读