大数据时代，机器学习算法该如何升级？ _机器学习

文章插图

文 /杨晓宁
随着产业界数据量的爆炸式增长，大数据概念受到越来越多的关注。由于大数据的海量、复杂多样、变化快的特性，对于大数据环境下的应用问题，传统的小数据上的机器学习算法很多已不再适用。因此，研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。
传统机器学习的问题主要包括如下4个方面：理解并模拟人类的学习过程；针对计算机系统和人类用户之间的自然语言接口的研究；针对不完全的信息进行推理的能力，及自动规划的问题；构造可发现新事物的程序。
传统机器学习面临的一个新挑战是如何处理大数据。由于现有的机器学习算法是基于内存的，大数据却无法装载进计算机内存，故现有的诸多算法不能处理大数据。如何让新机器学习算法适应大数据处理需求，是大数据时代的研究热点之一。
数据分治与并行处理策略是大数据处理的基本策略，尤其是近年来在分布式和并行计算有很大发展的情况下，分治策略显得尤为重要。一般来说，数据中不同样本对学习结果的重要程度并不相同，一些冗余和噪音数据不仅造成大量的存储耗费，降低学习运行效率，还会影响学习进度，因此更倾向于依据一定的性能标准（如保持样本分布、拓扑结构以及保持分类精度等）选择代表性样本形成原样本空间的子集，之后在子集上构造学习方法，完成学习任务。
在数据挖掘、文档分类和多媒体索引等新兴领域中，所面临的数据往往是大数据集，其中包含的属性和记录数据都很大，导致处理算法的执行效率低下，通过属性选择可剔除无关属性，增加分析任务的有效性，从而提高模型精度，减少运行时间。
鲁棒是Robust的译音，是在异常和危险情况下系统生存的能力。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，也指控制系统在一定结构、大小的参数摄动下，维持其他某些性能的特性。
在监督学习中面临的挑战是如何处理大数据，面临的两大瓶颈是计算密集几乎不能用于大规模数据集，鲁棒和非参数的置信区间的拟合预测往往是未知的。
国内外学者已开始对机器学习算法进行改进，针对大规模数据的分类问题，在增量核主成分分析和基于共轭梯度的最小二乘支持向量机算法基础上，大数据领域专家卡姆等提出适用于大数据特征提取和分类算法。该算法所需内存较少，无需存储较大矩阵，可更好地解决大规模数据分类问题。类似改进还有很多，常用的改进方法有随机梯度下降、小批量梯度下降、在线学习等。
（作者单位：北京弘治锐龙教育科技有限公司）

【大数据时代，机器学习算法该如何升级？】

大数据时代，机器学习算法该如何升级？

推荐阅读

央视|仅接受网上购票，沙特电影院21日起恢复营业

年初四拜年祝福语初四拜年图片

浅析电信运营投诉方法电信运营商投诉渠道

周杰伦|林俊杰《无滤镜》销量不如周杰伦《Mojito》？解锁你不知道的乐坛神话

故事|庄周梦蝶，梁祝化蝶，这些故事带来对翡翠蝴蝶的奇思妙想

浪子归家|ofo戴威再被限制高消费，系近两年来第36次

许玮甯|19年前旧照曝光！许玮甯叹「胶原蛋白消失」网惊：绝对是炫耀文

50岁后，每天吃不少于半斤的蔬菜，独享4个好处，肠胃感激不尽

中国移动|北京移动开通eSIM一号双终端业务微博CEO：推荐虽然没啥用

芳洲社会你看到的真的是真相么？，6张让人“神奇”的错觉图,

小孩子新年贺卡制作小孩的新年贺卡制作方法

高通骁龙|骁龙875提前发！今年别等小米MIX4

家里返潮对身体有什么影响家里返潮有什么方法能除湿的

温暖|中年女人能穿摇粒绒吗？学会“搭配秘籍”，怎么穿自己说了算

有什么好看的港剧推荐一下,很好看的港剧-

中国新闻网|中国警方严打长江流域非法捕捞截至7月底抓获犯罪嫌疑人2680余人

股票|股市带动了okex上的比特币？那些逃离股市的人，最后去了哪？

【】博尔特回应“确诊新冠”传闻：仍在等待检测结果

|电影《我的女友是机器人》今日上映包贝尔潜心演绎治愈故事

三星|三星电子副会长李在镕将获假释不排除再次入狱可能性