宽哥玩数码|帮你保持领先地位，回归根基：5篇必读的数据科学论文全文共2581字

全文共2581字，预计学习时长7分钟

文章图片
图源：unsplash
这篇文章涵盖了几个最重要的新近发展和最具影响力的观点，涵盖的话题从数据科学工作流的编制到更快神经网络的突破，再到用统计学基本方法解决问题的再思考，同时也提供了将这些想法运用到工作中去的方法。
1.机器学习系统中隐藏的技术债（HiddenTechnicalDebtinMachineLearningSystems）
链接：https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf
谷歌研究团队提供了在创建数据科学工作流时要避免的反模式的明确说明。这篇论文把技术债的隐喻从软件工程借鉴过来，将其应用于数据科学。

文章图片
图源：DataBricks
下一篇论文更加详细地探讨了构建一个机器学习产品是软件工程下面一个专门的分支，这个学科中的许多经验也会运用到数据科学中。
如何使用：遵照专家提出的实用技巧简化开发和生产。
2.软件2.0（Software2.0）
链接：https://medium.com/@karpathy/software-2-0-a64152b37c35
安德烈·卡帕斯（AndrejKarpathy）的经典文章明确表达了一个范式，即机器学习模型是代码基于数据的软件运用。如果数据科学就是软件，我们所构建的会是什么呢？BenBengafort在一篇极有影响力的博文“数据产品的时代”中探讨了这个问题。（https://districtdatalabs.silvrback.com/the-age-of-the-data-product）

文章图片
数据产品代表了ML项目的运作化阶段。
如何使用：学习更多有关数据产品如何融入模型选择过程的内容。
3.BERT：语言理解深度双向转换的预训练（BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding）
链接：https://arxiv.org/abs/1810.04805
这篇论文里，谷歌研究团队提出了自然语言处理模型，代表了文本分析方面能力的大幅提升。虽然关于BERT为什么如此有效存在一些争议，但这也提示了我们机器学习领域会发现一些没有完全了解其工作方式的成功方法。像大自然一样，人工神经网络还浸没在神秘之中。
如何使用：
·BERT论文可读性很强，包括了一些建议在初始阶段使用的默认超参数设置。
·不管你是否为NLP新手，请去看看JayAlammar阐释BERT性能的“BERT的初次使用视图指南” 。
·也请看看ktrain——一个运用于Keras的组件（同时也运用于TensorFlow），能够帮助你在工作中毫不费力地执行BERT 。 ArunMaiya开发了这个强大的库来提升NLP、图像识别和图论方法的认知速度。
4.彩票假说：找到稀疏且可训练的神经网络（TheLotteryTicketHypothesis:FindingSparse,TrainableNeuralNetworks）
链接：https://arxiv.org/abs/1803.03635
当NLP模型变得越来越大（看GTP-3的1750亿个参数），人们努力用正交的方式构建一个更小、更快、更有效的神经网络。这样的网络花费更短的运营时间、更低的训练成本和对计算资源更少的需求。
在这篇开创性的论文里，机器学习天才JonathanFrankle和MichaelCarbin概述了显示稀疏子网络的裁剪方法，可以在最初明显增大的神经网络中实现类似的性能。

文章图片
NolanDay的“彩票分解假说”
彩票指的是与效能十分强大的联系。这个发现提供了许多在储存、运行时间和计算性能方面的优势，并获得了ICLR2019的最佳论文奖。更深入的研究都建立在这项技术之上，证实了它的适用性并应用于原始稀疏网络。

宽哥玩数码|帮你保持领先地位，回归根基：5篇必读的数据科学论文

推荐阅读

【朱邦凌】99美元卖99元被疯抢，国货上演大反击！撕掉洋品牌代工标签

伊朗|50天解禁倒计时！伊朗首购武器确定了，F-35战机遇到真正对手

资讯是什么意思(百度资讯是什么意思)

|V5赛后群访、Mole：他们连胜压力大我们输了不亏平常心打

张国荣梅艳芳谁的成就高梅艳芳和张国荣谁成名早

怎样打理额头前细碎的头发

讯飞幻境华东行，收获赣饶新势能

数码外媒：英伟达GeForce RTX 3060 Ti在RTX 3070之后上市

德西尔珠宝|婚戒入手指南，跟着步骤走，小白也不怕被坑！

祖传的专治腰间盘突出，现在我想以一个病友能接受的价格，卖配好的中药，各位大神，有啥好的建议没 ?

大学生在宿舍里可以学习那些技能

背带裤的扣子详细图解背带裤扣子老是滑下去怎么办

赚钱的软件有哪些靠谱手机挣钱软件

『证券快报』教你一招：攻击迫线买入绝技！散户遇到这个形态可以大胆买入股票

深圳晚报|连续三天顶烈日搬家后，广东一男子多器官衰竭险丧命！

三星新款折叠手机Galaxy Z Flip 华为三星折叠屏专利

超无厘头玩家|3大射手遭冷？，王者体验服6.17汇总丨阿古朵上线！干将重置

北京青年报|北京医生在疆打造一支“带不走”的医疗队

天天刷牙，为啥还长蛀牙？万万没想到，"罪魁祸首"竟是它…

ZAKER娱乐|扦插并不是唯一选择，火影手游：少年带土不好玩？开眼后手感极佳