小熊科技|数据科学家的神器:为什么大家都用Kaggle?
全文共2451字 , 预计学习时长7分钟
我在大学时第一次接触了这个平台 , 当时 , 笔者正在攻读数据科学硕士学位 , 主攻机器学习 , 想看看在专业的第一堂课上自己在机器学习模型比赛的准确度挑战中能位列何处 , 对比在最后一堂课上又能取得怎样的名次 。
笔者很快意识到 , Kaggle上有成百上千的数据科学家 , 正在尝试提升并提交他们的评分 。 这么多聪明的有志之士参与竞争 , 让人叹为观止 。 除了评价技能 , 这一平台还可以对比代码 , 学习其他出色之人的新想法 。 在踏上成为数据科学家之旅的第一周就能得到这样的体验 , 笔者感到万分庆幸 , 不出意外 , 我成了这一网站的常客 。
这些数据取自现实世界 , 几经引用参考 , 可用来训练并评测那些真正对人有帮助的项目模型 。 Kaggle另有许多实用的特色功能 , 比如数据、代码、社区、灵感、竞赛和课程等 。
Kaggle上有一些可用的数据集 。 大多数数据集的文件格式是CSV , JSON、SQLite、archives和BigQuery格式的数据集不太普遍 , 但依旧用途颇广 。 练习使用多种文件格式有所助益 , 你在工作中有可能遇到这些文件格式 。 下面是三个目前最热门的数据集 。
·COVID-19开放研究数据集挑战赛
·UNCOVERCOVID-19挑战赛
·ProZorro.乌克兰公共采购数据集
2.代码
Kaggle上有大量代码 。 如果你想查看其他Kaggle用户的不计其数的代码 , 在Notebooks上进行检索很方便 , 其中包括代码以及大多数用户对代码的注释 。 这能帮助我们学习和练习 , 并借鉴他人处理类似问题的方式 。 大多数人使用Python进行编程 , 但也不乏一些人采用包括R、SQLite和Julia在内的其他编程语言 。
代码通常是记事本(又称为JupyterNotebook)形式 , 保存在后缀为.ipynb的文件中 。 有一些展示了端到端机器学习模型的例子 , 其中一些包括数据提取与清洗、探索性数据分析、特征工程、基础模型创建、最终机器学习模型实现、以及结果的输出和解释 。
大多数数据科学家在工作中经常用到这些步骤 , 因为这对于其他数据科学家和相关工作者来说 , 都是简便且易于遵循的流程 。
codelanguagessupportedonKaggle:Python,R,SQLite,andJulia3.社区
与Medium、GitHub、StackOverflow和LinkedIn类似 , Kaggle作为一个社区 , 数据分析师、数据科学家和机器学习工程师可以在其中学习、成长和互动 。
你可将自己的工作(如数据 , 代码和记事本文件)发布在其上和他人分享 , 以发展自己的社区 。 作为社区的成员有其独到的优势 , 所以笔者强烈建议以Kaggle作为起点 , 培养自己的社区 , 并与其他社区建立联系 。
推荐阅读
- 无趣科技谈|X2凭实力拿下冠军,京东手机周销量榜单出炉,Find
- 毛毛科技说|三星S20+出现“小米价”,总算等到了,三星扛不住了
- 简简科技|余承东称鸿蒙体验已达安卓7成多,鸿蒙手机新进展
- ITheat热点科技|2020 | 坚持创新 舒尔带来MXA710音频解决方案,SSOT
- 空心|招聘丨山西千沐云物联科技有限公司
- LeoGo科技|科沃斯除菌地宝N8和米家扫拖机器人横评——两款解放双手的精品
- 小绿叶子科技|半年跌1000元,适合捡漏,iPhoneSE2扛不住了
- 电科技|“吃鸡”手游老是瞄不准?不妨选这款游戏外设配件
- 科技日日说|realme真我X7全方位评测:不一样的颜值,不一样的体验!,原创
- 硅谷聊科技|就不愿再用华为、小米了?,答案确认了!为啥很多人用了iPhone后