生活里的小阿妹|生物图像的数据集可用于开发新的人工智能算法 | 硅谷洞察


北京联盟_本文原题:生物图像的数据集可用于开发新的人工智能算法 | 硅谷洞察
Recursion研发了300多亿字节的数据 , 它希望这将成为创新机器学习应用程序的“游乐场” 。
【生活里的小阿妹|生物图像的数据集可用于开发新的人工智能算法 | 硅谷洞察】
生活里的小阿妹|生物图像的数据集可用于开发新的人工智能算法 | 硅谷洞察
本文插图

临床阶段的生物技术公司Recursion宣布发布一个开源的生物数据集RxRx1 , 该公司已经成立了五年多 。
重要性:
数据集由来自1000多个符合实验条件的人体细胞图像组成 , 在不同的人体细胞类型中 , 几十个相隔数周或数月产生的生物复制 。
数据的收集展现了机器学习社区潜在的巨大资源 , 超过10万幅图像和300多亿字节的数据代表了不同的生物背景 。
Recursion首席执行官克里斯·吉布森在一份声明中说:“为了回答生物学和疾病所面临的基本问题 , 以及重新设想药物发现的模式 , 我们正在建立世界上最大的、具有相关性的经验生物学数据集 。 ”
这些数据是在严格控制的实验程序下在多个递归站点生成的 , 也可以为从事机器学习研究的多个领域的科学家提供一个舞台 , 比如领域适应和k-shot学习——每批实验数据都包含独特的实验变量 。
吉布森补充说:“尽管这个数据集规模庞大 , 但它只占我们每周递归生成的0.4% 。 我们希望 , 这个丰富的数据集 , 结合我们所做努力的范围 , 将激励全世界的机器学习和人工智能社区 , 帮助我们完成解码生物学、从根本上改善生活的使命 。 ”
吉布森预测 , 如果这一研发成果有助于促使集体努力 , 新的治疗方法将使其更快地推向市场 , 更多的公司将受到激励 , 为更小的市场开发新药 , 比如罕见病 , 因为许多病人仍面临一个迫切的未得到满足的需求 。
发展趋势:
生命科学之外的机器学习方法的突飞猛进 , 得益于大型公共数据集的可用性 , 如ImageNet和COCO等 。
通过这些举措 , Recursion公司的数据集旨在创造资源 , 帮助社区能够共同识别和采用新的机器学习方法 , 使整个生命科学行业受益 。
该公司的机器人平台上产生的超过2pb的生物图像的相关数据库有助于机器学习方法揭示候选药物、作用机制和潜在毒性 。
官方发布:
Recursion公司的首席技术官和首席产品官梅森·维克多(MasonVictors)在一份声明中说:“我们很高兴能为数据科学界提供第一个纵向生成的人类细胞生物学图像数据集 , 以促进新的机器学习应用 。 ”
通过将实验生物学和自动化技术与人工智能在一个大规模并行系统中结合起来 , Recursion公司希望提高发现各种适应症潜在药物的效率 , 包括遗传疾病、炎症、免疫学和传染病 。
Recursion公司的数据科学副总裁伯顿·恩萧(BertonEarnshaw)说:“这个数据集为机器学习研究的多个领域提供了一个很好的平台 , 比如领域适应和k-shot学习 。 开发出能够解释非随机实验噪声的方法 , 应该是生命科学界以外的人感兴趣的事情 。 ”


    推荐阅读