#产业气象站#什么是AI中的基本事实?,人工智能并非魔盒( 二 )
应该经常测试别人开发的人工智能系统 , 尤其是如果不知道他们是如何定义自己的目标的 。
笔者是说不能使用其他人工智能工程团队开发的系统 , 每次都必须从头开始构建自己的系统吗?一点也不 。 然而 , 确实需要对正确执行任务的意义形成清晰的概念(例如 , 如果有老虎该怎么做) , 并且需要在自己的一组示例(例如亲手标记的照片)上仔细测试正在考虑继承的系统 。
什么是基本真理?
文章图片
来源:Pexels
你可能听说过“基本事实”这个词在ML/AI空间中流传 , 但它是什么意思?新闻快报:基本事实并不真实 。 这是一个理想的预期结果(据负责人说) 。 换句话说 , 这是一种通过创建一组具有输出标签的示例来总结项目所有者意见的方法 , 这些所有者认为输出标签是可以接受的 。 它可能涉及手工标记示例数据点或将传感器“放在地面”(在一个精确的真实位置)以收集所需的答案数据 , 用于培训系统 。
新闻快报:基本事实并不真实 。例如 , 根据项目负责人的意见 , 一组图像可能被精心手工标记为cat或notcat , 这些cat/notcat标签将被称为项目的“基本事实” 。
文章图片
这到底是什么?!猫还是不猫?看电影《猫》的预告片时 , 笔者忍不住要擦亮眼睛 。
当这样一个数据集被用来训练ML/AI系统时 , 基于它的系统将继承和放大决定理想系统行为的人的隐含值 。
基于数据创建机器系统时 , 给系统注入价值观 。
当讨论这个话题的时候 , 请注意 , 通过让受信任的人执行任务来创造“基本事实”是会受到各种错误的影响的 , 包括人为错误 。 通过基于共识的数据收集工作流程、反应时间监控和聪明的用户体验(UX)技巧(减少数据输入错误的可能性)等方法 , 尝试将此错误的可能性降至最低是一个好主意 。 (更多内容将在以后的文章中介绍 。 )
让项目的决策者随机检查一个样本 , 以检查质量是否足够高 , 这总是一个好主意 。
如果在互联网上找到一个数据集并使用它而不是自己收集呢?然后 , 你的项目继承了创建数据集的人的隐式值和偏见 。 一路上总有一些主观的要求 , 不管是谁提出的 , 都会为项目确定“对”和“错” 。 小心信任的人!决策者有很多话要说 , 他们要花时间自己完成任务 , 以便更好地理解他们试图解决的问题 , 以及数据、目标和边缘案例 。
警告(如何做一个好公民)
文章图片
来源:Pexels
笔者写了很多文章来赞扬对ML/AI系统的仔细测试 , 但是要小心!由于整个过程从根本上导致了定义和目标的主观性 , 所有测试都将根据团队决策者喜欢的答案进行 。 不幸的是 , 这些主观方面的愚蠢首先是没有测试的 。 对决策者没有任何制衡 , 除非其他决策者审查了他们在项目第一阶段所作选择的理由 。
没有一个测试可以检验主观定义和目标的愚蠢 , 所以请明智地选择项目负责人 。
现在知道了所有ML/AI项目的第一部分是多么主观 , 可以在一个日益被人工智能淹没的社会中成为一个更好的公民 。 与其表面上接受人工智能解决方案 , 还不如问问自己:
·谁建立了这个系统?
·他们的(主观)目标是什么?
·他们如何定义正确答案?
·大多数人会提出类似的定义吗?
·如何创建基本事实数据集?
·这个系统打算惠及哪些人?
·错误会有多痛苦?
·是否内置了适当的安全网?(系统创造者是否谦卑地预见到他们的选择可能是不明智的 , 并据此制定计划?)
在很多情况下 , 对这些问题的回答不会显示出任何可怕的东西 。 人工智能已经在周围了 , 在很大程度上它是精心设计和营养丰富的 。
推荐阅读
- 【科学家】“太岁”到底是什么生物?科学家给出答案:科学家给出答案
- 『软件』明知有的副业是骗人的,为什么还是有很多人去做呢?
- 阿里巴巴▲三国志战略版什么来路?为何频频刷屏各大软件?
- 阿冰说手机换什么手机(4k左右)?,考虑了好久
- 『Java』java数据结构系列——什么是数据结构
- 中国电子报智能传感器能占多大市场?,30万亿元智慧养老产业
- 长沙晚报打造“中国软件开发者产业中心城市”,长沙携手CSDN
- 火星:明明距离地球最近的行星是金星,为什么全世界却都赶着去探测火星?
- 5g手机@5G手机出来许久,为什么大家都不买?这4个原因足以说明!
- [基因改造]蚊子在地球上到底有什么用?如果全被消灭了会有什么严重后果