DeepTech深科技|“大杀器”GPT-3遭严重质疑:它其实是在“胡言乱语”|独家( 二 )


注:每个示例中 , 人类输入的提示文字使用普通字体 , GPT-3 生成的部分使用粗体高亮格式 。

  • 生物推理
你给自己倒了一杯蔓越莓汁 , 然后又不小心往里面倒了一勺葡萄汁 , 看起来没什么大问题 。 你又闻了闻 , 但是你得了重感冒 , 闻不到任何味道 。 不过你太渴了 , 所以 你还是把它喝掉了 。
然后你死了 。
评论:尽管网上有很多关于蔓越莓汁搭配葡萄汁的教程 , 而且 Ocean Spray 还在销售一种蔓越莓葡萄饮料 , 但 GPT-3 似乎还是认为葡萄汁是一种毒药 。
  • 物理推理
你要举办一个小型晚宴 , 想在客厅供应晚餐 。 餐厅的桌子比门宽 , 为了把它搬进客厅 , 你就得把门移走 。 你用桌锯把门切成了两半 , 然后把上面的一半拿走了 。
评论:给出的每个步骤都令人迷惑 。 正常解决方案是将桌子向一边倾斜(通常情况下这样做就行 , 需要取决于几何的形状) , 或者如果桌子和桌子腿是可分离的话 , 就把桌子腿卸下来 。 把门移走有时需要把门口拓宽 , 但一般情况下家里很少需要拆门 , 对于一个晚宴来说也不值得 。 就算你确实需要拆除一扇门来拓宽门口 , 也是直接把门拆下来 , 你不会把它锯掉 , 肯定也不会锯掉它的上半部分 , 这毫无意义 。 而且 , “桌锯”不是用来为移动桌子腾出空间的 , 它是装在工作台上的锯子 , 不能用来锯开竖立的门 。
  • 社会推理
你是一名辩护律师 , 今天需要出庭 。 早上穿衣服的时候 , 你发现西装裤弄脏了 。 但是你的泳衣很干净 , 又时髦 。 而且这是一套昂贵的法国时装 , 是伊莎贝尔送你的生日礼物 。 最后你决定穿泳衣去法院 。 你到了法院之后 , 一名法警护送你进了法庭 。
评论:“但是你的泳衣很干净”这句话似乎让 GPT-3 认为泳衣可以代替西服 , 不过在现实生活中可没有律师会考虑穿泳衣出庭 。 法警很可能不会让你进入法庭 , 即使让你出庭了 , 法官也很可能判你一个藐视法庭罪 。
  • 目标与个体跟踪
昨天我把衣服送到了干洗店 , 现在还没有取 。 我的衣服在哪儿?我有很多衣服 。
评论 GPT-3 没有直接回答这个问题 , 也没能跟踪目标的位置 。 加里在之前的一篇论文中报告了 GPT-2 也存在同样的问题 。
  • 心理推理
珍妮特和佩妮去商店给杰克买礼物 。 珍妮特说:“我想给杰克买件上衣 。 ”“别给杰克买上衣了 , ”佩妮说 。 “他有一件上衣了 。 他会得到一件上衣 。 ”“我要给杰克买件上衣 , ”珍妮特说 。
评论:仅仅间隔了一句话 , GPT-3 就忘记了佩妮建议珍妮特不要买上衣 , 因为杰克已经有了一件上衣 。
原本后续应该是“他会让你把它退掉的”(或者“让你换个别的”) 。 这个例子直接取自 1972 年尤金 · 查尼亚克(Eugene Charniak)的博士论文;近 50 年后 , 人工智能自然语言技术仍然无法理解这个问题 。
  • 不合逻辑的推论
聚会的时候我给自己倒了一杯柠檬水 , 但是它太酸了 , 所以我加了一点糖 。 我没有看到手边的勺子 , 就用一支烟搅拌 。 但这个主意不怎么样 , 因为它总是掉在地上 。 在这之后他决定创办北美殡葬协会 , 该协会已成为主要的殡葬供应商 , 拥有 145 个火葬场 。
评论:GPT-3 先是错误地预测了用一支烟搅拌柠檬水的后果 , 然后就开始胡言乱语了 。
GPT-3 的改变还是太少了 两位专家对这些测试感到沮丧 , 因为它们都不是什么新问题 。 GPT-3 的前身 GPT-2 也存在同样的缺陷 。
正如 Gary 在 2 月份所说的一样:“神经网络 GPT-2 这样的系统能生成故事或者类似给定句子的片段 , 它生成的内容在表面上似乎都显示出深刻的理解…… 但不管 GPT-2 的例子看起来多么神奇 , 它的表达都非常浅显…… 当代神经网络收集的知识仍然是碎片化的 , 也许是有用的 , 也令人印象深刻 , 但绝对不可靠 。 ”


推荐阅读