DeepTech深科技|OpenAI新模型曝光:给它半张图片,能够猜测补全
去年 2 月 , 位于美国旧金山的研究实验室 OpenAI 宣布 , 其 AI 系统已经可以自行用英文写出一段令人信服的短文 。 在这个被称为 GPT-2 的模型中输入一个句子或段落的开头 , 该模型就可以按照所给文本的思路续写出一篇文章 , 其上下文的连贯性几乎同人类一样 , 可以假乱真 。如今 , 该实验室正在探索若在相同的算法中输入某张图片的一部分会发生什么 。 在本周的机器学习国际会议(ICML 2020)上 , 这一研究成果获得了最佳论文的荣誉称号 , 为图像生成开辟了一条新的路径 。
【DeepTech深科技|OpenAI新模型曝光:给它半张图片,能够猜测补全】
本文插图
GPT-2 的核心其实是一个强大的预测引擎 。 它通过查看从互联网各处搜索得来的数十亿单词、句子和段落 , 学习并掌握了英语这门语言的结构 。 掌握了这一结构 , GPT-2 就可以从统计学的角度预测单词出现的顺序 , 从而操纵单词 , 将不同的单词组成新的句子 。因此 , OpenAI 的研究人员决定将单词换成像素 , 在 ImageNet(最受欢迎的深度学习图像库)上用图片训练相同的算法 。 由于该算法最初是为处理一维数据(例如文本字符串)而设计的 , 于是研究人员将图片展开为单像素序列 。 他们将新模型命名为 iGPT , 发现它可以理解视觉世界的二维结构 。 提供给该模型某张图片上半部分的像素序列 , 它就可以合乎情理地预测出图片的下半部分 。下面 , 你可以看到一些例子 。 最左列是研究人员提供的图片 , 最右列是原始图片 , 中间是 iGPT 在预测的基础上补全的图片 。
本文插图
iGPT 的这一训练结果让人非常吃惊 , 它展示了开发计算机视觉系统的一条新路径 , 即利用在无人为标签的数据上进行训练的无监督学习 。 事实上 , 2005 年左右 , 早期的计算机视觉系统就曾试用过这一技术 , 但由于当时使用人为标签数据的监督学习更为成功 , 这一技术就遭到了冷落 。 但是 , 无监督学习的优势就在于 AI 系统可以在没有人工过滤器的前提下去了解世界 , 大大减少了标记数据的体力劳动 。iGPT 与 GPT-2 使用相同算法的 , 这一事实也显示了 iGPT 具有良好的适应能力 。 这也与 OpenAI 的最终目标一致 , 即创造出更通用的机器智能 。同时 , 该方法为生成深度伪造图片提供了一种新思路 。 在过去 , 生成式对抗网络(GAN)是生成深度伪造图片最常用的算法类别 , 必须用高度精确的数据进行训练 。 例如 , 若想用 GAN 生成一张脸 , 那么训练的数据也只能是脸 。 相反 , iGPT 通过数百万和数十亿的图片学习了视觉世界的结构 , 从而可以生成极有可能真实存在的图片 。 虽然从计算层面上来看 , 训练这一模型成本太过昂贵 , 为其进入图像库设下了一道天然的屏障 , 但这一问题在不久的将来很快就可以得到解决 。OpenAI 没有接受采访 , 但在《麻省理工科技评论》去年参加的一次内部政策小组会议上 , 其政策总监杰克·克拉克(Jack Clark)对 GPT 式生成模型未来存在的风险进行了思考 , 包括将其应用于图像领域会发生什么 。 他基于自身所见 , 预测了该领域的研究轨迹走向并说到 , “很快会应用到视频 。 大概再过 5 年 , 就可以在 5 到 10 秒的间隔内完成条件视频生成 。 ”接着 , 他描述了自己想象的情景:输入一张政客的照片 , 照片上政客的旁边发生了爆炸 , 该模型就很可能输出该政客被谋杀的信息 。编译:李珊 参考:https://www.technologyreview.com/2020/07/16/1005284/openai-ai-gpt-2-generates-images/
推荐阅读
- 2020|影谱科技入选“2020中国AI商业落地价值潜力100强榜单”
- 行业互联网|眼控科技聚焦航空气象报文,人工智能助推编发自动化
- 行业互联网|金风科技中标哈萨克斯坦札纳塔斯二期100MW风电项目
- 无人科技,电池技术|盘点几种常见的无人机电池
- 行业互联网,智慧医疗|商汤科技创“心”升级,探索“联邦学习”入选ECCV
- 行业互联网|创盈Charmwin惊艳亮相2020上海美博会,打造“光”科技健康护肤新风尚
- 科技圈|集成灶两大品牌厨壹堂教你解锁三伏天厨房的正确打开方式
- 黑科技|花两万块钱买一台大法电视是一种怎么样的体验?
- 北京|北京嘀嘀无限科技发展有限公司因涉嫌非法聘用外国人被行政处罚
- 和讯科技|乐视退最后交易日报0.18元/股 明日将被正式摘牌