数据标注员,困在大模型里( 四 )


最常见的办法是,利用AI进行自动化标注 。一家数据公司表示,自动化标注的比例已经达到70%以上 。
而算法工程师小李和同事正在做更加前沿的尝试:只要以一小部分的真实数据为蓝本 , 通过生成式AI技术和一系列算法,就能合成高质量的、可供训练的数据 。换句话说,完全不需要人了 。
“我们合成数据的售价比人工标注的要便宜一点 。”小李说 。
合成数据目前主要用在自动驾驶和机器人领域 。小李说 , 当ChatGPT出来后,他便意识到标注数据可能走不通了,最后都要用合成数据 。OpenAI创始人Sam Altman也有类似的看法:“合成数据是解决大模型数据短缺的最有效办法” 。
初创公司光轮智能主要做自动驾驶和机器人领域的合成数据 。“自动化标注的终局就是没有标注,”CEO谢晨说,“大部分标注公司没有看到那么长远 。”
谢晨向36氪提到,团队有名同事,此前在一家主机厂做自动化标注,攻克了更复杂的4D-BEV标注 。这是业界领先的标注工具,在3D空间中以时间为第四个纬度进行标注,提升自动驾驶系统性能 。今年他决心放弃自动化标注 , 主动找到谢晨,最后入职了光轮智能 。
这名同事就是小李 。他表示,生成式AI的出现一度让他非常焦虑 , 但看到合成数据后,他重新兴奋起来 。
他的工作目标之一就是“取代(标注)这行业的人”,但又不好意思把话说绝,“很可能就在短期内 , 可能一两年 。”
最后,让我们回到标注员的世界 。这里几乎感受不到由技术飞快发展而产生的焦虑 。这里只有琐碎、重复的烦躁,还有一些天真的幻想 。
大学生小王仍然在老家训练大模型 。我们最近一次聊天 , 他说,这份工作是一个进入人工智能领域的机会 。公司为他们设定的晋升途径是,标注员到质检员、培训师 , 再到主管,最后是项目经理 。小王的目标是当上主管,然后跳槽去一个离AI更近的岗位 。具体是什么,他还不知道 。
与有雄心的小王相比,多数标注员对AI没有什么兴趣 。有个女孩给出解释,“不太关注高科技 。”她做了两年标注,已经是资深员工,不久前晋升为质检员 。对她来说,标注工作简单、稳定,“没有精神内耗”,偶尔还能摸鱼 。AI搅动科技圈的这一年 , 她的日子平静如水 。
为数不多的变化是,公司提供的标注工具中多了一个对话机器人 。公司告诉大家,在标注时碰到不懂的问题,直接向机器人提问就行,节省时间 。效率提升很快 , 她告诉36氪,之前拉框,一天最多做完五六百个 , 现在能做七百多 。
“多亏了那个机器人 。”她说 。还没人告诉她,那叫ChatGPT 。
(应受访者要求,文中部分人物为化名 。36氪作者邓咏仪对文章亦有贡献 。)

【数据标注员,困在大模型里】


推荐阅读