数据标注员,困在大模型里


数据标注员,困在大模型里

文章插图
图片来源:由无界 AI生成
在一家互联网大厂做数据标注的小颜,时常在公司感到一种隔绝 。
小颜的工位,跟产品经理、程序员们挨在一起,他们能享受相同的福利:同样的工牌、苹果电脑;随时可以去健身房,或去太空舱睡一觉 。
但小颜能察觉到 , 作为数据标注员的她和其他同事 , 分属于“两个世界” 。
尽管大家是一个团队,但每天的早会 , 没人会喊上标注员 , 小颜只能偷偷摸摸在门外看 。有一回,有人推来一车台灯,是团队正在做的AI产品样机,程序员们围了上去,很兴奋,拿在手里把玩 。标注员们则坐在工位忙自己的事,毫无波澜 。“他们不知道那个产品,就是靠标注的数据做出来的 。”
入职时 , 小颜所在的公司正在开发一款教育类AI产品 , 需要标注大量数据以训练AI 。公司买来堆积如山的中小学习题册,小颜的工作是拍下每一道题,然后在电脑上对这些题目拉框,做标注 。
同样是为AI工作,程序员清楚地意识到自己的工作价值,享受着算法不断进步带来的快感,但几乎没有标注员会觉得,正是自己的劳动创造了AI 。
人工智能的进步离不开数据标注 。近几年自动驾驶的发展,带动了数据标注的市场 。据德勤的报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%,预计到2027年,比例将上涨到52% 。
今年大模型兴起,给数据标注行业再添一把火 , 大量基于大模型训练场景的订单朝数据标注公司飞去,看上去 , 数据标注这个枯燥的生意 , 再次注入活力 。
一些技术公司走得更前列 , 正在尝试使用AI自动合成数据 , 供AI训练 。合成数据是基于少量真实数据,用AI无限生成、无需标注的数据,而不再依赖人工标注 。在自动驾驶领域,合成数据可以覆盖一些极端路况,比如行人突然闯入马路等 。
在他们的畅想中,今后合成数据将取代人工标注 。没有技术、只靠人力的标注公司将被逐步淘汰 。一项数据显示,国外用于人工智能的基础数据中,已有70%是合成数据,这条路正在被验证 。
对数量庞大的数据标注员来说,上述内容并不是好消息 。然而36氪接触的一些标注员,还不清楚ChatGPT到底是什么,他们的反应像是第一次听说这个名词 。
小颜说,标注员是一个随时可以被切掉的尾巴 。唯一的悬念是,这一刀何时彻底落下 。
训练机器的标注员们,觉得自己更像机器
小河的专业是英语系,大四那年在一家大厂实习 。第一天上班 , 办公室在一栋写字楼里,宽敞、干净,完全符合她对互联网公司的想象 。没多久她意识到,面试所了解的工作内容——“整理、分类公司语音数据”,其实就是数据标注 。
后来小河承认,如果知道那是给AI打工的起始,她会立即走人 。
组里有6个实习生,都是名校外语系的同学 。一个女组长每天分派任务 。有时是一堆英语音标,小河的任务是区分出英音和美音;有时是一份Excel,点开,满眼都是数据,往下拉,足足有一万多条 。
“感觉像爬一座山 。”小河说 。
做过最多的“项目” , 是中学生的口语标注 。标注员习惯把工作说成项目 , 一个项目接着一个项目 。小河一天要听200条带浓重口音的录音 , 每条两分钟 。听到一般疑问句,打1分;听到特殊疑问句,打2分;都没听到就是0分 。为了防止泄密,只能用办公室的有线耳机,小河听得耳朵酸胀,“不由自主的烦躁” 。
她经常听到录音出现脏话 。有的小孩口语没讲几句,就开始飙国骂 。还有一次做地图导航的项目,有人不由分说,在录音里谩骂 。“我不知道为什么有人会有那么大的怒气 。”
小河说,你不能太当回事,只能给这条录音打个标“无意义”,然后翻篇 , 继续听下一条 。
“像个机器一样” , 几乎每个标注员都会这样形容自己 。标注不费脑子 , 一位山东的标注员说 , 做过最困难的项目是指纹标注 。她拿到一堆不知道是谁的指纹图(有些还很模糊),需要沿着指纹的边缘一点点拉框 。“那天回家后,闭眼都是指纹 。”
许多项目要求标注员严格保密,但标注员也不关心项目用途是什么 。上班期间,标注员被要求交出手机,放在墙上的挂袋里 。只有接到电话时,才允许他们取回手机 。


推荐阅读