「甲子光年」横店群演兼职“车模”:我这辈子都没想过和做上和AI相关的工作( 六 )


4.数据竞争:采集呼叫转移
事实上 , 早在几年前就已经有数据采集机构启用群演 , 但这种操作模式目前依然小众 。
“据我所知 , 现在市面上唯一采用群演来做AI数据采集的数据服务商 , 只有云测数据一家 。 ”云测数据交付负责人朱文辉告诉「甲子光年」 , 因为群演作为被采集对象成本不低 , 除横店外 , 其他影视基地还未建立健全的演员公会制度 , 因此效率优势也不明显;此外 , 以往机器学习所需的数据比较粗放 , 并不需要以表演的方式实现 。
但随着AI的场景化落地 , 数据质量对算法越来越重要 , 更多人工智能玩家开始需要特定场景的AI数据 。
前天使投资人王也(化名)向「甲子光年」解释 , 通用的人工智能算法已无法满足所有场景的特定预测或分类需求 , 监督学习尤其需要多样化的人工/机器数据采集 , 从而赋予数据除统计意义之外的场景实际价值并包含进一些特殊情况 。 所以在细分的商业场景中 , “定制化”、“定向化”和“定量化”的数据采集需求正在提升 。
因此 , 赛道上的新老玩家 , 如云测数据、百度数据众包、澳鹏、海天瑞声、龙猫数据、星尘数据、曼孚科技、智成长等等 , 都已有了定制化的数据服务 , 通过各自不同的数据资源渠道 , 提供特定语言、特定种族和特定场景的数据 。
而要实现定制化数据采集 , 一是需要更多有组织的劳动力供给 。
一种方式是合伙人制度 , 与有相关资源的团队合作采集 , 例如请人力公司组织社区居民进行采集 , 其难点在于组织和管理的效率 。
在北京兼职参与过十几次数据采集项目的娉婷(化名)告诉「甲子光年」 , 参与社区采集的多为本退休地老人 , 时间观念和职业素质参差不齐 。 在某次采集项目中 , 就曾有一位阿姨因不满工作安排大闹采集现场 , 最后惊动了警方 , 导致当天工作全部瘫痪 。
另一种就是像云测数据这样为满足定制化的数据服务需求从而瞄准特殊职业群体 , 且找到类似当地政府的定向合作机构 。
曾在语音采集项目中与群演合作过的采集项目经理张海(化名)告诉「甲子光年」:随着AI场景落地逐渐增多 , 群演可能会成为重要的采集资源 , 主要优势在于成本可控 , 且能够量产一些特殊场景 , 例如醉驾、特殊表情等 。
二是定制化数据采集也需要做好工具提效 , 以满足日益复杂的采集需求 。
云测数据在横店的驻站采集负责人陈新告诉「甲子光年」:“采集现在越来越复杂了 , 而且也没有行业标准 , 很多时候我们要根据客户需求自研配套的采集软件 。 ”以视觉、语音素材的采集为例 , 有时需要十到二十个摄像头一起拍摄 , 两小时的采集就会产生至少1000个视频和数万张图片 , 采集方要确保不丢帧 , 之后还要对这些数据进行分类和清洗 。 ”
由于数据量巨大且客户需求各异 , 市面上的普通视频与图片处理软件已无法满足需求 , 出于提升效率的考虑 , 需要专人自研软件 , 这也是云测数据横店采集基地需要聘用齐渊等人员在当地做技术支持的原因 。
可以预判 , 数据采集环节也会随计算机技术本身的发展而越发自动化和智能化 , 从而在上游环节提升AI落地各垂直场景的效率 。
同时 , 类似横店演员公会这样的第三方劳务组织也会更多地参与到AI产业中 。
5.庚子降临:寒气蔓延
新的趋势已经出现 , 但智能浪潮对群演的影响力还很有限——虽然横店现在的采集业务对群演需求量很大 , 但兼职赚钱的机会落到每个人头上却不多;对大部分群演来说 , 他们还得在影视寒冬中苦苦煎熬 。
“群演很辛苦 , 新人差不多一两千一个月 , 入不敷出 , 戏多时也不过四五千 , 生活还行 , 但几乎存不下钱 。 通告一年比一年少 , 继续待下去就是虚度光阴 。 ”董兆金说 。
「甲子光年」横店群演兼职“车模”:我这辈子都没想过和做上和AI相关的工作


推荐阅读