数据服务|AI数据服务行业进入“认知战争”,云测数据凭什么稳居行业TOP1?( 二 )


一是特殊的数据标注类型 , 例如 , 云测数据的主要服务场景之一自动驾驶 , 常常会有激光雷达传感器产生的数据需要标注 。 一般车载摄像头的数据标注 , 比较“体力化” , 框出指定的元素教会算法识别即可:
数据服务|AI数据服务行业进入“认知战争”,云测数据凭什么稳居行业TOP1?
文章图片

而激光雷达的数据则与人类现实世界差距甚远:
数据服务|AI数据服务行业进入“认知战争”,云测数据凭什么稳居行业TOP1?
文章图片

这时候 , 云测数据不得不要求人工对雷达数据有丰富的知识技能和处理经验 , 可能还牵扯很多物理学方面的知识 , 绝不再是简单地体力劳动了 。
二是 , 专业领域的数据标注 。 这方面较为典型的是垂直领域的语音、文本类数据标注 , 例如金融、家居领域 , 这些数据标注的需求不亚于这些领域一线的业务人员(需要深度理解业务 , 才能标注好包括专业词汇、逻辑等数据) , 因此 , 像云测数据这类平台培养了金融、家居等领域的“专才” , 甚至于 , 在为一些金融机构服务时 , 还要按照需求提供达到素质要求的标注队伍进行作业 。
2、复杂工具技能:数据标注本身也在进行某种数字化升级
高精度的实现 , 除了数据标注人员由流水线工人转化为有特定技能的专业人才之外 , 随着业务量的扩大 , 还配套有渗透全流程的各种数字化工具来提高准确率、效率 , 这就如同一个制造业企业进行了数字化、智能化升级来应对严苛的市场竞争一样 。
从云测数据的案例看 , 99.99%的准确率背后是一大堆技术工具在支撑 。
标准API接口的数据处理平台支持各种主流格式 , 跟众多AI企业可以做到短时间无缝衔接 , 省略线下做导入导出的繁琐步骤 。 数据生产过程通过模板化的任务创建 , 数据采集 , 清洗到标注全部线上流转 , 传统线下流转可能面临的信息丢失、失真问题得到解决 。
此外 , 云测数据引入了基于规则的机器筛查方式 , 在人工校验流程前根据所标注内容要求引入相关查错规则 , 这种数字化辅助直接提升了数据精度和效率 。
事实上 , 强化工具能力一直是各数据标注平台在做的事 , 甚至AI本身的发展也反过来支撑数据标注工作 。 云测数据这类扎根行业的企业这些年投入了大量资源在工具开发上 , 打个不恰当的比方 , 这就好比富士康不断增加工厂智能化水平、引入大量智能机械一样 , 朝着“高端制造”前进一样 。
3、综合研发技能:“解决方案”输出下的采集、标注一体化
随着AI技术深入到各个细分领域 , 企业对AI在商业化落地中的表现要求越来越高 。 在很多领域 , 客户企业对服务供应商会提出更多样化的需求 , 这时候 , “解决方案”式的合作方式不可能避免出现在数据标注产业中 , 在拿出99.99%精准度的同时 , 云测数据还对外发布了智慧城市、智能家居、智能驾驶、智慧金融这四个场景的“全链条的AI训练数据服务方案” 。
这些解决方案 , 简单说 , 就是过去合作的拓宽、拓深 , 为了同样保证超高精准度 , 这个过程必然伴随大量专业技术性的工作 。
在数据标注产业链上 , 采集与标注不分家 , 华东、华北、华南设有数据交付中心和数据场景实验室的云测数据 , 在给出的四个场景解决方案中 , 都十分强调场景化的数据采集服务 。
例如 , 智慧城市数据解决方案的一个重要亮点或者说价值 , 是为客户企业提供“长尾场景数据”——如不同光线下人员检测、危险动作检测等长尾情形 , 都需要不断充实长尾场景 , 来提升“智慧”的覆盖能力(处理、统计一些城市管理任务) 。
云测数据建立的“数据场景实验室” , 通过还原场景、研究长尾场景的特点完成对应传感器下的场景数据采集工作 , 这种行为 , 本质上相当于数据标注企业为智慧城市AI项目完成特定规则下的知识图谱搭建 。
类似的 , 还有智能家居场景中 , 在各类复杂语音背景下采集语音数据 , 实验室开发底噪、混响、方言、语种等特殊要求下的数据采集;此外 , 在智能驾驶场景中 , 云测数据为了更加贴近真实场景 , 甚至通过改造轿车、标定传感器这种参照智能驾驶汽车行驶场景的方式来采集所需要的AI数据 。
显然 , 这些方式方法都远远超出了“劳动密集”的范畴 。
4、安全技能:被忽视的数据标注“硬核”技术能力
AI越往深处走 , 数据资产的重要性就越高 , 尤其是AI数据更加立体和丰富、精准度到达一个新的高度后 , AI数据的价值变得更高 , 数据安全就更加成为客户企业的刚需 。
从数据标注产业的演变来看 , 对安全的重视 , 导致不少数据标注企业至少在数据安全维护方面拥有可圈可点的技术耕耘 , 甚至不输于其他被打上技术公司标签的巨头 。
一个现实是 , 像云测数据这样的头部企业 , 即便拥有行业内最专业的全职团队 , 能够保证高质量数据也能够实现高效的作业效率 , 甚至不断引导行业的规范化发展 , 这些地位、价值或者优势 , 也都是建立在数据隐私安全的原则之上 。
数据精准度做得越高 , 云测数据这种企业就更看重数据隐私安全的保护 。 这些年 , 除了流程和工作方式的严格控制 , 云测数据内部还开发了数据隔离、质量保障等一系列数据安全方面的技术 , 这也使得数据标注企业的“技术”标签更加浓厚 。


推荐阅读