薄情先生|AI(NLP语义方向)标注工具产品设计的5个锦囊
编辑导读:数据是AI公司的必需品 , 数据标注是AI产品模型开发中重要的一环 , 也是AI产品经理必须要了解的基本技术 , 本文作者从认知基础、为什么我们需要标注、锦囊三个方面对AI标注工具的产品设计工作展开了分析说明 , 与大家分享 。
一、认知基础个人观点的认知基础如下 , 如果读者不认同50%以上 , 那么就没必要浪费时间阅读后续内容了 , 反之 , 我希望大家多质疑与交流 , 通过Q&A来共同进步 。
【薄情先生|AI(NLP语义方向)标注工具产品设计的5个锦囊】认知1:人工智能发展粗略可以分3个阶段:符号主义(第1阶段)→ 联结主义(第2阶段)→ 理想AI(第3阶段) , 我们将长期(>30年)处于第2阶段
符号主义:代表人物纽厄尔和西蒙 , 认为人类的智能不管多复杂 , 归根到底都是由符号计算来实现的 。 只要计算机科学家设计了适合的程序 , 计算机早晚有一天能凭着符号的计算 , 也能提出相对论、创造罗纳尔多的射门、而剪纸捏泥人和书法篆刻就更不在话下 。
符号主义的缺陷:很难在非常复杂的求解组合中快速找到最优解 。
联结主义:代表人物大卫休谟 , 认为人工智能的首要任务是建立大脑的模型 , 不是预先给定解决问题的算法 , 而是构建一个在计算机上模拟的“神经元网络” , 让机器自主地建立不同神经元之间的“联结” , 通过最终结果的反馈 , 不断调整联结的模式 , 最终逼近最优解 。
联结主义的缺陷:过于依赖经验数据
理想AI:感知智能+认知智能+情感的主观感受+自我意识
理想AI的缺陷:暂时无实现方案
认知2:AI执行语义理解任务 , 当前已经到了技术成熟期 , 后续依赖产品力和数据
粗暴一点说 , 各家算法基本无差别(<10%) 。 以解决实际业务问题、实现业务价值为衡量标准的话 , 产品的易用性(决定落地门槛/规模/效果)、组件化程度(决定成本) , 数据的数量和质量 , 才是决定价值的砝码 。
认知3:中国现阶段(10年内)ToB市场 , 大B的真需求都在自给自足 , 第三方服务中小B才是正途
大B只有探索型需求和伪需求(为了体制内的升官发财)才会留给第三方 , 所以一个第三方公司如果敢说只做大B , 那么一定是死路一条或者半死不活(无法建立壁垒/低利润率)
二、为什么我们需要标注?认知1中提到“联结主义的缺陷在于过度依赖经验数据” , 那经验数据是什么?经验数据 = 已标注数据 。
未标注数据只能用于无监督机器学习 , 当前执行99%以上AI任务的都是有监督机器学习模型 , 预计未来30年以内还会保持现状 。 所以数据标注就是绕不开的槛 。
三、锦囊效率高是好的标注工具的唯一标准 , 所以3条锦囊全部都是围绕语义标注工具效率提升 。
效率 = 认知效率 + 操作效率 + 智能化 , 以下锦囊也都是沿着这3个提升效率的方向进行的产品设计 。
锦囊1:互斥性原则语义模型本质上是一个分类模型 , 分类最关键的是类别清晰 , 例如想想折磨我们的垃圾分类 。 互斥性值得就是不同类之间要做到不重不漏(漏的部分一定设置专门的“其他分类”来兜住) 。
具体到产品设计上 , 歧义优化(根据向量相似度 , 自动识别不同类之间存在交叠关系的语料) , 分类说明(设置为必填项)等都是互斥性原理的具体体现 。
锦囊2:聚类冷启动Bert无监督聚类模型做冷启动 , “效果杠杠的 , 谁用谁知道” 。 缺失此模块 , 数据标注人员冷启动阶段就全靠想象力“瞎编” 。 我见过太多数据人员编写相似句(同一语义不同句式表达方式)写到生无可恋 。 上线周期还会因为标注效率低和效果差一拖再拖 。
锦囊3:By分类智能推荐待标注语料来 , 这一条锦囊大家可以在评论区猜一猜是啥意思?
推荐阅读
- 薄情娱乐咖|还能登上人生巅峰,贾诩简直就是张绣的“人生导师”,打一手烂牌
- 方舟先生|称用作品说话,粉丝可以先看其他人,胡歌被侃失踪人口但无惧掉粉
- LOL嘴强老司机|老骥伏枥!卡萨六进世界赛首次闯入四强!从决胜局拉哥到关键先生
- 中国新闻网|马来西亚将“云纪念”陈嘉庚先生146周年诞辰
- 八卦先生|新版《粉红女郎》:殷桃不及陈好有风情,男配角比原版颜值降级
- 小彩说娱乐|本以为会丑,却是被天使吻过的脸,有种基因叫“憨豆先生”的女儿
- 体育先生V|GOAT之争极其激烈的五大体育项目
- 体育先生V|现役只有他最有机会吗?,詹姆斯加入4冠+4MVP俱乐部第四人
- 江东周郎先生|最神秘无疑是无字碑,揭秘无字碑秘密,女帝武则天留下太多传奇
- 篮郭先生|坦言自己“没什么犹豫”,为何继续留守天津?朱婷揭开内幕