薄情先生|AI（NLP语义方向）标注工具产品设计的5个锦囊编辑导读：数据是AI公司的必需品

编辑导读：数据是AI公司的必需品，数据标注是AI产品模型开发中重要的一环，也是AI产品经理必须要了解的基本技术，本文作者从认知基础、为什么我们需要标注、锦囊三个方面对AI标注工具的产品设计工作展开了分析说明，与大家分享。
一、认知基础个人观点的认知基础如下，如果读者不认同50%以上，那么就没必要浪费时间阅读后续内容了，反之，我希望大家多质疑与交流，通过Q&A来共同进步。
【薄情先生|AI（NLP语义方向）标注工具产品设计的5个锦囊】认知1：人工智能发展粗略可以分3个阶段：符号主义（第1阶段）→ 联结主义（第2阶段）→ 理想AI（第3阶段），我们将长期（＞30年）处于第2阶段
符号主义：代表人物纽厄尔和西蒙，认为人类的智能不管多复杂，归根到底都是由符号计算来实现的。只要计算机科学家设计了适合的程序，计算机早晚有一天能凭着符号的计算，也能提出相对论、创造罗纳尔多的射门、而剪纸捏泥人和书法篆刻就更不在话下。
符号主义的缺陷：很难在非常复杂的求解组合中快速找到最优解。
联结主义：代表人物大卫休谟，认为人工智能的首要任务是建立大脑的模型，不是预先给定解决问题的算法，而是构建一个在计算机上模拟的“神经元网络” ，让机器自主地建立不同神经元之间的“联结” ，通过最终结果的反馈，不断调整联结的模式，最终逼近最优解。
联结主义的缺陷：过于依赖经验数据
理想AI：感知智能+认知智能+情感的主观感受+自我意识
理想AI的缺陷：暂时无实现方案
认知2：AI执行语义理解任务，当前已经到了技术成熟期，后续依赖产品力和数据
粗暴一点说，各家算法基本无差别（＜10%）。以解决实际业务问题、实现业务价值为衡量标准的话，产品的易用性（决定落地门槛/规模/效果）、组件化程度（决定成本），数据的数量和质量，才是决定价值的砝码。
认知3：中国现阶段（10年内）ToB市场，大B的真需求都在自给自足，第三方服务中小B才是正途
大B只有探索型需求和伪需求（为了体制内的升官发财）才会留给第三方，所以一个第三方公司如果敢说只做大B ，那么一定是死路一条或者半死不活（无法建立壁垒/低利润率）
二、为什么我们需要标注？认知1中提到“联结主义的缺陷在于过度依赖经验数据” ，那经验数据是什么？经验数据 = 已标注数据。
未标注数据只能用于无监督机器学习，当前执行99%以上AI任务的都是有监督机器学习模型，预计未来30年以内还会保持现状。所以数据标注就是绕不开的槛。
三、锦囊效率高是好的标注工具的唯一标准，所以3条锦囊全部都是围绕语义标注工具效率提升。
效率 = 认知效率 + 操作效率 + 智能化，以下锦囊也都是沿着这3个提升效率的方向进行的产品设计。
锦囊1：互斥性原则语义模型本质上是一个分类模型，分类最关键的是类别清晰，例如想想折磨我们的垃圾分类。互斥性值得就是不同类之间要做到不重不漏（漏的部分一定设置专门的“其他分类”来兜住）。
具体到产品设计上，歧义优化（根据向量相似度，自动识别不同类之间存在交叠关系的语料），分类说明（设置为必填项）等都是互斥性原理的具体体现。
锦囊2：聚类冷启动Bert无监督聚类模型做冷启动， “效果杠杠的，谁用谁知道” 。缺失此模块，数据标注人员冷启动阶段就全靠想象力“瞎编” 。我见过太多数据人员编写相似句（同一语义不同句式表达方式）写到生无可恋。上线周期还会因为标注效率低和效果差一拖再拖。
锦囊3：By分类智能推荐待标注语料来，这一条锦囊大家可以在评论区猜一猜是啥意思？

薄情先生|AI（NLP语义方向）标注工具产品设计的5个锦囊

推荐阅读

青年|王者荣耀吉哥：新版杨戬白抗螺纹靴？

澎湃新闻|国家市场监管总局公布办公椅抽查结果：不合格率超两成

开心的娱乐番茄|平台价值释放“叠加效应”，土巴兔隐性植入热播剧

骨折|家有老人必看：这种骨折是“人生最后一次骨折”，死亡率达50%

【商城外宣微博】全国添衣指数地图出炉看看你家要加几件衣服？

碧螺春选购攻略,怎样贮藏碧螺春茶

直播吧|现在我们是好朋友，克劳奇：双红会时曾险些向费迪南德挥拳

寸头|正邦科技：预计前三季度净利润同比增长10679.87%-11077.85%

小汝子 4S店哭诉：曾经一台3万送车牌都没人买，停车场堆满众泰新能源车

新冠肺炎|不戴口罩会如何？印度罚人坐灵车，灵车里放有新冠肺炎死者的尸体

徕卡镜头|为什么华为选择徕卡，为什么iPhone不用徕卡镜头？

生活百科|人人都需要电动牙刷吗？

cnBeta|诺贝尔物理学奖得主认为宇宙经历着死亡和重生的循环轮回

拳击字典1979|VS 卡尔扎合，各自巅峰期，谁强？大数据对比，附投票，弗朗切

智通财经|金宝通(00320)年度溢利同比增6.8%至1097.3万港元，末期股息每股0.0131港元

#独孤西枫#走到分手这一步都是对方的错？，为什么有些人会认为

融资|[快讯]中关村科技园区管委会主任翟立新：新三板改革取得了阶段性的成效

呼吸道疾病进入高发季节接种疫苗莫犹豫

人民日报客户端|外交部新任发言人汪文斌亮相曾任驻突尼斯大使

山西阳泉发生瓦斯爆炸事故，致2人死亡9人受伤