文心|百度语义理解技术与平台文心ERNIE:AI时代的文本智能化利器
_原题为 百度语义理解技术与平台文心ERNIE:AI时代的文本智能化利器
语言与知识技术 , 被归类为认知智能 , 一直是人工智能最热门的研究与应用领域 。 9月15日 , 百度世界2020召开 , 作为“AI新型基础设施”百度大脑6.0的重要组成部分 , 百度语义理解技术与平台文心(ERNIE)在大会上的发布吸引了大量NLP开发者的目光 , 尤其基于多流机制的预训练语言生成技术ERNIE-GEN、知识增强跨模态语义理解技术ERNIE-ViL等 , 均达到了世界领先水平 。
文章图片
文心(ERNIE)是百度在语言与知识领域深耕多年的技术大成 , 同时登顶国际权威榜单GLUE也代表着中国语义理解技术在世界舞台的地位 。
随着企业智能化转型的深入 , 智能文本处理得需求广泛存在 , 通用API/SDK已无法充分满足需求 , 而传统的NLP 定制方法在实际的产业应用中面临着不少问题 , 包括:需要较多高质量的人工标注数据、缺少NLP技术选型与模型调优经验、迭代调优耗时长等 , 再加上往往需要高昂的算力花费 , 让不少企业望而生畏 。 对此 , 在今年8月25日的百度大脑语言与知识技术峰会上 , 百度集团副总裁吴甜重磅发布语义理解技术与平台文心(ERNIE) , 为企业提供了一种革新性的应用范式 , 集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体 , 提供一站式NLP开发与服务 , 让企业用户更简单、高效地定制企业级文本模型 。
百度通过将世界领先的NLP技术成果开放给业界 , 降低了NLP技术的准入门槛 , 让各大产业都能快速拥有构建和应用文本智能的能力 , 为产业智能化提供了全新的加速度 。 在今年7月的世界人工智能大会(WAIC)上 , 文心(ERNIE)更是摘得了大会最高荣誉SAIL奖(Super AI Leader , 卓越人工智能引领者) , 在人工智能领域技术创新和应用探索等方面获得权威肯定 。
文章图片
目前 , 文心(ERNIE)累计支持2万余名开发者 , 覆盖金融、通信、教育、电商等行业 , 并在多个公开权威语义评测中获得了近十项世界冠军 。
破局NLP建模难题 , 为企业NLP应用按下加速键
从数据到应用 , 文心提供一整套文本建模能力
文章图片
文心(ERNIE)基于领先的语义理解核心技术 , 内置百度自研业界效果领先的预训练模型集ERNIE和全面领先的算法集 , 将文本数据处理、基于深度学习的模型训练、模型评估和上线部署等NLP开发流程进行易用性封装 , 为NLP开发者提供一整套效果领先、简单易用、高效灵活的NLP模型开发服务 。
丰富的文本数据处理能力 , 摆脱繁琐数据处理流程
不论是互联网领域还是传统行业 , 大量的企业核心信息都分布在非结构化的文本数据中 。 在IDC的报告中也提及:“最近几年全球新增的数据中 , 有80%来自非结构化数据 。 ”一方面 , 这些文本数据蕴含着的高价值信息 , 对企业的良性发展至关重要;另一方面 , 对这些信息的处理往往要耗费大量的人力 , 也是一笔不小的成本 。
数据是模型训练的起点 。 而在实际业务应用中 , 文本数据在数据处理的环节就要面临数据标注成本高、数据样本不均衡、数据质量不高、格式处理繁琐等一系列问题 。
数据标注成本高?交给文心“智能标注”能力
一般来说 , 高质量的标注数据越多 , 模型的效果就会越好 。 但数据标注本身就是件耗时耗力又耗钱的事情 , 如何能够低成本获取大量高质量标注数据对企业来说至关重要 。 文心(ERNIE)提供了全新的“智能标注”能力 , 开发者只需要标注少量数据 , 文心就可以基于这部分数据学习、优化 , 结合人工校正 , 快速完成大量无标注数据的高质量标注 。
(体验文心智能标注功能 , 可登录EasyDL)
文章图片
数据样本分布不均?“数据增强”功能试一试
在实际的应用场景中 , 往往会面临文本数据的样本分布不均的情况 。 比如NLP领域常见的文本审核任务 , 需精准分类出正常文本和敏感文本 , 是一个典型的文本分类问题 。 但在实际的数据收集中 , 正常样本与敏感样本的数量很容易失衡 , 经常会遇到9:1(90%的正常样本) , 甚至差异更大的情况 , 但又要求训练出的模型能够更全召回敏感文本 。 这种情况就需要文本“数据增强”的功能 , 来丰富和扩展敏感样本的数量 , 让数据更丰富、比例更适合 。
此外 , 还有数据噪声多、格式处理繁琐等问题 , 文心也一一提供了解决方案:文本“数据降噪”帮助开发者快速定位高噪声数据 , 支持丰富数据格式和配套的预处理能力 。
超强实力的预训练模型和算法集 , 快速get高质量模型
推荐阅读
- 补贴|遭百度、嘀嗒围攻,焦虑的滴滴发“百亿补贴”求增长
- 功能|手写方式只适合父母一辈?试试百度输入法,你会彻底改变想法
- Apollo|@所有北京市民,百度Apollo上线的这份出行福利请查收!
- 搜索|百度精神卫生日搜索大数据:疫情冲击实体行业 今年餐饮业者心理压力增长最明显
- 搜索|百度在搜索结果引入抑郁症自测服务
- 下水|百度变阵,新“船”下水
- 服务|服务订单量同比增长266% 百度服务能力顶住国庆大考
- 广告|重拳出击违规广告,百度一直坚守的隐秘战场
- 商业化|小度独立融资,百度上演“大象跳舞”
- 多多|拼多多、百度携手同步首发小度新品,“百亿补贴”政策持续赋能