AI人工智能|美国劳工统计局使用机器学习自动执行数据编码

政府机构永远充斥着各种文件 , 其中又不乏大量纸质文档;即使是对于电子文档 , 实际处理与解读仍然需要耗费大量的人力 。为此 , 联邦机构寄希望于AI技术 , 即通过高级机器学习、神经网络以及自然语言处理(NLP)技术帮助改善这类文档的处理效率 , 尽可能将宝贵的人力资源解放出来 。虽然其中不少技术在其他行业中早已拥有成熟的应用 , 并被拓展以增强各类工作流程及任务 , 但在部分政府部门内 , 这些技术还完全属于新鲜事物 。
以美国劳工统计局(BLS)为例 , 该机构的主要职责在于执行职业伤害与疾病调查 , 以确保各类工作场所中常见的健康危害问题并协助制定指导性政策 。为了完成这项任务 , 劳工局在全国各地的办公室中设有数十名训练有素的员工 , 专职通过工作场所内的调查数据对各类伤害及疾病进行分类 。但是 , 这方面工作一直以手动方式执行 , 并导致各类标记、编码错误乃至速度与成本瓶颈一直妨碍着整体流程的效率提升 。
AI人工智能|美国劳工统计局使用机器学习自动执行数据编码
文章图片

文章图片

▲ 图:Alex Measure, 美国劳工统计局经济学家
为了简化整个流程 , 劳工局决定引入机器学习技术 。约十年之前 , 劳工局经济学家Alex Measure决定探索机器学习(ML)技术如何帮助该机构改进流程效率 , 他本人也与我们分享了将AI技术纳入劳工局乃至整个联邦政府当中可能出现的独特挑战、各机构在AI应用过程中面临的数据难题、外加未来几年内他最为期待的重要发现 。
在本文中 , 我们将一同了解他对于将机器学习应用于政府业务场景 , 特别是文档与人工流程中方面的宝贵见解 。
问:劳工局在数据收集与处理方面面临的特殊挑战是什么?
Alex Measure: 劳工局需要面向众多方向收集大量专题信息 , 具体涵盖就业、人力成本、工作时间以及工作场所伤害风险等各个方面 。在调查当中 , 各领域间唯一的共通点在于 , 调查结果往往以自然语言的形式存在 。在信息收集过程中 , 无论是采取访谈、调查或者还是其他方式 , 收集到的大部分内容都是以语言形式传达 。为此 , 我们需要将语言转换为统计数据 , 这就是我们常说的编码过程 。
在此过程中 , 我们需要分配标准化分类指标以指示值得关注的关键特征 。例如 , 《职业伤害与疾病调查》每年收集数十万份与工作相关的伤害与疾病调查资料 。为了回答诸如“门卫人员在工作中最常见的伤害原因是什么?”这类问题 , 我们需要认真阅读每一份描述 , 以编码方式将对方的职业与造成伤害的因素关联起来 。接下来 , 我们汇总结果信息以回答实际问题 。直到最近 , 整个流程仍然相当枯燥繁琐 , 而且大部分工作需要以手动方式完成 。
在职业伤害与疾病调查方面 , 我们每年大约需要25000个工作时 。如果希望尽快完成任务 , 则意味着需要同时雇用更多人力、培训更多新雇员 , 并保证他们能够以统一的方式对内容做出解读 。这相当困难 , 实际上我们发现 , 即使是两位同样经验丰富的专家 , 在编写同一份伤害说明材料时也只有70%左右的几率针对相同的素材给出完全相同的伤害编码分类 。这样的挑战不仅存在于劳工局之内 , 也广泛存在于全球各类从事类似任务的组织当中 。
问:那么劳工局是如何使用机器学习技术解决这些问题的?
Alex Measure: 七年之前 , 劳工局完成了《职业伤害与疾病调查》的全部编码工作 。过去一年中 , 我们使用有监督机器学习(特别是深度神经网络)自动完成了超过85%的处理任务 。随后 , 劳工局开始逐步将这些技术用于处理其他相关任务 , 涵盖从职业/生产分类 , 到医疗福利及工作要求的各个方面 。
问:多年以来 , 劳工局对于AI技术的看法与应用方式经历了哪些转变?


推荐阅读