AI人工智能|美国劳工统计局使用机器学习自动执行数据编码( 三 )


Alex Measure: 就个人来看 , 我认为这里有两个令人印象深刻的惊喜 。首先就是自由开源软件的存在 , 居然让机器学习系统的构建变得如此轻松 , 且实际表现远优于我们以往使用的高成本、基于规则的方法 。第二点在于 , 这类系统在编码分配准确率方面比经过培训的人类编码员更高 。这一切都是我们刚开始难以想象的 , 事实上整个劳工局都花了一段时间才适应如此出色的效果 , 而且其结果确实非常稳定 。
平均来看 , 我们的机器学习系统自上线以来就一直在编码准确率方面超越了人类雇员 , 而且二者的差距随着大量数据的涌入以及随之进行的后续训练而越来越大 , 这也促使我们逐步转向更强大的机器学习算法——例如深度神经网络 。
问:我们在数据使用方面面临着哪些独特挑战?这些挑战是否会成为政府机构在使用AI技术方面的障碍?
Alex Measure:最大的挑战之一在于数据保密性 。机器学习需要大量数据 , 政府机构则拥有着丰富的实用性数据 , 但却不能任意公开加以使用——这无疑限制了各机构使用机器学习技术的具体途径 。例如 , 在我们第一次尝试使用深度神经网络时 , 我们无法直接使用云资源 , 因为现有政策对此明令禁止 。这就构成了大问题 , 因为劳工局自身显然没有充足的硬件以训练我们需要的各类神经网络模型 。最终 , 我们通过内部采购及安装必要硬件解决了这个问题 , 但相当一部分其他机构恐怕难以跨过这道门槛 。
另一大重要挑战在于模型共享 。当劳工局开发出能够自动对职业或伤害进行标准化类别划分的机器学习模型时 , 这一成果不仅能够服务于劳工局自身 , 对于其他处理类似任务的联邦机构也同样意义深远 , 甚至能够给外部研究机构及研究人员带来巨大帮助 。由于我们掌握着大量相关数据 , 因此劳工局等政府机构在训练这类模型方面拥有着特殊的优势地位 。但有研究表明 , 这类模型可能在无意之间透露出训练过程中所使用的的数据信息 , 这就要求我们在模型共享方面小心再小心 。近期其他研究表明某些技术有望缓解这些风险 , 劳工局已经开始进行探索 , 但这仍是一项极为艰难的挑战 。
问:从更广泛的角度来看 , 联邦政府中的哪些领域有望在AI技术的推动下实现显著的效率提升?
Alex Measure: 我在政府机构工作的时间不短了 , 在我看来几乎每个联邦机构都有望利用有监督机器学习技术 , 实现相当一部分日常任务的自动化转型 。统计机构就是最典型的一例 , 他们的主要工作内容就是语言编码与分类 。目前 , 越来越多的统计机构已经在使用类似的技术自动检测错误 , 并匹配来自不同数据集的记录内容 。
问:联邦机构可以采取哪些措施以吸引那些具备技术创新能力的高水平劳动力?
Alex Measure: 我认为联邦机构最好的人才吸引方法 , 就是强调使命感与荣誉感 。联邦机构关注的往往是那些最重要的任务 , 一旦成功将造福整个国家 , 这对于具有强烈公民意识的人才极具吸引力 。毕竟有意义的项目可不是那么容易接触到的 。我还想强调的是 , 外部招聘并不是吸引熟练劳动力的唯一途径 。劳工局的不少编码项目及后续机器学习尝试依靠的并不是外部AI专家 , 而是经过培养、对于自动化技术抱有浓厚兴趣的内部雇员 。当然 , 在此期间Coursera等免费在线教育资源也发挥了重要作用 。
劳工局之所以能够走通这条道路 , 是因为员工已经在统计领域拥有丰富的经验 。可以肯定的是 , 成功的机器学习项目既需要强调技术的一面 , 也需要关注专业知识方面的积累 。政府雇员对专业的认识已经非常深刻 , 互联网上又有着大量能够自由获取的资源建立技术基础 , 二者就这样和谐统一了起来 。
问:展望未来几年 , 您最期待哪些AI技术成果?
Alex Measure: 我的工作主要依赖于有监督机器学习 , 但其中仍存在着一大局限 。我们需要丰富的训练数据才能获得良好的性能 , 这里说的不是少量数据 , 而是体量庞大、远超普通人学习所需的数据集合 。在大多数情况下 , 我们需要为模型提供成百上千的训练数据示例 , 才能让其掌握一种相关概念 。这是个巨大的障碍 , 因为大多数应用场景中并不能提供这么丰富的数据 。


推荐阅读