模型越大,AI编程个性化就越难?( 二 )


郝逸洋:虽然没有尝试过,但是在过去做Cortana的时候,我们会根据场景去做意图分析 。基本上是三个:聊天、天气、交通 。这三个需求可以覆盖80%的用户交互 。
因为没有尝试Copilot,就暂时不做评价,但可以补充一下,语音技术的确比较成熟,但一旦遇到领域知识,就会出现瓶颈,例如一个中国程序念它的英文名字,可能发音都会有问题 。
李钟麒:我个人认为语音技术或许比较成熟,但用到代码上仍会存在问题 。就个人而言,让模型做到语音交互,用语音写并不能带来特别好的场景 。因为代码对上下文的要求也是比较高的,也存在一些技术难点 。
AI编程工具若真加上语音功能,那可能需要配备较好的前端设备 。同时,代码容错率会比语音要低 。因此,我认为语音编程技术性价比不高,后续优化也需要考虑是否值得投入 。
今生:攻克AI编程现阶段的难关
《开谈》: 在做AI编程工具的过程中,是否遇见过较难解决的问题?
李钟麒:第一,是场景上的问题 。当函数生成的准确率推高时,上下文的感知能力会被削弱,这源于方案优化下导致的一些短板 。同时,如何在生成信息的时候将信息都告诉AI模型,扩大它的视野 。我觉得终极目标是AI编程工具能够代替大家写程序,目前存在非常大的挑战 。
第二,是个性化的挑战 。不同的产品线,会对应不同的公司,不同的产品,大家的写法也存在差异,大家都不希望有重复编码的情况出现 。除此之外,还需要打消用户对安全性的顾虑 。实际上,模型的推断是一定需要上下文输入的 。在不知道上下文的时候,公有化的部署将其做成一个公共的模型,会存在很大的安全性挑战 。
郝逸洋: 我认为难点一是:成本问题 。因为目前的模型对计算资源的要求很高,在用户多元化的情况下,如果需要一直提供免费服务,其实并不是健康的商业模式 。同时,在定制化的方面,每个企业都有自己的框架,如果面对一些敏感的行业(军工行业),采取公开的模型其实提供不了其他的帮助,定制化也会增加成本 。
难点二是在企业内做私有化部署 。许多企业都非常看重信息安全,企业内的代码是不愿意上传到我们的服务器上面 。
《开谈》: AI编程在什么领域更容易推进?
郝逸洋: 我认为是互联网领域 。大一点的互联网企业有自己的AI计算中心,也有自己的机器 。即便他们显卡会千奇百怪,但我们可以想办法去适配它 。如果没有,我们需要去走采购流程,就很麻烦 。
李钟麒:我也认为互联网 。主要还是互联网涉及需要做编码的用户群体更多,可以更好地推进 。不过在互联网的公开领域,大家的能力其实都不错,只是定制化的部分,需要更多的数据支持 。
《开谈》: 自GitHub Copilot推出以来,代码版权问题就没停止过 。最近,GitHub Copilot先是被指责抄袭,后面又卷入律师诉讼,AI编程应该如何规避类似的风险问题呢?
【模型越大,AI编程个性化就越难?】郝逸洋:对于“有风险”这件事,我认为它跟AI编程本质没有关系 。例如:哪怕你让一个猴子来敲键盘,它也能敲出一个违反其他人的知识产权的代码,并非靠AI才能写出来,只是AI会把问题更加凸显,因为它是用公开的代码去学习后,记住写的模式再推荐给用户 。即便没有AI,企业依然会面临这个问题,我们称之为开源代码溯源 。
李钟麒:GitHub Copilot引起诉讼的原因,主要因为是用了一些不被允许使用或商用的代码 。因此,我们在避免抄袭的时候,一般会在数据上做文章,例如不将代码放到模型里 。首先,在源头上规避这个问题 。随后,在生成的安全性上,可以在最开始的时候进行一些语料上的处理 。之前Codex存在一些隐私泄漏的问题,显然就是没有进行预料的处理 。
《开谈》: 假设使用AI编程工具出现了bug ,未来是否还会接着用?
李钟麒:有bug很正常的 。实际上,现有的模型在数据方面的情况都大体趋于一致,在应用模型上也就31%的生成通过率 。但是,这种问题能通过大量堆算力的方式来解决 。
郝逸洋: 出现bug是较为常见的,关键是看如何处理 。目前,论文中效果非常好的模型,都是通过生成很多个的办法,随后去排序和筛选,这种方式对成本是线性的提升,也能更好的满足用户 。
《开谈》: AI编程工具可以提升效率,它和无代码、低代码技术,有什么相似和不同吗?
郝逸洋: 与低代码技术,更多的是不相似之处 。因为低代码更多的是面向非程序员,例如产品经理、管理人员,他们可以通过其只定制一些办公柜流程 。AI编程工具则是面向的是专业程序员,对准确率的要求很高,是无法脱离专业的程序员去审查和修改的 。


推荐阅读