大型语言模型和人工智能代码生成器的兴起( 五 )


根据Replit公司的说法 , Ghostwriter“返回由公开可用代码训练并由Replit调优的大型语言模型生成的结果 。”Replit没有指定用于Ghostwriter的大型语言模型或训练语料库 , 这使它与Emily Bender对GPT-4的指控相同:除非Replit公开其训练数据 , 模型架构等 , 否则应该假设Ghostwriter是有毒垃圾 。这也让Replit面临着与GitHub Copilot同样的“开源软件盗版”指控 。
Tabnine
Tabnine来自总部位于以色列特拉维夫的Tabnine公司 , 看起来就像服用了类固醇的IntelliSense , 可以选择在用户自己的代码语料库上进行训练 , 也可以在开源代码上进行训练 。它可以在编辑器或IDE中完成整行和全功能的代码补全 , 支持20种这样的工具 , 从Visual Studiocode和IntelliJ到Emacs和Vim 。
根据用户选择的计划 , Tabnine可以使用一种通用的人工智能模型 , 这种模型是在许可的开源代码上训练的 , 或者一组针对所有编程语言优化的生成人工智能模型“专门用于匹配的技术堆栈” , 或者在用户自己的存储库上训练的私有代码模型 。
Tabnine的免费Starter计划只提供基本的代码补全功能 。Pro计划以每个用户每月12美元的价格完成全线和全功能代码 。Tabnine尚未披露其模型架构或训练语料库 。因此 , 根据Emily Bender原则 , 用户应该对它生成的任何代码进行最坏的假设 。
大型语言模型有时可以用于生成或完成代码 , 无论它们是否在代码语料库上进行过训练 。经过代码训练的语言模型往往更了解空白的重要性 。而像OpenAI Codex和Tabnine这样的代码生成产品通常比更通用的语言模型与编程编辑器有更好的集成 。
人们应该期待AI代码生成器随着时间和使用而改进 。GitHub Copilot X比原来的Copilot更好 , 并相信下一个Copilot会更好 。然而 , 永远不能假设任何类型的人工智能生成的代码都是正确或有效的 , 甚至不能假设它可以编译并运行 。应该将人工智能生成的代码视为来自未知程序员的拉取请求 , 这意味着在将其作为应用程序的一部分之前 , 要对其进行审查、测试和调试 。
原文标题:LLMs and the rise of the AI code generators , 作者:Martin Heller

【大型语言模型和人工智能代码生成器的兴起】


推荐阅读