大型语言模型和人工智能代码生成器的兴起( 五 ) _大型语言模型

根据Replit公司的说法， Ghostwriter“返回由公开可用代码训练并由Replit调优的大型语言模型生成的结果。”Replit没有指定用于Ghostwriter的大型语言模型或训练语料库，这使它与Emily Bender对GPT-4的指控相同：除非Replit公开其训练数据，模型架构等，否则应该假设Ghostwriter是有毒垃圾。这也让Replit面临着与GitHub Copilot同样的“开源软件盗版”指控。
Tabnine
Tabnine来自总部位于以色列特拉维夫的Tabnine公司，看起来就像服用了类固醇的IntelliSense ，可以选择在用户自己的代码语料库上进行训练，也可以在开源代码上进行训练。它可以在编辑器或IDE中完成整行和全功能的代码补全，支持20种这样的工具，从Visual Studiocode和IntelliJ到Emacs和Vim 。
根据用户选择的计划， Tabnine可以使用一种通用的人工智能模型，这种模型是在许可的开源代码上训练的，或者一组针对所有编程语言优化的生成人工智能模型“专门用于匹配的技术堆栈” ，或者在用户自己的存储库上训练的私有代码模型。
Tabnine的免费Starter计划只提供基本的代码补全功能。Pro计划以每个用户每月12美元的价格完成全线和全功能代码。Tabnine尚未披露其模型架构或训练语料库。因此，根据Emily Bender原则，用户应该对它生成的任何代码进行最坏的假设。
大型语言模型有时可以用于生成或完成代码，无论它们是否在代码语料库上进行过训练。经过代码训练的语言模型往往更了解空白的重要性。而像OpenAI Codex和Tabnine这样的代码生成产品通常比更通用的语言模型与编程编辑器有更好的集成。
人们应该期待AI代码生成器随着时间和使用而改进。GitHub Copilot X比原来的Copilot更好，并相信下一个Copilot会更好。然而，永远不能假设任何类型的人工智能生成的代码都是正确或有效的，甚至不能假设它可以编译并运行。应该将人工智能生成的代码视为来自未知程序员的拉取请求，这意味着在将其作为应用程序的一部分之前，要对其进行审查、测试和调试。
原文标题：LLMs and the rise of the AI code generators ，作者：Martin Heller

【大型语言模型和人工智能代码生成器的兴起】

大型语言模型和人工智能代码生成器的兴起( 五 )

推荐阅读

Netflix|《怪奇物语》第五季走向感动Netflix高层！威可那蓄胡造型曝光

把一块猪肉扔进米饭里，这样做实在太好吃了，咸香又美味

软硬件全面创新三星Galaxy S20系列让手机摄影更专业

沈阳通报出租车司机追撞外卖员事件:出租司机被拘

属相牛本命年可以结婚吗？本命年结婚

大极限|方能解热暑！夏天吃这消暑四苦，清热解毒还消炎，吃得苦中苦

虞书欣|虞书欣蹿红未必是好事？暴露的缺点不止一点点

孕妇可以吃猪皮吗

趣观历史|为何要屠杀异姓王？这是另一场统一战争，刘邦登上帝位数年后

新疆日报|将心比心做好社区服务

对于屡次放我鸽子的好朋友应该咋办

公益|金融科技连接下沉场景度小满金融亿元低息贷款扶助新发地商户

食知你味|它被称为“植物肉”，天热吃肉腻，多给家人做这种豆腐，比肉还香

##老公硬要用“麻绳”做扶手，主卫全透明，地板铺水泥！你见过？

汪小菲|婚姻期间飞700多次，离婚后被嘲蹭热度，汪小菲气得飙脏话骂人

服装|谁说秋季牛仔裤很普通？那是你不会穿，法式穿法复古简约又随性

香干芽菜的做法

绿叶的舞曲|开门见坟，家败子不归”，古人的忠告，啥意思？，俗语“屋后有水

围绕南海，日本又跟美国搞了一个“共识”

明星潮流|竹青双眼皮没了，小舞成“山羊”，奥斯卡变妖了，七怪整容归来