LLM 解读大模型的token( 二 )

  • 尾随的空格 。有些token有空格,这将导致提示词和单词补全的有趣行为 。例如,带有尾部空格的“once upon a ”被编码为[“once”、“upon”、“a”、“ ”] 。然而,“once on a time”被编码为[“once”,“ upon”,“ a”,“ time”] 。因为“ time”是带有空格的单个token,所以将空格添加到提示词将影响“ time”成为下一个token的概率 。

  • LLM 解读大模型的token

    文章插图
    图片
    3. token 对LLM 的影响关于token的数量如何影响模型的响应,常常感到困惑的是,更多的token是否使模型更加详细而具体呢?个人认为,token 对大模型的影响集中在两个方面:
    上下文窗口: 这是模型一次可以处理的令牌的最大数量 。如果要求模型比上下文窗口生成更多的标记,它将在块中这样做,这可能会失去块之间的一致性 。
    训练数据token: 模型的培训数据中令牌的数量是模型已经学习的信息量的度量 。然而,模型的响是更“一般”还是“详细”与这些象征性的措施没有直接关系 。
    模型响应的普遍性或特异性更多地取决于它的训练数据、微调和生成响应应时使用的解码策略 。大型语言模型中的令牌概念是理解这些模型如何工作以及如何有效使用它们的基础 。虽然模型可以处理或已经接受过训练的令牌数量确实影响其性能,但其响应的一般性或详细程度更多地是其训练数据、微调和所使用的解码策略的产物 。
    对不同数据进行训练的模型往往会产生一般性的响应,而对具体数据进行训练的模型往往会产生更详细的、针对具体情况的响应 。例如,对医学文本进行微调的模型可能会对医学提示产生更详细的响应 。
    解码策略也起着重要的作用 。修改模型输出层中使用的SoftMax函数的“temperature”可以使模型的输出更加多样化(更高的温度)或者更加确定(更低的温度) 。在OpenAI 的API中设置temperature的值可以调整确定性和不同输出之间的平衡 。
    需要记住,每一个语言模型,不管它的大小或者它被训练的数据量如何,只有它被训练的数据、它被接收的微调以及在使用过程中使用的解码策略才可能是最有效的 。
    为了突破 LLM 的极限,可以尝试不同的训练和微调方法,并使用不同的解码策略 。请注意这些模型的优缺点 , 并始终确保用例与正在使用的模型功能保持一致 。
    LLM 解读大模型的token

    文章插图
    图片
    4. Token的应用机制——tokenization将文本划分为不同token的正式过程称为 tokenization 。tokenization捕获文本的含义和语法结构 , 从而需要将文本分割成重要的组成部分 。tokenization是将输入和输出文本分割成更小的单元,由 LLM AI 模型处理的过程 。tokenization可以帮助模型处理不同的语言、词汇表和格式,并降低计算和内存成本,还可以通过影响token的意义和语境来影响所生成文本的质量和多样性 。根据文本的复杂性和可变性 , 可以使用不同的方法进行tokenization,比如基于规则的方法、统计方法或神经方法 。
    OpenAI 以及 Azure OpenAI 为其基于 GPT 的模型使用了一种称为“字节对编码(Byte-Pair Encoding,BPE)”的子词tokenization方法 。BPE 是一种将最频繁出现的字符对或字节合并到单个标记中的方法,直到达到一定数量的标记或词汇表大小为止 。BPE 可以帮助模型处理罕见或不可见的单词,并创建更紧凑和一致的文本表示 。BPE 还允许模型通过组合现有单词或标记来生成新单词或标记 。词汇表越大,模型生成的文本就越多样化并富有表现力 。但是,词汇表越大 , 模型所需的内存和计算资源就越多 。因此,词汇表的选择取决于模型的质量和效率之间的权衡 。
    基于用于与模型交互的token数量以及不同模型的不同速率,大模型的使用成本可能大不相同 。例如,截至2023年2月,使用 Davinci 的费率为每1000个令牌0.06美元 , 而使用 Ada 的费率为每1000个令牌0.0008美元 。这个比率也根据使用的类型而变化,比如playground和搜索等 。因此,tokenization是影响运行大模型的成本和性能的一个重要因素 。
    4.1 tokenization 的七种类型tokenization涉及到将文本分割成有意义的单元,以捕捉其语义和句法结构,可以采用各种tokenization技术,如字级、子字级(例如,使用字节对编码或 WordPiece)或字符级 。根据特定语言和特定任务的需求,每种技术都有自己的优势和权衡 。


    推荐阅读