SamSz04's blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Transformer位置编码(3)——从RoPE到YaRN外推

第一部分:问题的根源——RoPE 的“上下文天花板” 1.1 引言 建议先去阅读一下这篇大佬的文章:探秘Transformer系列之(23)— 长度外推 - 罗西的思考 - 博客园,里面讲解的很清晰!本篇意在用更少的篇幅尝试讲清楚YaRN这一解决方案! 大型语言模型 (LLM) 的能力在很大程度上与其能够处理的上下文窗口大小相关。扩展上下文窗口对于解锁更复杂的应用至关重要,例
2025-11-11
AI
#Transformer

论文阅读(1)——TpuGraphs

论文:TpuGraphs: A Performance Prediction Dataset on Large Tensor Computational Graphs Github仓库:google-research-datasets/tpu_graphs 论文分析:
2025-11-05
AI
#TPU #Compiler #AutoTuner

Transformer位置编码(2)——RoPE

第一部分:深入解析旋转位置编码(RoPE) 旋转位置编码(RoPE)代表了位置编码领域的一次范式转移,它通过一种新颖的几何视角统一了绝对位置编码和相对位置编码。自提出以来,RoPE因其优越的性能和良好的理论特性,迅速成为众多先进大语言模型(如Llama、PaLM、Qwen)的标准配置。 1.1 概念框架:通过旋转编码位置 RoPE的核心思想极其直观且优雅:它不再通过向量加法来注入位置信息
2025-11-04
AI
#Transformer

Transformer位置编码(1)——初探

第一部分:Transformer中位置信息的基础原理 1.1 自注意力机制中的置换不变性问题 Transformer架构的核心是自注意力(Self-Attention)机制,它赋予了模型强大的并行处理能力和捕捉长距离依赖的潜力。然而,这种设计也带来了一个固有的、必须被正视的局限性:置换不变性(Permutation Invariance)。从根本上说,自注意力机制将输入序列视为一个无序的标
2025-11-03
AI
#Transformer

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
2025-10-27

搜索

Hexo Fluid