KV cache
1 |
|
Batch
批处理 左侧填充,因为右边token添加
1 |
|
Continuous Batching
连续批处理的概念,即如果我们实际上按照请求的到达顺序贪婪地逐标记处理这些请求,但是在看到个新请求时”当我们完成一个特定标记后,我们决定是否要继续将该请求合并到我们现有的批处理中,这样它们就可以继续一起生成标记,从而获得吞吐量的优势
进一步说,如果您的请求在不同时间完成,因为它们要么在较早时间开始,要么要生成的标记数较少或者它们遇到停止标记
那么您可以有效地从正在等待轮到的请求。并将其替换为另一个正在等待的请求。
1 |
|
Gitalking ...