Triton镜像裁剪

完整的nvcr.io/nvidia/tritonserver:24.09-py3镜像大概有16.9GB，非常大。参考官方自定义triton文档

git clone https://github.com/triton-inference-server/server.git
pip install requests distro

需要到的镜像

nvcr.io/nvidia/tritonserver:24.09-py3
nvcr.io/nvidia/tritonserver:24.09-py3-min

docker run -it --rm nvcr.io/nvidia/tritonserver:24.09-py3 /bin/bash
root@acf3aa598616:/opt/tritonserver# cd backends/
dali/        fil/         identity/    onnxruntime/ openvino/    python/      pytorch/     repeat/      square/      tensorflow/  tensorrt/    

backend 参数可以参考完整镜像里面的/opt/tritonserver/backends/* ，只保留onnxruntime、python、tensorrt

python compose.py --backend onnxruntime --backend python --backend tensorrt --container-version 24.09 --skip-pull --dry-run

python compose.py --backend onnxruntime --backend python --backend tensorrt --backend pytorch --container-version 24.09 --skip-pull --dry-run

会生成Dockerfile.compose文件，由于网络原因，和其他优化之类，对Dockerfile文件修改

docker build -t harbor.xxxx.site/tools/tritonserver:24.09-py3-slim-1 -f Dockerfile.compose . 
harbor.xxxx.site/tools/tritonserver:24.09-py3-slim-1

得到的镜像是12.2GB

调试trip

tritonserver --log-file="$LOG_FILE" --log-verbose=1

查看模型的组成动态batch的情况

1	`tail -f xxx.log\|grep --line-buffered executing`

warm up

Not support for ensemble

Performance Discrepancy Between Triton Client SDK and perf_analyzer

使用triton async grpc client 基本在客户端和server端交互上，使用内存/显存共享，和gzip 压缩，非常耗时。使用python c api 也耗时在处理返回的地方。直接用

交互优化

服务器配置

配置项	值	描述
server_id	triton	服务器的标识符
server_version	2.50.0	Triton Server 的版本号
model_control_mode	MODE_EXPLICIT	模型控制模式，显式模式下，模型需要通过 API 加载/卸载
pinned_memory_pool_byte_size	268435456 (256 MB)	固定内存池的大小，用于加速模型推理
cuda_memory_pool_byte_size{0}	67108864 (64 MB)	GPU 0 的 CUDA 内存池大小

KeepAlive 配置

配置项	值	描述
keepalive_time_ms	7200000 (2小时)	发送 KeepAlive PING 包的间隔时间（毫秒）
keepalive_timeout_ms	20000 (20秒)	等待 PING ACK 返回的超时时间（毫秒）
keepalive_permit_without_calls	0	是否允许空闲连接发送 PING 请求
http2_max_pings_without_data	2	在发送数据之前允许发送的最大 PING 数量
http2_min_recv_ping_interval_without_data_ms	300000 (5分钟)	服务端要求的 PING 接收最小间隔时间
http2_max_ping_strikes	2	超过此数量的无效 PING 后将关闭连接

使用aio grpc client，压缩算法，复用client，优化grpc配置，

pinned_memory_pool_byte_size

Pinned memory 是指一种特殊类型的内存，它使得 CPU 和 GPU 之间的数据传输更高效。使用 pinned memory 可以加快 GPU 访问 CPU 内存的速度，减少数据传输的延迟。确保了该内存始终驻留在物理内存中，而不是内存分页并交换到磁盘上。

高设置的优缺点

优点:
- 提高数据传输速度：增加 pinned memory 的大小可以提高 CPU 和 GPU 之间数据传输的速度，因为更多的数据可以在高速内存处理。
- 降低传输延迟：有助于减少因频繁数据传输而产生的延迟。
缺点:
- 占用更多内存：较大的 pinned memory pool 会占用系统的物理内存，这可能会影响其他应用程序或服务的可用内存。
- 可能导致内存不足：如果系统的物理内存有限，设置过高可能导致内存分配失败或降低整体系统性能。

cuda_memory_pool_byte_size

CUDA memory pool 是用于管理 GPU 内存的一种机制，通过预分配内存块来提高内存使用效率，减少内存分配和释放的开销。

高设置的优缺点

优点:
- 减少分配延迟：较大的 CUDA 内存池可以减少在推理期间的内存分配延迟，特别是在高并发请求的情况下。
- 提高吞吐量：有助于在多个推理请求之间高效地重用 GPU 内存，提高整体处理能力。
缺点:
- 占用 GPU 内存：设置过高的 CUDA 内存池会占用 GPU 内存，可能导致其他模型的内存不足。
- 可能引起内存碎片：如果请求大小不均，可能导致 GPU 内存的碎片化。