| 概要 | vLLM is an inference and serving engine for large language models (LLMs). From 0.5.5 until 0.23.1rc0, integer truncation of tensor dimensions in vLLM's GGUF dequantize kernels (csrc/quantization/gguf/gguf_kernel.cu) causes partial tensor processing. The output tensor is allocated at full size via torch::empty (uninitialized memory), but the dequantize CUDA kernel processes only a truncated number of elements. The unfilled portion of the output tensor retains whatever was previously in GPU memory. In multi-tenant inference deployments, this residual GPU memory may contain tensor data from other users' inference requests, constituting information disclosure. This vulnerability is fixed in 0.23.1rc0. |
|---|---|
| 公表日 | 2026年6月23日8:16 |
| 登録日 | 2026年6月27日4:12 |
| 最終更新日 | 2026年6月25日1:51 |
| CVSS3.1 : HIGH | |
| スコア | 7.5 |
|---|---|
| ベクター | CVSS:3.1/AV:N/AC:L/PR:N/UI:N/S:U/C:H/I:N/A:N |
| 攻撃元区分(AV) | ネットワーク |
| 攻撃条件の複雑さ(AC) | 低 |
| 攻撃に必要な特権レベル(PR) | 不要 |
| 利用者の関与(UI) | 不要 |
| 影響の想定範囲(S) | 変更なし |
| 機密性への影響(C) | 高 |
| 完全性への影響(I) | なし |
| 可用性への影響(A) | なし |
| 構成1 | 以上 | 以下 | より上 | 未満 | |
| cpe:2.3:a:vllm:vllm:*:*:*:*:*:*:*:* | 0.5.5 | 0.23.1 | |||
| タイトル | vLLMにおける複数の脆弱性 |
|---|---|
| 概要 | vLLMは大規模言語モデル(LLM)の推論およびサービングエンジンです。バージョン0.5.5から0.23.1rc0まで、vLLMのGGUFデクオンタイズカーネル(csrc/quantization/gguf/gguf_kernel.cu)におけるテンソル次元の整数切り捨てにより、テンソルの部分的な処理が発生していました。出力テンソルはtorch::emptyによって完全なサイズで割り当てられますが(初期化されていないメモリ)、デクオンタイズCUDAカーネルは切り捨てられた要素数のみを処理します。そのため、出力テンソルの未処理部分には、GPUメモリに以前存在していたデータがそのまま残っていました。マルチテナントの推論環境において、この残留GPUメモリは他のユーザーの推論リクエストのテンソルデータを含んでおり、情報漏洩を引き起こす可能性がありました。この脆弱性は0.23.1rc0で修正されています。 |
| 想定される影響 | ・当該ソフトウェアが扱う全ての情報が外部に漏れる可能性があります。 ・当該ソフトウェアが扱う情報について、書き換えは発生しません。 ・当該ソフトウェアは停止しません。 |
| 対策 | ベンダ情報を参照して適切な対策を実施してください。 |
| 公表日 | 2026年6月22日0:00 |
| 登録日 | 2026年6月26日11:56 |
| 最終更新日 | 2026年6月26日11:56 |
| vLLM |
| vLLM 0.5.5 以上 0.23.1 未満 |
| No | 変更内容 | 変更日 |
|---|---|---|
| 1 | [2026年06月26日] 掲載 |
2026年6月26日11:56 |