TensorRT-LLM은 NVIDIA의 고성능 추론 엔진인 TensorRT를 기반으로 하여, LLM의 추론을 최적화하고 가속화하는 데 중점을 둔 라이브러리입니다. 이를 통해 GPT-J, LLaMA, Falcon, Mistral 등 다양한 모델을 NVIDIA GPU에서 효율적으로 실행할 수 있습니다 . + NVIDIA에서 개발한 오픈 소스 라이브러리로, 대규모 언어 모델(LLM)의 추론 성능을 NVIDIA GPU에서 최적화하고 가속화하기 위해 설계되었으며, 이 라이브러리는 Python API를 통해 LLM을 정의하고, TensorRT 엔진을 구축하여 효율적인 추론을 수행할 수 있도록 지원한다고 합니다. + TensorRT-LLM은 다양한 LLM을 지원하며, NVIDIA H100 GPU에서 A100 ..