본문 바로가기

tensorrt engine

(1)

Pytorch에서 TensorRT 엔진 생성 TensorRT란? NVIDIA GPU를 활용하여 딥러닝 모델을 경량화하는 라이브러리 Quantization & Precision Calibration (양자화 및 정밀도 캘리브레이션) TensorRT는 Symmetric Linear Quantization을 사용하고 있으며, 이를 통하여 딥러닝 프레임워크의 일반적인 FP32의 데이터를 FP16 및 INT8 의 데이터 타입으로 정밀도를 낮출 수 있다. 낮은 정밀도를 가지는 신경망은 Weight와 데이터의 bit 수가 작기 때문에 빠르고 효율적인 연산이 가능하다. Quantization & Precision Calibration FP16 의 데이터 타입으로 정밀도를 낮추는 것은 모델 정확도에 큰 영향이 없다 하지만, INT8의 데이터 타입으로 정밀도를 낮추..

이전 1 다음

티스토리툴바