Showing
1 changed file
with
17 additions
and
5 deletions
1 | # 추론시간 개선 - 양자화 시도 | 1 | # 추론시간 개선 - 양자화 시도 |
2 | 2 | ||
3 | ## Pytorch quantization | 3 | ## Pytorch quantization |
4 | -- 학습해도 cpu 에서만 실행 가능, 모델의 채널을 신중하게 고르지 않으면 속도 개선 미미함. | 4 | +- Pytorch 가 제공하는 라이브러리로 양자화 학습. |
5 | -- 또한 양자화 과정으로 학습된 모델은 pytorch model -> onnx -> tensorRT 변환이 불가능하여 gpu 에서 실행 불가능 학습해도 cpu 에서만 실행 가능. | 5 | +- 하지만 cpu 에서만 실행 가능, 또한 모델의 채널 수를 신중하게 고르지 않으면 cpu 에서 조차 속도 개선이 미미함. |
6 | -- 모델의 채널을 신중하게 고르지 않으면 속도 개선 미미함. | 6 | +- 양자화 과정으로 학습된 모델은 pytorch model -> onnx -> tensorRT 변환이 불가능하여 gpu 에서 실행 불가능. |
7 | 7 | ||
8 | ## TensorRT | 8 | ## TensorRT |
9 | -- 양자화 학습을 사용하지 않고 바로 정밀도 감소 및 양자화 시도. | ||
10 | -- float16 은 10% 정도 속도가 개선되었으나, int8 은 실패함 (사용법 미숙, 입력 값이 0.0 ~ 1.0 등) | ||
... | \ No newline at end of file | ... | \ No newline at end of file |
9 | +- 양자화 학습을 사용하지 않고, 라이브러리를 활용하여 모델의 정밀도 감소 및 양자화 시도. | ||
10 | + | ||
11 | +- 모델에 따라 속도 차이가 크고 아래 단계의 정밀도가 더 빠른 경우가 있었음 | ||
12 | + | ||
13 | +- 정확한 이해가 필요해 보임 (사용법 미숙, 입력 값은 float 등) | ||
14 | + | ||
15 | + | Inference Time(msec) | Densenet - 32 packet | Ours - 1 packet | | ||
16 | + | -------------------- | -------------------- | --------------- | | ||
17 | + | Torch - float32 | 19.49 | 0.49 | | ||
18 | + | TensorRT - float32 | 4.30 | 0.37 | | ||
19 | + | TensorRT - float16 | 4.32 | 0.35 | | ||
20 | + | TensorRT - int8 | 3.70 | 0.41 | | ||
21 | + | ||
22 | + | ||
... | \ No newline at end of file | ... | \ No newline at end of file | ... | ... |
-
Please register or login to post a comment