AI/주워들은 것들
torch)메모리 부족 이슈로 Data loader가 뻑사리 날 때 insufficient shared memory
아인샴
2024. 10. 23. 08:39
python 3.8에서 3.10 업그레이드 하고 나서 객체.next()를 next(객체) 하게 되었다.
이것만 바꾸면 되는 줄 알았는데 저기서 자꾸 에러가 나서 무엇인고 하니 예전에 자주 만났던 메모리 버스 오류가 아닌가
(이것저것 티키타카 하다가 자주만난 오류)
참조 : https://jjongguet.tistory.com/211
도커를 쓰는경우 외부 메모리를 가져오는 ipc=host ? 의 파라미터를 쓰라고 했지만 나는 써드파티? 라는 것을 쓰고 있었기 때문에 도커 직접제어가 불가능에 가까웠다.
그래서 해결방법은 worker 수를 0로 만드는 것 ㅠㅠ 스택오버플로에서 그렇게 해보라고 했더니 느려터졌지만 굴러가긴 한다.
