[TIL]KDT팀프로젝트2021/03/16

less than 1 minute read

어제 AP출력+val loss 합친걸로 일단 1만번 돌렸다. lr = 0.00025로 했는데 더 높여도 될 것 같아서 lr = 0.0005로 학습해보려고 한다.
멘토님께서 2step으로 학습하는것에 대해 더 설명해주셨는데 일단 지금 큰 데이터셋으로 연달아 학습하는 과정 끝나면 시도해봐야겠다.
코랩 런타임이 재설정되면 resume=true로 해서 이전에 학습한 pth 전달받아 다시 학습하는게 안된다.
다른방법으로 일단 이어받아 2만번 학습중인데 iteration이 0부터 시작하는점이 좀 걸린다.

# cfg.MODEL.WEIGHTS = model_zoo.get_checkpoint_url(cfg_filepath)  
cfg.MODEL.WEIGHTS = "/content/output/model_final.pth"

위와 같이 바꾸거나
https://github.com/facebookresearch/detectron2/issues/148 여기에서 Arnavdas라는 사람이 쓴 것대로 하면 이어받아서 돌아가긴 하는데 iteration이 0부터 시작한다.
코랩 output 폴더에 ‘last_checkpoint’ 파일을 열어보니 model_0004999.pth가 적혀있었다. cfg 디폴트값이 5000 iteration마다 pth를 저장하게 되어있어서 지금껏 1만번 돌리면 저 pth파일이 두개씩 생기던 거였다!! 뭔가 했는데! last_checkpoint파일 안에 model_0004999.pth 대신 model_final.pth을 집어넣으면 되지 않을지…->성공! iteration이 이전 pth에서 끝난 것을 넘겨받아 학습이 진행된다.

Categories:

Updated: