AI 평가가 점수만 높고 현업에서는 안 맞을 때: 테스트셋을 업무 장면으로 바꾸는 법 | Sirobako Blog