AI) Deepseek R1 을 통해서 본 강화학습
사다리 걷어차기 실패라는건가