소량의 데이터로 학습할 수 있는 퓨샷 러닝이 가능한 언어 모델 200억 개의 매개변수로 구성된 인코더-디코더 구조의 seq2seq 모델 기계 번역 및 텍스트 요약에서 GPT-3보다 성능이 우수