GPT-2

Generative Pre-trained Transformer 2 (GPT-2)
원저자OpenAI
발표일2019년 2월 14일(5년 전)(2019-02-14)
저장소https://github.com/openai/gpt-2
대체한 소프트웨어GPT-1
대체된 소프트웨어GPT-3
종류변환기 언어 모델
라이선스MIT[1]
웹사이트openai.com/blog/gpt-2-1-5b-release/
시리즈
인공지능
기술
용어
  • 용어
  • v
  • t
  • e
기계 학습
데이터 마이닝
Scatterplot featuring a linear support vector machine's decision boundary (dashed line)
패러다임
문제
  • k-최근접 이웃 알고리즘
  • 국소 특이점 요인
인간 참여학습
모델 진단
  • 러닝 커브
이론
회의/저널
  • NeurIPS
  • ICML
  • ICLR
  • ML
  • JMLR
  • v
  • t
  • e

생성적 사전학습 변환기 2(Generative Pre-trained Transformer 2) 즉 GPT-2OpenAI에서 만든 인공지능이다. 비지도 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용하였다. 번역과 대화, 작문을 할 수 있으며 단문의 경우 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 힘들다.

2019년 2월[2][3][4][5] OpenAI에서 만든 오픈 소스 인공 지능 대규모 언어 모델로서 GPT-2는 텍스트를 번역하고, 질문에 답하고, 구절을 요약하고,[6] 때때로 인간과 구별할 수 없지만[7] 반복될 수 있는 수준의 텍스트 출력을 생성한다. 범용 학습기이다. 이러한 작업을 수행하도록 특별히 훈련되지 않았으며 이러한 작업을 수행하는 능력은 다음 항목을 임의의 순서로 정확하게 합성하는 일반적인 능력의 확장이다. GPT-2는 OpenAI의 2018 GPT 모델("GPT-1")의 "직접 확장"으로 생성되었으며[8] 매개변수 수와 훈련 데이터 세트 크기가 모두 10배 증가했다.[5]

GPT-2는 심층 신경망, 특히 이전의 반복 및 컨볼루션 기반 아키텍처 대신 어텐션을 사용하는 변환기 모델을 구현하는[8] 사전 훈련된 생성 변환기 아키텍처를 가지고 있다.[9][10] 어텐션 메커니즘을 통해 모델은 가장 관련성이 높은 것으로 예측되는 입력 텍스트 세그먼트에 선택적으로 초점을 맞출 수 있다.[11][12] 이 모델은 병렬화를 크게 증가시키고 RNN/CNN/LSTM 기반 모델에 대한 이전 벤치마크를 능가한다.[8]

OpenAI는 2019년 11월 GPT-2 언어 모델의 전체 버전(15억 개의 매개변수 포함)을 출시했다.[13]

제한

자연어 텍스트의 그럴듯한 구절을 생성하는 GPT-2의 능력은 일반적으로 긍정적으로 언급되었지만 특히 몇 단락보다 긴 텍스트를 생성할 때 단점도 지적되었다. 복스는 "산문이 꽤 거칠고 가끔 비평등이 있으며 기사가 길어질수록 일관성이 떨어진다"라고 말했다.[14] 더 버지는 유사하게 GPT-2 쓰기의 더 긴 샘플이 "주제에서 벗어나는" 경향이 있고 전체적인 일관성이 부족하다고 지적했다.[15] 더 레지스터는 "사람이 그것을 읽으면 잠시 후에 무언가 문제가 있음을 깨달아야 한다"라고 말하면서 "GPT-2는 정보를 추출하고 검색하는 알고리즘에 의존하는 다른 시스템과 마찬가지로 질문에 대답하지 않는다."라고 언급했다.[16]

GPT-2 배포는 리소스를 많이 사용한다. 모델의 정식 버전은 5기가바이트보다 커서 로컬에서 응용 프로그램에 포함하기 어렵고 많은 양의 RAM을 사용한다. 또한 단일 예측을 수행하면 "CPU를 100% 사용하여 몇 분 동안 점유할 수 있으며" GPU 처리를 사용하더라도 "단일 예측에는 몇 초가 걸릴 수 있다."[7] 이러한 문제를 완화하기 위해 회사 허깅 페이스는 지식 증류를 사용하여 "일부 품질 벤치마크에서 몇 점 더 낮은 점수"를 받지만 "33% 더 작고 두 배 빠른" 더 작은 모델을 생성하는 DistilGPT2를 만들었다.[7]

구현 및 차기 연구

언론이 설명한 GPT-2의 잠재적 응용 분야에는 뉴스 기사와 같은 텍스트를 작성하는 데 인간을 돕는 것이 포함된다.[17] 정식 버전이 출시되기 전부터 GPT-2는 엔터테인먼트뿐만 아니라 다양한 애플리케이션과 서비스에 사용되었다. 2019년 6월에 r/SubSimulatorGPT2라는 이름의 하위 레딧이 생성되어 서로 다른 하위 레딧에서 훈련된 다양한 GPT-2 인스턴스가 게시물을 작성하고 서로의 댓글에 응답하여 "r/Bitcoin의 AI 의인화 주장을 관찰할 수 있는 상황을 만든다. (r/ShittyFoodPorn의 기계 학습에서 파생된 정신으로)[18] 그해 7월까지 다양한 프로그래밍 언어로 된 코드 라인을 자동 완성하기 위해 출시된 GPT-2 기반 소프트웨어 프로그램은 사용자들에게 "게임 체인저"로 묘사되었다.[19]

2019년에는 GPT-2를 사용하여 사용자 입력을 기반으로 동적 텍스트 모험을 생성하는 AI Dungeon이 출시되었다.[20] AI Dungeon은 이제 선택적인 유료 업그레이드로 GPT-3 API의 가장 큰 릴리스에 대한 액세스를 제공하며 사이트의 무료 버전은 GPT-3의 두 번째로 큰 릴리스를 사용한다.[21] AI Dungeon을 중심으로 설립된 래티튜드(Latitude)는 2021년에 시드 펀딩으로 330만 달러를 모금했다.[22] 여러 웹사이트에서 GPT-2 및 기타 변압기 모델의 다양한 인스턴스에 대한 대화형 데모를 호스팅한다.[23][24][25]

2021년 2월, 문제가 있는 십대를 위한 위기 센터는 GPT-2에서 파생된 챗봇을 사용하여 시뮬레이션된 십대와 대화할 수 있도록 함으로써 카운셀러 교육을 돕기 시작할 것이라고 발표했다.(이 사용은 순전히 내부 목적을 위한 것이며, GPT-2는 청소년들과 소통한다.)[26]

2023년 5월 9일, OpenAI는 매핑된 GPT-2 버전을 출시했다. OpenAI는 후속 모델인 GPT-4를 사용하여 GPT-2의 각 뉴런을 매핑하여 기능을 결정했다.[27]

같이 보기

  • 변환기(transformer)
  • 주의집중(attention)
  • GPT-3
  • GPT (언어 모델)

각주

  1. “gpt-2”. 《GitHub》. 2023년 3월 13일에 확인함. 
  2. Piper, Kelsey (2019년 5월 15일). “A poetry-writing AI has just been unveiled. It's ... pretty good.”. 《Vox》. 2020년 11월 7일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  3. Johnson, Khari (2019년 8월 20일). “OpenAI releases curtailed version of GPT-2 language model”. VentureBeat. 2020년 12월 18일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  4. Vincent, James (2019년 11월 7일). “OpenAI has published the text-generating AI it said was too dangerous to share”. 《The Verge》. 2020년 6월 11일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  5. “Better Language Models and Their Implications”. OpenAI. 2019년 2월 14일. 2020년 12월 19일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  6. Hegde, Chaitra; Patil, Shrikumar (2020년 6월 9일). “Unsupervised Paraphrase Generation using Pre-trained Language Models”. arXiv:2006.05477 [cs.CL].  더 이상 지원되지 않는 변수를 사용함 (도움말)
  7. Kaiser, Caleb (2020년 1월 31일). “Too big to deploy: How GPT-2 is breaking servers”. 《Towards Data Science》. 2020년 2월 15일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  8. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018년 6월 11일). “Improving Language Understanding by Generative Pre-Training” (PDF). OpenAI. 12쪽. 2021년 1월 26일에 원본 문서 (PDF)에서 보존된 문서. 2021년 1월 23일에 확인함. 
  9. Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017년 6월 12일). “Attention Is All You Need”. arXiv:1706.03762 [cs.CL].  더 이상 지원되지 않는 변수를 사용함 (도움말)
  10. Olah, Chris; Carter, Shan (2016년 9월 8일). “Attention and Augmented Recurrent Neural Networks”. 《Distill》 1 (9). doi:10.23915/distill.00001. 2020년 12월 22일에 원본 문서에서 보존된 문서. 2021년 1월 22일에 확인함. 
  11. Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014년 9월 1일). “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473 [cs.CL].  더 이상 지원되지 않는 변수를 사용함 (도움말)
  12. Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (2015년 8월 17일). “Effective Approaches to Attention-based Neural Machine Translation”. arXiv:1508.04025 [cs.CL].  더 이상 지원되지 않는 변수를 사용함 (도움말)
  13. “GPT-2: 1.5B Release”. 《OpenAI》 (영어). 2019년 11월 5일. 2019년 11월 14일에 원본 문서에서 보존된 문서. 2019년 11월 14일에 확인함. 
  14. Piper, Kelsey (2019년 2월 14일). “An AI helped us write this article”. 《Vox》. 2020년 11월 8일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  15. Vincent, James (2019년 2월 14일). “OpenAI's new multitalented AI writes, translates, and slanders”. 《The Verge》. 2020년 12월 18일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  16. Quach, Katyanna (2019년 2월 14일). “Roses are red, this is sublime: We fed OpenAI's latest chat bot a classic Reg headline”. 《The Register》. 2021년 3월 9일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  17. Hern, Alex (2019년 2월 14일). “New AI fake text generator may be too dangerous to release, say creators”. 《The Guardian》. 2019년 2월 14일에 원본 문서에서 보존된 문서. 2020년 12월 19일에 확인함. 
  18. Vincent, James (2019년 6월 6일). “There's a subreddit populated entirely by AI personifications of other subreddits”. 《The Verge》. 2021년 2월 21일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  19. Vincent, James (2019년 7월 24일). “This AI-powered autocompletion software is Gmail's Smart Compose for coders”. 《The Verge》. 2021년 3월 9일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  20. Olson, Mathew (2019년 12월 17일). “AI Dungeon 2, the Text Adventure Where You Can do Nearly Anything, Is Now on Mobile”. 2020년 9월 20일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  21. Nelius, Joanna (2020년 8월 3일). “This AI-Powered Choose-Your-Own-Adventure Text Game Is Super Fun and Makes No Sense”. 《Gizmodo》. 2021년 2월 28일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  22. Ha, Anthony (2021년 2월 4일). “AI Dungeon-maker Latitude raises $3.3M to build games with 'infinite' story possibilities”. TechCrunch. 2021년 2월 21일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  23. “Write With Transformer”. 2019년 12월 4일에 원본 문서에서 보존된 문서. 2019년 12월 4일에 확인함. 
  24. “Talk to Transformer”. 2019년 12월 4일에 원본 문서에서 보존된 문서. 2019년 12월 4일에 확인함. 
  25. “CreativeEngines”. 2023년 2월 3일에 원본 문서에서 보존된 문서. 2021년 6월 25일에 확인함. 
  26. Ohlheiser, Abby; Hao, Karen (2021년 2월 26일). “An AI is training counselors to deal with teens in crisis”. MIT Technology Review. 2021년 2월 27일에 원본 문서에서 보존된 문서. 2021년 2월 27일에 확인함. 
  27. “Language models can explain neurons in language models”. 《OpenAI》. 2023년 5월 13일에 확인함.