OpenAI가 개발한 언어 모델인 ChatGPT는 광범위한 상황에서 인간과 같은 반응을 만들어내는 능력 때문에 지난 1년 동안 믿을 수 없을 정도로 인기를 얻었습니다.
사실, ChatGPT은 매우 유능해져서 학생들은 숙제를 하는 것을 돕기 위해 그것을 사용하고 있습니다. 이로 인해 여러 미국 학군에서 네트워크에 있는 동안 기기가 모델에 액세스하지 못하도록 차단했습니다.
그렇다면, ChatGPT는 얼마나 똑똑할까요?
2023년 3월 27일에 발표된 기술 보고서에서 OpenAI는 GPT-4로 알려진 최신 모델에 대한 포괄적인 개요를 제공했습니다. 이 보고서에는 위의 그래픽에서 시각화한 일련의 시험 결과가 포함되어 있습니다.
ChatGPT의 기능을 벤치마킹하기 위해 OpenAI는 다양한 전문 및 학술 시험의 테스트 실행을 시뮬레이션했습니다. 여기에는 SAT, 변호사 시험, 다양한 AP 기말고사가 포함됩니다.
성능은 백분위수로 측정되었으며, 이는 각 시험 유형의 수험생이 가장 최근에 사용할 수 있는 점수 분포를 기반으로 했습니다.
백분위수 점수는 한 사람의 성과를 다른 사람의 성과와 비교하여 순위를 매기는 방법입니다. 예를 들어, 검정에서 60번째 백분위수를 차지한 경우 이는 수험생의 60% 이상의 점수를 받았다는 것을 의미합니다.
다음 표에는 그래픽에서 시각화한 결과가 나와 있습니다.
Category | Exam | GPT-4 Percentile |
GPT-3.5 Percentile |
---|---|---|---|
Law | Uniform Bar Exam | 90 | 10 |
Law | LSAT | 88 | 40 |
SAT | Evidence-based Reading & Writing | 93 | 87 |
SAT | Math | 89 | 70 |
Graduate Record Examination (GRE) | Quantitative | 80 | 25 |
Graduate Record Examination (GRE) | Verbal | 99 | 63 |
Graduate Record Examination (GRE) | Writing | 54 | 54 |
Advanced Placement (AP) | Biology | 85 | 62 |
Advanced Placement (AP) | Calculus | 43 | 0 |
Advanced Placement (AP) | Chemistry | 71 | 22 |
Advanced Placement (AP) | Physics 2 | 66 | 30 |
Advanced Placement (AP) | Psychology | 83 | 83 |
Advanced Placement (AP) | Statistics | 85 | 40 |
Advanced Placement (AP) | English Language | 14 | 14 |
Advanced Placement (AP) | English Literature | 8 | 8 |
Competitive Programming | Codeforces Rating | <5 | <5 |
위에 보고된 점수는 시각적 입력이 활성화된 GPT-4에 대한 것입니다. 자세한 결과는 OpenAI의 기술 보고서를 참조하십시오.
우리가 볼 수 있듯이, GPT-4(2023년 3월 출시)는 이러한 시험 대부분에서 GPT-3.5(2022년 3월 출시)보다 훨씬 더 성능이 우수합니다. 그러나 AP 영어와 경쟁 프로그래밍에서는 향상될 수 없었습니다.
AP 영어(및 서면 답변이 필요한 기타 시험)와 관련하여, ChatGPT의 제출물은 "관련 업무 경험이 있는 1-2명의 자격을 갖춘 제3자 계약자가 에세이를 채점함"에 따라 등급이 매겨졌습니다. ChatGPT은 확실히 적절한 에세이를 작성할 수 있지만, 시험의 프롬프트를 이해하는 데 어려움을 겪었을 수도 있습니다.
경쟁력 있는 프로그래밍을 위해 GPT는 10개의 코드포스 경연대회를 각각 100번씩 시도했습니다. 코드포스는 참가자들이 복잡한 문제를 해결해야 하는 경쟁 프로그래밍 대회를 개최합니다. GPT-4의 평균 코드포스 등급은 392점(5번째 백분위수 미만)이며, 단일 콘테스트에서 가장 높은 등급은 약 1,300점입니다. 코드포스 등급 페이지를 참조하면, 최고 점수를 받은 사용자는 3,841점의 중국 출신입니다.
다음은 GPT-4가 GPT-3.5보다 사용자 환경을 개선한 몇 가지 영역입니다.
GPT-3.5의 제한 요소는 인터넷에 액세스할 수 없고 2021년 6월까지 데이터에 대한 교육만 받았다는 것입니다.
GPT-4를 사용하면 사용자는 ChatGPT가 인터넷에 액세스하고 더 많은 최신 응답을 제공하며 더 광범위한 작업을 완료할 수 있는 다양한 플러그인에 액세스할 수 있습니다. 여기에는 Expedia와 같은 서비스의 타사 플러그인이 포함되어 있어 ChatGPT에서 전체 휴가를 예약할 수 있습니다.
GPT-3.5는 텍스트 입력만 허용할 수 있지만 GPT-4는 이미지를 분석할 수도 있습니다. 사용자는 ChatGPT에게 사진을 설명하거나 차트를 분석하거나 심지어 밈을 설명하도록 요청할 수 있습니다.
마지막으로, GPT-4는 훨씬 더 많은 양의 텍스트를 처리하고 대화를 더 오래 지속할 수 있습니다. 참고로 GPT-3.5의 최대 요청 값은 4,096개로 약 3,000단어에 해당합니다. GPT-4에는 2가지 변형이 있습니다. 하나는 8,192개의 토큰(6,000단어)이고 다른 하나는 32,768개의 토큰(2,000단어)입니다.