ChatGPT는 얼마나 똑똑하나?, 인체 시험에서 ChatGPT 성과, GPT-4 대 GPT-3.5, GPT-4의 변경점?

인체 시험에서 ChatGPT 성과

OpenAI가 개발한 언어 모델인 ChatGPT는 광범위한 상황에서 인간과 같은 반응을 만들어내는 능력 때문에 지난 1년 동안 믿을 수 없을 정도로 인기를 얻었습니다.

사실, ChatGPT은 매우 유능해져서 학생들은 숙제를 하는 것을 돕기 위해 그것을 사용하고 있습니다. 이로 인해 여러 미국 학군에서 네트워크에 있는 동안 기기가 모델에 액세스하지 못하도록 차단했습니다.

그렇다면, ChatGPT는 얼마나 똑똑할까요?

2023년 3월 27일에 발표된 기술 보고서에서 OpenAI는 GPT-4로 알려진 최신 모델에 대한 포괄적인 개요를 제공했습니다. 이 보고서에는 위의 그래픽에서 시각화한 일련의 시험 결과가 포함되어 있습니다.

GPT-4 대 GPT-3.5

ChatGPT의 기능을 벤치마킹하기 위해 OpenAI는 다양한 전문 및 학술 시험의 테스트 실행을 시뮬레이션했습니다. 여기에는 SAT, 변호사 시험, 다양한 AP 기말고사가 포함됩니다.

성능은 백분위수로 측정되었으며, 이는 각 시험 유형의 수험생이 가장 최근에 사용할 수 있는 점수 분포를 기반으로 했습니다.

백분위수 점수는 한 사람의 성과를 다른 사람의 성과와 비교하여 순위를 매기는 방법입니다. 예를 들어, 검정에서 60번째 백분위수를 차지한 경우 이는 수험생의 60% 이상의 점수를 받았다는 것을 의미합니다.

다음 표에는 그래픽에서 시각화한 결과가 나와 있습니다.

Category	Exam	GPT-4 Percentile	GPT-3.5 Percentile
Law	Uniform Bar Exam	90	10
Law	LSAT	88	40
SAT	Evidence-based Reading & Writing	93	87
SAT	Math	89	70
Graduate Record Examination (GRE)	Quantitative	80	25
Graduate Record Examination (GRE)	Verbal	99	63
Graduate Record Examination (GRE)	Writing	54	54
Advanced Placement (AP)	Biology	85	62
Advanced Placement (AP)	Calculus	43	0
Advanced Placement (AP)	Chemistry	71	22
Advanced Placement (AP)	Physics 2	66	30
Advanced Placement (AP)	Psychology	83	83
Advanced Placement (AP)	Statistics	85	40
Advanced Placement (AP)	English Language	14	14
Advanced Placement (AP)	English Literature	8	8
Competitive Programming	Codeforces Rating	<5	<5

위에 보고된 점수는 시각적 입력이 활성화된 GPT-4에 대한 것입니다. 자세한 결과는 OpenAI의 기술 보고서를 참조하십시오.

우리가 볼 수 있듯이, GPT-4(2023년 3월 출시)는 이러한 시험 대부분에서 GPT-3.5(2022년 3월 출시)보다 훨씬 더 성능이 우수합니다. 그러나 AP 영어와 경쟁 프로그래밍에서는 향상될 수 없었습니다.

AP 영어(및 서면 답변이 필요한 기타 시험)와 관련하여, ChatGPT의 제출물은 "관련 업무 경험이 있는 1-2명의 자격을 갖춘 제3자 계약자가 에세이를 채점함"에 따라 등급이 매겨졌습니다. ChatGPT은 확실히 적절한 에세이를 작성할 수 있지만, 시험의 프롬프트를 이해하는 데 어려움을 겪었을 수도 있습니다.

경쟁력 있는 프로그래밍을 위해 GPT는 10개의 코드포스 경연대회를 각각 100번씩 시도했습니다. 코드포스는 참가자들이 복잡한 문제를 해결해야 하는 경쟁 프로그래밍 대회를 개최합니다. GPT-4의 평균 코드포스 등급은 392점(5번째 백분위수 미만)이며, 단일 콘테스트에서 가장 높은 등급은 약 1,300점입니다. 코드포스 등급 페이지를 참조하면, 최고 점수를 받은 사용자는 3,841점의 중국 출신입니다.

Rating - Codeforces

codeforces.com

GPT-4의 변경점?

다음은 GPT-4가 GPT-3.5보다 사용자 환경을 개선한 몇 가지 영역입니다.

인터넷 액세스 및 플러그인

GPT-3.5의 제한 요소는 인터넷에 액세스할 수 없고 2021년 6월까지 데이터에 대한 교육만 받았다는 것입니다.

GPT-4를 사용하면 사용자는 ChatGPT가 인터넷에 액세스하고 더 많은 최신 응답을 제공하며 더 광범위한 작업을 완료할 수 있는 다양한 플러그인에 액세스할 수 있습니다. 여기에는 Expedia와 같은 서비스의 타사 플러그인이 포함되어 있어 ChatGPT에서 전체 휴가를 예약할 수 있습니다.

이미지 입력

GPT-3.5는 텍스트 입력만 허용할 수 있지만 GPT-4는 이미지를 분석할 수도 있습니다. 사용자는 ChatGPT에게 사진을 설명하거나 차트를 분석하거나 심지어 밈을 설명하도록 요청할 수 있습니다.

더 큰 컨텍스트 길이

마지막으로, GPT-4는 훨씬 더 많은 양의 텍스트를 처리하고 대화를 더 오래 지속할 수 있습니다. 참고로 GPT-3.5의 최대 요청 값은 4,096개로 약 3,000단어에 해당합니다. GPT-4에는 2가지 변형이 있습니다. 하나는 8,192개의 토큰(6,000단어)이고 다른 하나는 32,768개의 토큰(2,000단어)입니다.

저작자표시 비영리 변경금지 (새창열림)

'경제공부' 카테고리의 다른 글

세계 모든 포유류의 바이오매스, 바이오매스란 무엇인가?, 깔끔하게 정리된 포유류 바이오매스, 커틀 플래닛(Cattle Planet), 약해지는 야생동물 (0)	2023.05.13
새로운 특허를 가장 많이 받은 나라는?, 새로운 특허를 가장 많이 보유한 국가, 분야별 신특허의 기원, 기술에 정통한 미래 (3)	2023.05.12
ChatGPT 영향을 가장 많이 받는 직업, ChatGPT 및 유사 AI 모델의 영향을 가장 많이 받는 작업, 방법론, AI로 위협인 직업과 비위협적인 직업, 인공지능이 일자리 수준에 미치는 영향, 인공지능이 고.. (1)	2023.05.10
90년간 미국주식 및 채권 포트폴리오 성과, 자산 할당과 수익, 역사적 상관관계 (1)	2023.05.09
현대 역사상 가장 큰 미국 은행 파산, 2001년 이후 상위 20개 은행 파산, 미국 은행은 어떻게 되는건가? (1)	2023.05.08