AI vs 인간 어디가 특정 기술을 잘 수행할까?, 성능 테스트 방법, AI가 인간을 능가하게 된 원인은 무엇인가?
ChatGPT의 폭발적인 증가 와 함께 AI는 특히 독해력, 음성 인식 및 이미지 식별과 같은 전통적인 인간 능력의 보루에서 대중에게 그 존재감을 느끼게 해왔습니다.
실제로 위 차트를 보면 AI가 꽤 많은 영역에서 인간의 성능을 능가했으며 다른 곳에서는 인간을 능가할 것으로 보인다는 것이 분명합니다.
성능 테스트 방법
상황별 AI 의 데이터를 사용하여 AI 모델이 얼마나 빨리 데이터베이스 벤치마크를 능가하기 시작했는지, 그리고 AI가 아직 인간 수준의 기술에 도달했는지 여부를 시각화하였습니다.
각 데이터베이스는 필기 인식, 언어 이해 또는 독해와 같은 특정 기술을 중심으로 고안되었으며 각 백분율 점수는 다음 벤치마크와 대조됩니다.
- 0% 또는 “최대 성능 기준”
이는 데이터 세트 생성 당시 AI가 가장 잘 알려진 성능과 동일합니다. - 100%
이 표시는 데이터 세트에서 인간의 성과와 동일합니다.
이 두 지점 사이에 척도를 생성하면 각 데이터세트의 AI 모델 진행 상황을 추적할 수 있습니다. 선의 각 점은 최상의 결과를 나타내며 선이 위쪽으로 향할수록 AI 모델은 인간 성능과 일치하는 수준에 점점 더 가까워집니다.
다음은 AI가 8가지 기술 모두에서 인간의 성과를 일치시키기 시작한 시기를 보여주는 표입니다.
Skill | Matched Human Performance |
Database Used |
---|---|---|
Handwriting Recognition | 2018 | MNIST |
Speech Recognition | 2017 | Switchboard |
Image Recognition | 2015 | ImageNet |
Reading Comprehension | 2018 | SQuAD 1.1, 2.0 |
Language Understanding |
2020 | GLUE |
Common Sense Completion |
2023 | HellaSwag |
Grade School Math | N/A | GSK8k |
Code Generation | N/A | HumanEval |
차트의 주요 관찰은 2010년 이후 얼마나 많은 진전이 이루어졌는가입니다 . 실제로 SQuAD, GLUE(완전 관리형 데이터 추출, 변환 및 적재등), HellaSwag 등 이러한 데이터베이스 중 다수는 2015년 이전에는 존재하지 않았습니다.
벤치마크가 더 이상 사용되지 않게 되면서 일부 최신 데이터베이스는 새롭고 관련 있는 데이터 포인트로 지속적으로 업데이트되고 있습니다. 이것이 바로 AI 모델이 기술적으로는 잘 진행되고 있음에도 불구하고 일부 영역(초등학교 수학 및 코드 생성)에서 아직 인간의 성능과 일치하지 않는 이유입니다.
AI가 인간을 능가하게 된 원인은 무엇인가?
그러나 지난 몇 년 동안 AI의 능력이 이렇게 빠르게 성장할 수 있었던 이유는 무엇일까?
컴퓨팅 성능, 데이터 가용성 및 향상된 알고리즘의 혁명 덕분에 AI 모델은 10년 전보다 더 빠르고, 학습할 수 있는 데이터 세트가 더 크며, 효율성에 최적화되어 있습니다.
이것이 헤드라인에서 AI 언어 모델이 표준화된 테스트에서 인간의 성능과 일치하거나 능가하는 것에 대해 일상적으로 이야기하는 이유입니다 . 실제로 AI 개발자의 주요 문제는 모델이 테스트를 위해 고안된 벤치마크 데이터베이스를 계속 능가하지만 여전히 실제 테스트에 실패하고 있다는 것입니다 .
앞으로 몇 년 안에 더 많은 컴퓨팅 및 알고리즘 향상이 예상되므로 이러한 급속한 발전은 계속될 것입니다. 그러나 인공지 발전의 다음 잠재적 병목 현상은 AI 자체가 아니라 모델을 훈련할 데이터가 부족하기 때문일 수 있습니다.