경제공부

AI vs 인간 어디가 특정 기술을 잘 수행할까?, 성능 테스트 방법, AI가 인간을 능가하게 된 원인은 무엇인가?

미미니모 2023. 8. 27. 12:00
반응형

 

ChatGPT의 폭발적인 증가 와 함께 AI는 특히 독해력, 음성 인식 및 이미지 식별과 같은 전통적인 인간 능력의 보루에서 대중에게 그 존재감을 느끼게 해왔습니다.

실제로 위 차트를 보면 AI가 꽤 많은 영역에서 인간의 성능을 능가했으며 다른 곳에서는 인간을 능가할 것으로 보인다는 것이 분명합니다.

 

성능 테스트 방법


상황별 AI 의 데이터를 사용하여 AI 모델이 얼마나 빨리 데이터베이스 벤치마크를 능가하기 시작했는지, 그리고 AI가 아직 인간 수준의 기술에 도달했는지 여부를 시각화하였습니다.

각 데이터베이스는 필기 인식, 언어 이해 또는 독해와 같은 특정 기술을 중심으로 고안되었으며 각 백분율 점수는 다음 벤치마크와 대조됩니다.

  • 0% 또는 “최대 성능 기준”
    이는 데이터 세트 생성 당시 AI가 가장 잘 알려진 성능과 동일합니다.
  • 100%
    이 표시는 데이터 세트에서 인간의 성과와 동일합니다.


이 두 지점 사이에 척도를 생성하면 각 데이터세트의 AI 모델 진행 상황을 추적할 수 있습니다. 선의 각 점은 최상의 결과를 나타내며 선이 위쪽으로 향할수록 AI 모델은 인간 성능과 일치하는 수준에 점점 더 가까워집니다.

다음은 AI가 8가지 기술 모두에서 인간의 성과를 일치시키기 시작한 시기를 보여주는 표입니다.

 

Skill Matched Human
Performance
Database Used
Handwriting Recognition 2018 MNIST
Speech Recognition 2017 Switchboard
Image Recognition 2015 ImageNet
Reading Comprehension 2018 SQuAD 1.1, 2.0
Language
Understanding
2020 GLUE
Common Sense
Completion
2023 HellaSwag
Grade School Math N/A GSK8k
Code Generation N/A HumanEval

 

차트의 주요 관찰은 2010년 이후 얼마나 많은 진전이 이루어졌는가입니다 . 실제로 SQuAD, GLUE(완전 관리형 데이터 추출, 변환 및 적재등), HellaSwag 등 이러한 데이터베이스 중 다수는 2015년 이전에는 존재하지 않았습니다.

벤치마크가 더 이상 사용되지 않게 되면서 일부 최신 데이터베이스는 새롭고 관련 있는 데이터 포인트로 지속적으로 업데이트되고 있습니다. 이것이 바로 AI 모델이 기술적으로는 잘 진행되고 있음에도 불구하고 일부 영역(초등학교 수학 및 코드 생성)에서 아직 인간의 성능과 일치하지 않는 이유입니다.

 

AI가 인간을 능가하게 된 원인은 무엇인가?

그러나 지난 몇 년 동안 AI의 능력이 이렇게 빠르게 성장할 수 있었던 이유는 무엇일까?

컴퓨팅 성능, 데이터 가용성 및 향상된 알고리즘의 혁명 덕분에 AI 모델은 10년 전보다 더 빠르고, 학습할 수 있는 데이터 세트가 더 크며, 효율성에 최적화되어 있습니다.

이것이 헤드라인에서 AI 언어 모델이 표준화된 테스트에서 인간의 성능과 일치하거나 능가하는 것에 대해 일상적으로 이야기하는 이유입니다 . 실제로 AI 개발자의 주요 문제는 모델이 테스트를 위해 고안된 벤치마크 데이터베이스를 계속 능가하지만 여전히 실제 테스트에 실패하고 있다는 것입니다 .

 

ChatGPT는 얼마나 똑똑하나?, 인체 시험에서 ChatGPT 성과, GPT-4 대 GPT-3.5, GPT-4의 변경점?

인체 시험에서 ChatGPT 성과 OpenAI가 개발한 언어 모델인 ChatGPT는 광범위한 상황에서 인간과 같은 반응을 만들어내는 능력 때문에 지난 1년 동안 믿을 수 없을 정도로 인기를 얻었습니다. 사실, ChatG

investingstudy-hino87.tistory.com

 


앞으로 몇 년 안에 더 많은 컴퓨팅 및 알고리즘 향상이 예상되므로 이러한 급속한 발전은 계속될 것입니다. 그러나 인공지 발전의 다음 잠재적 병목 현상은 AI 자체가 아니라 모델을 훈련할 데이터가 부족하기 때문일 수 있습니다.

 

반응형