오픈AI·MS·메타, AI 투명성 논란 속 새로운 평가 방식 도입

2024-11-12 01:03:57

챗GPT의 모회사인 오픈AI와 마이크로소프트(나스닥:MSFT), 메타플랫폼스(나스닥:META)가 인공지능(AI) 기술의 급속한 발전으로 인해 기존 평가 방식의 한계에 직면했다.

파이낸셜타임스(FT)에 따르면 주요 기술 기업들이 자사 AI 모델의 성능을 보다 정확히 평가하기 위해 내부 벤치마크를 개발하기 시작했다. 그러나 이러한 접근 방식은 업계 내에서 표준화된 공개 평가의 필요성에 대한 우려를 불러일으켰다. 기업과 소비자들이 AI 기술의 발전을 평가하기 어려워질 수 있다는 지적이다.

메타의 생성형 AI 책임자인 아흐마드 알-달레는 FT와의 인터뷰에서 최신 AI 시스템의 성능을 측정하는 것이 어렵다고 강조했다. 이로 인해 메타, 오픈AI, 마이크로소프트 등의 기업들이 독자적인 평가 방법을 개발하게 되었다. 하지만 이러한 움직임은 서로 다른 AI 기술을 비교할 수 있는 능력을 제한한다는 비판을 받고 있다.

헬라스와그(Hellaswag)와 MMLU 같은 기존의 공개 벤치마크는 상식과 일반 지식을 테스트하기 위해 객관식 문항을 활용한다. 그러나 연구자들은 이러한 방법이 더 이상 고급 AI 모델의 추론 능력을 효과적으로 측정하지 못한다고 주장한다.

예를 들어, 오픈AI의 연구 담당 수석 부사장인 마크 첸은 FT와의 인터뷰에서 인간이 설계한 테스트가 이러한 정교한 시스템의 실제 능력을 측정하는 데 점점 더 부적절해지고 있다고 말했다. 그 결과 업계에서는 실제 세계의 과제를 더 잘 반영하는 복잡한 테스트를 만들어야 한다는 목소리가 커지고 있다.

사설 벤치마크로의 전환은 AI 테스트의 투명성에 대한 논쟁을 촉발했다. AI 안전센터의 이사인 댄 헨드릭스는 FT와의 인터뷰에서 공개적으로 이용 가능한 벤치마크를 통해 기업과 일반 대중이 AI의 실제 진전을 이해하기 쉬워진다고 말했다. 이러한 투명성 부족은 AI 모델이 복잡한 작업을 자동화하는 데 얼마나 가까워졌는지 정확히 평가하는 노력을 저해할 수 있다.

내부 벤치마크 외에도 외부 조직들도 새로운 평가 방법 개발에 기여하기 시작했다. 지난 9월 스케일AI는 헨드릭스와 협력하여 '인류의 마지막 시험'이라는 프로젝트를 시작했다. 이는 다양한 분야의 전문가들로부터 추상적 추론을 요구하는 복잡한 질문을 크라우드소싱하는 방식이다.

또한 전문 수학자들이 설계한 새로운 벤치마크인 프론티어매스(FrontierMath)는 가장 어려운 문제에 대해 2% 미만의 완료율을 보이며 최첨단 모델들에게도 도전이 되고 있다.

웨드부시의 애널리스트 댄 아이브스는 마이크로소프트, 메타, 아마존닷컴(나스닥:AMZN), 알파벳(나스닥:GOOG)(나스닥:GOOGL) 등 미국 기술 대기업들의 AI 관련 자본 지출이 1조 달러에 달할 것으로 전망했다.

주가 동향: 월요일 기준 마이크로소프트 주가는 0.8% 하락한 419.17달러를 기록했다. 메타 주가는 1.36% 하락했다.

#알파벳 C #메타 플랫폼스 #마이크로소프트

이 기사는 AI로 번역되어 일부 오류가 있을 수 있습니다.

이전기사 다음 기사

SKYX 플랫폼스, 실적 발표 앞두고 주목

뷰티헬스, 실적 발표 앞두고 투자자들 관심 집중