금요일에 발표된 논문에 따르면 Apple 연구원들은 화면상의 개체와 대화 및 배경 문맥에 대한 모호한 참조를 이해할 수 있는 새로운 인공 지능 시스템을 개발하여 음성 어시스턴트와 보다 자연스러운 상호 작용을 가능하게 합니다.
ReALM(참조 해상도 언어 모델링)이라고 불리는 이 시스템은 대규모 언어 모델을 활용하여 화면의 시각적 요소에 대한 참조를 이해하는 등 복잡한 참조 해상도 작업을 순수한 언어 모델링 문제로 변환합니다. 이를 통해 ReALM은 기존 방식에 비해 상당한 성능 향상을 달성할 수 있습니다.
"참조를 포함한 문맥을 이해하는 능력은 대화형 어시스턴트에게 필수적입니다."라고 Apple 연구팀은 말합니다. "사용자가 화면에 표시되는 내용에 대해 질문할 수 있도록 하는 것은 음성 비서의 진정한 핸즈프리 경험을 보장하는 데 있어 중요한 단계입니다."
대화형 어시스턴트 향상
화면 기반 참조 문제를 해결하기 위해 ReALM의 핵심 혁신은 시각적 레이아웃을 캡처하는 텍스트 표현을 생성하기 위해 파싱된 화면 엔티티와 그 위치를 사용하여 화면을 재구성하는 것입니다. 연구원들은 참조 해상도를 위해 특별히 언어 모델을 미세 조정하는 것과 결합된 이 접근 방식이 작업에서 GPT-4보다 뛰어난 성능을 발휘할 수 있음을 입증했습니다.
Apple의 AI 시스템인 ReALM은 이 목업에 표시된 "260 샘플 세일" 목록과 같은 화면상의 개체에 대한 참조를 이해할 수 있어 음성 어시스턴트와 보다 자연스러운 상호 작용을 가능하게 합니다. (이미지 출처: arxiv.org)
연구원들은 "다양한 유형의 참조에 걸쳐 유사한 기능을 갖춘 기존 시스템에 비해 큰 개선이 있었으며, 가장 작은 모델은 온스크린 참조에서 5% 이상의 절대적인 이득을 얻었습니다."라고 썼습니다. "더 큰 모델은 GPT-4보다 훨씬 뛰어난 성능을 발휘합니다."
실제 적용 사례와 한계
이 연구는 지연 시간이나 컴퓨팅 제약으로 인해 대규모 엔드투엔드 모델을 사용할 수 없는 프로덕션 시스템에서 참조 해상도와 같은 작업을 처리할 수 있는 집중 언어 모델의 잠재력을 강조합니다. 이 연구를 발표함으로써 Apple은 Siri 및 기타 제품의 대화 능력과 상황 인식을 향상시키기 위한 지속적인 투자를 예고하고 있습니다.
하지만 연구진은 자동화된 화면 구문 분석에 의존하는 데는 한계가 있다고 경고합니다. 여러 이미지를 구별하는 것과 같이 더 복잡한 시각적 참조를 처리하려면 컴퓨터 비전과 멀티 모달 기술을 통합해야 할 가능성이 높습니다.
경쟁업체의 급부상 속에서 AI 격차를 좁히려는 애플의 노력
Apple은 빠르게 변화하는 AI 환경을 지배하기 위한 경쟁에서 기술 라이벌을 뒤쫓고 있는 가운데서도 조용히 AI 연구에서 상당한 진전을 이루고 있습니다.
시각과 언어를 혼합하는 멀티모달 모델부터 AI 기반 애니메이션 도구, 저예산으로 고성능의 전문 AI를 구축하는 기술까지, 애플의 연구소에서 꾸준히 혁신의 북소리가 들리는 것을 보면 애플의 AI 야망이 빠르게 확대되고 있음을 알 수 있습니다.
하지만 비밀스러운 것으로 유명한 이 거대 기술 기업은 검색, 오피스 소프트웨어, 클라우드 서비스 등에서 제너레이티브 AI를 공격적으로 제품화하고 있는 구글, 마이크로소프트, 아마존, 오픈AI 등과 치열한 경쟁에 직면해 있습니다.
퍼스트 무버가 아닌 패스트 팔로워로 오랫동안 활동해온 Apple은 이제 인공지능으로 인해 빠른 속도로 변화하는 시장에 직면해 있습니다. 오는 6월에 개최되는 전 세계 개발자 컨퍼런스에서 새로운 대규모 언어 모델 프레임워크, 'Apple GPT' 챗봇, 그리고 생태계 전반에 걸친 기타 AI 기반 기능을 공개할 것으로 예상됩니다.
팀 쿡 CEO는 최근 실적 발표 컨퍼런스 콜에서 "올해 말 AI 분야에서 진행 중인 작업의 세부 사항을 공유할 수 있게 되어 기쁘다"고 말했습니다. 특유의 불투명성에도 불구하고 Apple의 AI 노력은 그 범위가 광범위하다는 것은 분명합니다.
그러나 AI 패권을 향한 경쟁이 치열해지면서 아이폰 제조업체는 뒤늦게 뛰어들면서 전례 없는 약자의 입장에 처하게 되었습니다. 막대한 자금력, 브랜드 충성도, 엘리트 엔지니어링, 긴밀하게 통합된 제품 포트폴리오를 갖추고 있어 승산이 있지만, 이 치열한 경쟁에서 이길 수 있다는 보장은 없습니다.
진정한 지능형 컴퓨팅의 새로운 유비쿼터스 시대가 곧 도래할 것입니다. 오는 6월, Apple이 그 시대를 만들어갈 수 있을 만큼 충분한 준비를 했는지 지켜볼 것입니다.
Rabbit R1의 Large Action Model과 비슷한 기술인가보네요 반쪽짜리 기능인 시리랑 단축어에 꼭 필요한 기술이라고 생각해요
애플이 계속 AI쪽에서 발표하는게 많네요 저번부터
6월에 WWDC 때문인듯해요