그는 현재 고려대학교 음성 및 언어 처리 연구소를 이끌고 있습니다
IEEE 멤버인 Chanwoo Kim은 삼성 갤럭시 폰과 구글 홈 디바이스에서 사용되는 음성 인식, 텍스트 음성 변환 도구, 언어 모델링 시스템 개발에 참여했습니다.
삼성 갤럭시 폰에서 음성으로 메시지를 생성하거나 구글 홈 디바이스를 활성화할 때마다 김찬우 상무가 개발에 참여한 도구를 사용하고 있는 것입니다. 삼성 리서치 글로벌 AI 센터의 전 부사장인 그는 엔드투엔드 음성 인식, 엔드투엔드 텍스트 음성 변환 도구, 언어 모델링을 전문으로 합니다.
"제 경력에서 가장 보람 있는 부분은 제 친구와 가족들이 사용하고 즐기는 기술을 개발하는 데 도움을 주는 것입니다."라고 김 부사장은 말합니다.
그는 최근 삼성을 떠나 서울 고려대학교에서 음성 및 언어 처리 연구소를 이끌며 이 분야의 연구를 계속하고 있습니다. 인공지능 교수인 그는 차세대 기술 리더를 가르치는 일에 열정을 쏟고 있다고 말합니다.
"학교에 제 연구실을 마련하고 학생들을 지도할 수 있게 되어 기쁩니다."라고 그는 말합니다.
Google Home 출시
2014년 Amazon이 현재 Echo로 알려진 AI 어시스턴트 기술을 탑재한 스마트 스피커를 개발한다고 발표했을 때, Google은 자체 버전을 개발하기로 결정했습니다. 카네기 멜론에서 언어 및 정보 기술 박사 학위를 받은 김씨는 강력한 음성 인식을 전문으로 하는 자신의 전문성을 발휘할 수 있는 역할을 찾았습니다. 캘리포니아 마운틴뷰에 있는 Google에서 이러한 프로젝트를 진행하던 친구의 권유로 소프트웨어 엔지니어링 직군에 지원하게 되었습니다. 그는 소프트웨어 개발 엔지니어이자 음성 과학자로 3년 동안 일했던 시애틀의 Microsoft를 떠났습니다.
2013년 구글의 음향 모델링 팀에 합류한 후 그는 구글 홈 제품에 사용되는 AI 어시스턴트 기술이 배경 소음이 있는 환경에서도 작동할 수 있도록 하는 작업을 수행했습니다.
그는 음성과 음소(언어의 발음 단위) 사이의 관계를 해석하는 음향 모델링을 사용하는 등 Google 홈의 음성 인식 알고리즘을 개선하기 위한 노력을 주도했습니다.
"사람들이 휴대폰에서 음성 인식 기능을 사용할 때는 기껏해야 기기에서 1m 정도 떨어져 있어야 했습니다."라고 그는 말합니다. "저희 팀과 저는 사용자가 멀리 떨어져서 말할 때에도 사용자의 말을 알아들을 수 있도록 해야 했습니다."
김 씨는 기기의 음성 인식 기능을 향상시키기 위해 원거리 음성 데이터를 시뮬레이션하는 대규모 데이터 증강을 사용할 것을 제안했습니다. 데이터 증강은 수신된 훈련 데이터를 분석하고 추가 훈련 데이터를 인위적으로 생성하여 인식 정확도를 향상시킵니다.
그의 공헌 덕분에 2016년 구글은 첫 번째 스마트 스피커인 구글 홈 제품을 출시할 수 있었습니다.
"정말 보람 있는 경험이었어요."라고 그는 말합니다.
같은 해에 김 씨는 수석 소프트웨어 엔지니어로 승진하여 대규모 데이터 증강을 위해 Google Home에서 사용하는 알고리즘을 지속적으로 개선했습니다. 또한 신경망에 사용되는 시간과 컴퓨팅 성능을 줄이고 원거리 음성 인식을 위한 멀티 마이크 빔포밍을 개선하는 기술도 개발했습니다.
한국에서 자란 김 부사장은 가족이 그리워 2018년 귀국하여 삼성 서울 AI센터 부사장으로 합류했습니다.
삼성에 입사했을 때 그는 온디바이스 프로세싱에 초점을 맞춘 엔드투엔드 음성 인식 및 텍스트 음성 변환 엔진을 개발하는 것을 목표로 삼았습니다. 목표를 달성하기 위해 음성 처리 연구소를 설립하고 당시 삼성의 AI 기기에 사용되던 기존 음성 인식 시스템을 대체할 신경망을 개발하는 연구팀을 이끌었습니다.
"제 업무에서 가장 보람 있는 부분은 제 친구와 가족들이 사용하고 즐기는 기술을 개발하는 데 도움을 주는 것입니다."
이러한 시스템에는 음향 모델, 언어 모델, 발음 모델, 가중 유한 상태 변환, 역 텍스트 정규화가 포함되었습니다. 언어 모델은 사용자가 말하는 단어 간의 관계를 살펴보고, 발음 모델은 사전 역할을 합니다. 휴대폰의 텍스트 음성 변환 도구에서 가장 많이 사용되는 역 텍스트 정규화는 음성을 서면 표현으로 변환합니다.
구성 요소가 부피가 크기 때문에 기존 기술로는 정확한 온디바이스 음성 인식 시스템을 개발할 수 없었다고 김 부사장은 말합니다. 엔드투엔드 신경망은 모든 작업을 완료하고 "음성 인식 시스템을 크게 간소화"할 수 있다고 그는 말합니다.
그와 그의 팀은 스트리밍 주의 기반 접근 방식을 사용하여 모델을 개발했습니다. 입력 시퀀스(음성 단어)를 인코딩한 다음 기계 번역을 위해 사전 학습된 딥러닝 모델에서 생성된 단어의 숫자 표현인 컨텍스트 벡터를 사용하여 목표 시퀀스로 디코딩합니다.
이 모델은 2019년에 상용화되어 현재 삼성 갤럭시 휴대폰에 탑재되어 있습니다. 같은 해에 클라우드 버전의 시스템이 상용화되어 휴대폰의 가상 비서인 빅스비에서 사용되고 있습니다.
그의 팀은 다른 제품의 음성 인식 및 텍스트 음성 변환 시스템을 지속적으로 개선해왔고, 매년 새로운 엔진을 상용화했습니다.
여기에는 추가 잡음, 신호의 변화, 다중 스피커 및 잔향과 같은 방해 요소가 있는 환경에서 음성 인식의 정확도를 향상시키는 전력 정규화 세프스트랄 계수가 포함됩니다. 통계를 사용하여 특성을 추정함으로써 배경 소음의 영향을 억제합니다. 현재 에어컨, 휴대폰, 로봇청소기 등 다양한 삼성 제품에 사용되고 있습니다.
삼성은 2021년 김 부사장을 영국 케임브리지, 몬트리올, 서울, 실리콘밸리, 뉴욕, 토론토에 위치한 6개 글로벌 AI 센터의 총괄 부사장으로 승진 발령했습니다.
이 직책에서 그는 삼성 제품에 인공지능과 머신러닝을 접목하는 연구를 감독했습니다. 그는 삼성에서 최연소 부사장이 된 인물입니다.
또한 삼성 가우스에서 발전한 삼성의 생성형 대규모 언어 모델 개발을 주도했습니다. 생성형 AI 모델 제품군은 코드, 이미지, 텍스트를 생성할 수 있습니다.
그는 지난 3월 회사를 떠나 고려대학교 인공지능학과 교수로 부임했는데, 이는 꿈이 실현된 것이라고 말합니다.
"처음 박사 과정을 시작했을 때는 학계에서 커리어를 쌓는 것이 꿈이었습니다."라고 김 씨는 말합니다. "하지만 박사 학위를 취득한 후 제 연구가 실제 제품에 미칠 수 있는 영향력에 매력을 느껴 산업계로 진출하기로 결심했습니다."
그는 고려대학교가 "인공지능 분야에서 강세를 보이고 있는" 국내 최고의 대학 중 하나이기 때문에 고려대학교에 합류하게 되어 기뻤다고 말합니다.
김 씨는 앞으로 생성 음성 모델, 멀티모달 처리, 생성 음성과 언어 모델의 통합을 중점적으로 연구할 것이라고 말했습니다.