https://arxiv.org/abs/2306.00984
미국 뉴욕 코넬 대학교에서 발표된 새 논문임,
우리는 텍스트-이미지 모델에 의해 생성된 합성 이미지를 사용하여 시각적 표현을 학습할 수 있는 가능성을 조사합니다. 이것은 고품질 이미지를 생성하는 이러한 모델의 뛰어난 성능에 비추어 볼 때 자연스러운 질문입니다. 우리는 특히 선도적인 오픈 소스 텍스트-이미지 모델 중 하나인 Stable Diffusion을 고려합니다. 우리는 (1) 생성 모델이 적절한 분류기가 없는 지침 척도로 구성될 때 합성 이미지에 대한 자기 감독 방법 훈련이 실제 이미지 상대와 일치하거나 이길 수 있음을 보여줍니다. (2) 동일한 텍스트 프롬프트에서 생성된 여러 이미지를 서로에 대한 긍정으로 처리하여 StableRep이라고 하는 다중 긍정 대비 학습 방법을 개발합니다. 합성 이미지만으로, StableRep에 의해 학습된 표현은 대규모 데이터 세트에서 동일한 텍스트 프롬프트 세트와 해당 실제 이미지를 사용하여 SimCLR 및 CLIP에 의해 학습된 표현의 성능을 능가합니다. 언어 감독을 더 추가하면 20M 합성 이미지로 훈련된 StableRep은 50M 실제 이미지로 훈련된 CLIP보다 더 나은 정확도를 달성합니다.
대충 어려울테니까, 짧게 간추리면 2000만개의 AI 이미지로 학습한 그림 AI가
5000만개의 실제 이미지로 AI로 학습한 AI보다 더 나은 정확도+ 완성도가 나왔다는 논문임
예전에 일본 연구팀에서 생성이미지로 학습하면 퀄리티 떨어진다는 연구때문에 그렇게 생각하는것 같은데, 그 논문은 피인용 2회임.
https://twitter.com/DrJimFan/status/1643279641065713665
이미 그림 AI는 사람 그림 데이터는 다 썼고, 자체 AI 이미지를 활용해서 강화학습하고 있음
엔비디아 AI 연구자가 미드저니가 사람이 출력 후 업스케일링하는 이미지(그 자체가 라벨링)를 통해 이미 자가 출력물을 통한 강화학습을 하고 있을거라 밝힘
MJ UI가 강화학습에 최적화되어 있고 미드저니 발전속도가 어마어마한거 보면 AI 이미지로 강화학습 하고 있다는 주장은 신빈성 있음
결론
시비걸고 나대는 딸깍충이 ㅄ인것과는 별개로, AI 그림으로 자체학습해도 퀄리티가 떨어지거나 하지는 않음.
바둑 알파고도 처음에는 사람 기보 넣다가, 나중에는 지들끼리 알아서 강화학습 하던거랑 비슷하다고 보면은 됨
그 사람이 망친 ai그림을 폐기하고 잘나온것만 분별해서 인터넷에 올려주잖아요....
바둑은 승패의 기준이있는대 그림은 이게 이쁘내 망했내 기준을 Ai들이 뭘로 판단함? 당장 손도 촉수로 그리던대 사람이 결과물은 분류해줘야하는게 아님?
당연한 말이지, 애초에 ai이미지가 애매한 그작들보다 그림 퀄이 높으니까... 대상이 밉다고, 현실에 부합하지 않는 것들까지 억지로 붙여서 욕하는건 언제나 있는 일임.
망가진 것들 중에서 살아남는 것만 인터넷에 올라오니까? 가챠임 ㅋㅋㅋ
지금 당장에야, 사람이 직접 분류하던, 사람들이 이런 색깔의 배치를 좋아하더라 라는 빅데이터를 기반으로 분류하겠지 뭐.
그 이야기가 아니라 ai 이미지로 계속 학습 시키면 ai 성능이 나빠진다는 이야기의 반례임
맞는말인데 비추는 왤케많지
당연한 말이지, 애초에 ai이미지가 애매한 그작들보다 그림 퀄이 높으니까... 대상이 밉다고, 현실에 부합하지 않는 것들까지 억지로 붙여서 욕하는건 언제나 있는 일임.
바둑은 승패의 기준이있는대 그림은 이게 이쁘내 망했내 기준을 Ai들이 뭘로 판단함? 당장 손도 촉수로 그리던대 사람이 결과물은 분류해줘야하는게 아님?
권력의 핵심
그 사람이 망친 ai그림을 폐기하고 잘나온것만 분별해서 인터넷에 올려주잖아요....
난또 Ai가 로컬로 지혼자만들고 지혼자 학습한다는줄 알았지
권력의 핵심
지금 당장에야, 사람이 직접 분류하던, 사람들이 이런 색깔의 배치를 좋아하더라 라는 빅데이터를 기반으로 분류하겠지 뭐.
그게 지금 미드저니이기도 하고, 또 ai 중 미학 점수 분류기라고 해서 그림에 점수 매겨서 이게 인간이 좋아할 그림인지, 아닌지 분별하는 ai도 있으니까....
근데 왜 내가 태그 넣어서 나오는건 죄다 어디 망가진것들이거야.
1q1q6q
망가진 것들 중에서 살아남는 것만 인터넷에 올라오니까? 가챠임 ㅋㅋㅋ
손은 포토샵 신기능으로 이번에 들어온 ai가 기가막히게 잘 고쳐줌
돈 안냈잖아
보통 문제 없이 나온 이미지는 하나뽑으려고 수십 수백번 돌리거나 리터칭 라는 노력까지 하는경우가 많음
내가 저번에 해봤을땐 얼굴은 그대로인데 복근이 매우 강력해지던데?
그럴때 포토샵의 ai를 쓰는 거임
퀄리티 기준은 어떻게 정해지는거지
근데 그것도 첫 스타트는 남 그림 바탕으로 하는거 아냐? 아예 생으로 아무것도 없는데 이미지 5000만번 돌려서 사람 미의 기준에 부합하는 그림이 나온다는거야?
알파고가 처음엔 사람 기보를 가지고 학습했지만 나중가선 자기가 기보를 만들어서 스스로 학습한 것처럼 지금 현재 풀린 모델을 강화학습하는데 사람그림말고 자기가 생성한 그림을 쓴다는거
공손한 율
그 이야기가 아니라 ai 이미지로 계속 학습 시키면 ai 성능이 나빠진다는 이야기의 반례임
아니지,,,,지금의 ai라고 하는건 그냥 딥러닝의 연장선이라고 보면 되는듯함,,,, 이전에 바둑, 장기쪽에도 딥러닝(ai) 수백 수천만번 학습돌려서 게임에 써먹는거 잇엇는데,,,, 그게 게임이 아닌 그림으로 일부 변경된거지,,, 정확한 목표가 잇을때 반복학습을 통해 조금씩 목표로 찾아가는거에 불과하다고 생각함,,, 물론 이런거 계속 하다보면 다른 방향성도 생기고 여러모로 진화?에는 좋은방향으로 생각,,,
결국 뭐가 잘 되었고 뭐가 하자인가 계속 따져주면 발전하는 구조라..
빅데이터 다룰때도 입력정보가 과더하면 오히려 성능이 떨어지게 된다더라고. 엄선을 잘 해야 하는 거고 바둑의 경우에는 이미 한참 전에 카드게임 이지만 자연선택+돌련변이 라는 진화론 적 모델로 최적화 하는걸 일개 고등학생도 했을 정도니 룰 입력+승률 이라는 구조로 돌리다 보면 되는거지 딱히 기보 학습인지는
근데 그 ai가 학습하는건 인간의 거 학습한 결과로 나온 거시기잖아? 달걀이 먼저 닭이 먼저 같음...
참고로 그림AI뿐만 아니라 다른 ai머신도 재학습하면 효율이 올라감 물론 츨력물 그냥 고대로 재학습이 아니라 랜덤하게 솎아낸뒤 재학습이라던지 아니면 어떠한 필터링, 재분류 등의 ai기술자 나름의 처리후 재학습
ai그림들이 만든 손 망가진 자료로 다시 ai가 학습할텐데 그게 보완이 되나?
망가진 손을 걸러내는 이미지 분류 프로그램을 돌리면 되니까? 이게 무슨 이미지인지 설명해주는 ai, 미학 점수를 매기는 ai도 있으니까, 왜곡된 형상을 분류하는 ai도 어렵진 않겠지...
그러니까 손 망가진 자료는 학습때 안쓰거나 수정해서 괜찮은 자료만 다시 쓰는거지. 그게 강화학습이구
근대 일단 그림은 결과물이 좋은지 아닌지의 선별은 사람이 해줘야 해서. 게임이야 이긴다는 결과, 주행모델이야 이동 거리 같은식으로 간단히 그냥 계속 돌리기만해도 되지만 이건 어떨지.
압도적인 속도는 모든걸 커버해준다
궁극적으로 완전 자동화가 되려면 "어떤 것이 아름다운 그림인가?"에 대한 분류기가 마지막에서 분류를 해줘야 학습이 가능할텐데, 저 질문은 미술사에 툭하면 튀어나오는 해결되지 않은 질문으로 알고 있어서 분류기 학습이 안되거나 매우 힘들듯 학습되어도 좀만 지나면 그 그림이 유행이 지나거나 해서 다시 분류기를 제작해야 하거나 뭐 그렇게 될거 같음
맞는말인데 비추는 왤케많지
문제는 사람이지 ai 그림의 퀄리티가 높아지는 걸 ai를 이용해서 그림을 뽑아내는 사람이 그 사람만의 그림체를 창조해내는 것으로 응용할 수 있느냐 에 대해서는 여전히 불확실한 문제임. 결국 그림체를 만들어낸다는 것은 사람이 자신의 취향을 반영해야 하는거니까 또한 '응용할 수 있느냐' 의 문제가 아닌 '응용할 것이냐' 라는 문제로 보면 안그래도 퀄리티 높은 모델이 있는데 굳이 할까? 라는 이야기도 가능하고.
결국 ai가 시장을 지배할 거라는 데는 동의함 그럼에도 불구하고 ai는 오랫동안 리스펙의 문제를 안고 갈거임
과적합 얘기하는건가? 이게 학습이 어느수준을 지나가버리면 내말이 다맞아 하는것마냥 AI가 고집스러워짐 ㅇㅇㅇ
Ai 그림 퀄리티 자체가 정상급 프로가 직접 그리는 수준의 결과물이 나오고 있으니...... 그리고 인물쪽 그림은 사진 결과물도 참고해서 구도나 빛 계산 적용시키다보니 오히려 가장 현실적일걸...