데이터를 모으는 부분(수집, 비식별화 등)
데이터로 어떻게 모델을 구성할까 하는 부분(알고리즘 쪽)
모은 데이터로 모델을 구성하는 부분(aka 학습)
만들어진 모델을 돌리는 부분(인퍼런스)
이 부분들이 다 이뤄져야 AI가 되는 건데 유게에서 AI 관련 논쟁 부분 보면 각 단계별로 따로 나타나는 걸 하나로 AI문제로만 칭하니깐 그 경계가 섞여서 뭐가 어떻게 개선 이런 이야기보다는 그냥 좋다 나쁘다 걱정된다 이렇게만 끝나는 듯
근데 이런 이야기하려면 AI 연구 커뮤를 가야겠지.
데이터셋 없이는 아예 학습이 안 되니까 합법적인 데이터셋을 어떻게 구하는가 하는 문제가 제일 큰데, 그 부분을 오픈소스 애들이 너무 마구 가져가고 있지
실제로 스타트업이나 개인 연구자들 보면 합법적인 데이터셋을 구할 수가 없어서 이길 수가 없다는 말을 자주 하고 어떻게든 데이터셋을 구성하려고 하다 그 단계에서 좌절을 많이들 하는데, 오픈소스라고 땡 붙이면 그냥 공개해버리고 어그로 끌면 결과물이 나오니 참 편하겠다 싶어. ㅋㅋ...
실제로 알고리즘을 만든 연구자들은 '우리는 그저 내놓고 좋은 의도로 공유했을 뿐'이라고 하지만, 인터넷의 절대다수 대중이 윤리적이리라 기대할 수 없는 상황에서 그런 결과물들을 공개해버린 시점에서 애를 벼랑 옆에 둔, 그 자체로 비판받아야 하는 지점이 있는게 아닌가 싶고.
그야 잘 모르니까 그래서 까는쪽이나 쉴드 치는 쪽이나 문제 핵심 아는 애들은 없고 다 뜬구름 잡는 소리만함
일반인은 그런 구분에 대해 잘 모르니까 뭐
유게에서 AI 관련 논의 보면서 느끼는건데 찬성파고 반대파고 AI 개념을 확실히 알고있지 못하다보니까 서로 개념 잡아주기 급급해서 논의가 앞으로 나아가질 못하는 경우가 많음
문제임. 십대 청소년 커뮤니티에 총을 주고 '나는 대중이 혜택을 볼 수 있게 공개했을 뿐'이라는건 학문적으로 책임있는 자세도 아니라고. 차라리 파급력을 예상하지 못했으니 도의적인 책임만을 진다라면 모를까 무슨 백색이야.
일반인은 그런 구분에 대해 잘 모르니까 뭐
근데 그럼 좀 기본적인 구조를 찾아보고 의논하는 문화면 좋을텐데 그냥 이야기만 하니 나오는 게 없어서 슬픔.
유게에서 AI 관련 논의 보면서 느끼는건데 찬성파고 반대파고 AI 개념을 확실히 알고있지 못하다보니까 서로 개념 잡아주기 급급해서 논의가 앞으로 나아가질 못하는 경우가 많음
데이터셋 없이는 아예 학습이 안 되니까 합법적인 데이터셋을 어떻게 구하는가 하는 문제가 제일 큰데, 그 부분을 오픈소스 애들이 너무 마구 가져가고 있지
RouletteDice
실제로 알고리즘을 만든 연구자들은 '우리는 그저 내놓고 좋은 의도로 공유했을 뿐'이라고 하지만, 인터넷의 절대다수 대중이 윤리적이리라 기대할 수 없는 상황에서 그런 결과물들을 공개해버린 시점에서 애를 벼랑 옆에 둔, 그 자체로 비판받아야 하는 지점이 있는게 아닌가 싶고.
데이터셋이 중요한 건 언제나 맞는데, 그 학습이 이뤄지는 과정, 알고리즘을 구현하는 과정, 모으는 과정 이런 걸 다 묶어서 생각하는 경우가 있더라고
RouletteDice
실제로 스타트업이나 개인 연구자들 보면 합법적인 데이터셋을 구할 수가 없어서 이길 수가 없다는 말을 자주 하고 어떻게든 데이터셋을 구성하려고 하다 그 단계에서 좌절을 많이들 하는데, 오픈소스라고 땡 붙이면 그냥 공개해버리고 어그로 끌면 결과물이 나오니 참 편하겠다 싶어. ㅋㅋ...
그거 금속 소재 연구하는 사람들이 칼빵 맞은 사람들을 책임져란 소리임
그래서 요즘 모델 자체에서 원본 데이터 식별 자체는 못하게 하려는 시도는 나오고 있을걸? 근데 여기 보면 모델의 공유, 학습데이터의 공유, 결과물의 공유를 다 묶어서 생각하는 사람들이 많아.
학습시점을 어떻게 최적화할지 이런 기교적인 부분들도 중요한데 솔직히 압도적으로 중요한게 무조건 큰 데이터셋, 학습량이잖아.
그거랑은... 저작권적인 부분으로 보면 총기 모델 3d 프린팅해서 파는 거랑 비교하는게 맞아 ㅋㅋㅋㅋㅋㅋ
그게 안 중요하다는 게 아니라, 너 말대로 공유를 할때 모델을 공유하는 것과 데이터셋 공유의 차이를 잘 모르더라고.
classification 같은 계열이면 모를까 generative model에서 단순 압도적으로 큰데이터셋이라 주장하기엔 참고로 aI모델들 보면 데이터 수를 더 늘려도 성능 향상 없는 구간 발생함여 단순히 숫자딸로 끝나는 분야가 아님
그쪽까지 가면 이해해달라는게 더 어려운 요청이라 해야 하나... 데이터셋도 원칙대로면 지가 다 만들던가 어디서 큰돈주고 계약맺고 사오던가인데 그걸 다 인간의 악의로 극복하고 있다는걸 이해시키기가 쉽지 않지
마찬가지 3d 총기 모델로 살인사건이 일어났으니 3d 프린터 제조하는사람에게 책임 물을 수 있냐 하면 글쎄? 님이 지적하는게 총기모델 3d 도면 무료 공개를 때린경우면 모르겠다만
알고있음 결국은 u자형 커브 되서 최적값 알아내려고 똥꼬쇼하잖음. 근데 애초에 정리된, 참신한 데이터셋 자체를 구할 수 없는게 대다수 연구자들인데 그렇게 말하면 배부른 고민임.
"도면 공유자"에게 구할 수 있지 당연히. 책임을.
근데 여기서부터 막히면 AI 관련 논쟁 이야기가 사실 나아가기도 힘들어서. 나도 그래서 이런 커뮤에서 기술 관련은 내 전공 아니면 깊게 이야기 하진 않아
음 대충 말하는거랑 어휘 보니까 이쪽 전공자가 아닌가보구먼
그냥 잘 알면서 글도 잘 쓰는 사람이 나타나서 이해시킬 수밖에 없음.
이 글은 좀 구조랑 시장에 대한 이해가 되야 건설적인 논의가 될텐데 이런 푸념글에 가까움. 내가 뭘 하겠다는 게 아니라. 그냥 맨날 같은 주제로 누굴 때려죽이네 누가 죽네 이런 소리 나오는데 어떻게 해야할까 이런 이야기 안나오는 게 아쉬워서 그럼.
뭐 오버피팅이나 일반화 에러 다 말해야 함? 경사하강법 로지스틱 회귀 이런거? 모델 오픈소스 공개가 정말 책임에서 무결하다고 생각하면 갈길 가든가
ml 교양수준으로 접한 것같은디?
그냥 논의 시작하기에는 늦은게 아닌가 싶음 ㅇㅇ... 시작하기도 전에 문제가 먼저 시작되버린 느낌
정확히는 유게 밖에선 계속 논의 되던게 유게 관심사인 그림에 와서야 유게에서도 논의되는 느낌임.
무슨 미분적분이야기하는데 더하기 빼기 분수 대분수 가분수 이야기 다 말해야함? 수준의 이야기하면서 전문성을 강조해봐야...
맞음. ㅇㅇ 근데 지금 오픈소스 ai 이미지 생성 툴이 정말로 "소재산업 논문"이라 생각하면 한참 틀린 소리란 건 확신함. 그건 이미 아티스트들 지분 빼앗는 총기 도면이여.
논의가 끝나고 고상하게 툴이 도입되는게 아니라, 툴이 먼저 일반에 대한 논의 없이 나와버리고 나니 논의도 교양있게 전개가 안 되잖음.
지금 상용 서비스 중인 녀석들중에 무단으로 데이터셋을 확보해서 학습한뒤 뿌리거나 판매하는녀석들은 문제인데 그게 스테이블 디퓨전을 공개한 사람이 문제다! 라는 이야기면 한참 틀린이야기임
Anthi7💎🍃
문제임. 십대 청소년 커뮤니티에 총을 주고 '나는 대중이 혜택을 볼 수 있게 공개했을 뿐'이라는건 학문적으로 책임있는 자세도 아니라고. 차라리 파급력을 예상하지 못했으니 도의적인 책임만을 진다라면 모를까 무슨 백색이야.
글쎄 난 그 관점은 동의 안한다. 그리고 인류역사상 그런 논의 있고 새로운 툴이 나온적은 없어. 논의전에 툴이 나와서 생기는 문제가 아니라 툴의 구조에 대한 이해가 부족해서 전개가 안되는 거라 생각함 알고리즘이 먼저 공유된게 문제일까? 아니면 학습이 된 서비스가 먼저 나온게 문제일까? 너가 말하는 먼저 나와서 문제가 된 부분이 뭔지 더 정확히 말해야 그게 의미가 있지
님이 하는말은 generative model은 함부러 연구되어선 안된다고 주장하는거임 교통사고의 원인은 자동차 회사가 원인이다 수준으로 쓸데없이 깊게 들어간격
칼만드는 소재 만드는 방법에 해당하는게 Stable Diffusion 알고리즘 논문이잖아. 데이터셋 문제를 생각안하면 소재 만드는 방법에 대한 공유까지 책임져야한다는 소리 같은데
생각안하면 -> 생각안하더라도 자동 수정 진짜 불편해
알고리즘에 문제가 되는 데이터셋이 결합하기가 너무 쉽잖아. 태그된 이미지들은 연구소가 아니더라도 시간을 들이면 수십만장 단위로 크롤링해올 수 있고 그 자체로 훌륭한 이미지 데이터셋이지. 상용 서비스에 확인된 데이터셋만을 사용했는지 확인할 법안도 미비하고 주체도 없지.
근데 그런 연구를 공개 안하고 비공개로만 돌리면 데이터/돈이 있는 빅테크 집중 현상은 더 심해지고 진짜 원인인 돗거 문제는 그대로 일텐데?
계속 칼-소재같은 애매한 비유로 돌아가니까 문제가 이상해지는데, 알고리즘을 공개한 시점에서 이 알고리즘에 동의없는 데이터셋이 결합해서 한번 결과물이 나오면 그 순간부터 규제가 불가능하다는 점은 고려해야 하는게 아님?
빅테크들은 적어도 "책임"은 지잖아. 지금 오픈소스로 공개해서 얻은게 뭐야. 대혼란이야. 학습을 마친 모델이 나돌아다니고, 소설쟁이들이 지금도 하는 것처럼 한두장 이미지 뽑아 자기 소설에 넣는 단계까지 가면 규제도 불가능해. 인터넷의 특성상 영원히 남을 거라고. 누구의 동의도 받지 않은 저작권 침해물들이. 그 책임은 누가 질건데.
난 오히려 그런 힘이 빅테크에게만 집중되는 게 만만치 않는 위험일거라 생각하는 쪽이라.연구 공개 자체를 막자는 건 더 위험할거라 생각해
빅테크가 책임을 진다고? 솔직히 빅테크만큼 강력한 수집력을 가지고 있는 주체 중에서 그렇게 책임을 진 사례가 있나?
오픈소스같은, 애매하게 대중을 위하는 척을 하지 말고 그냥 저작권 자신에게 귀속시키고 관리하고 책임을 져야지. 먼지만 닿아도 폭발을 일으키는 내는 폭발물을 만들어내고서, 공공에 도면을 공개한 다음 나는 선의니 책임이 없다고 주장한다고? 그거야말로 상아탑 연구자들의 오만이야.
책임을 지지. 적어도 데이터셋은 돈주고 사온단 말이야. 지금 학습된 수십만건의 "데이터"들은 누구의 동의를 받았고 그 사건에 누가 책임을 지겠어?
너가 뭔 문제를 걱정하는지 알겠는데 이 독점과 공유에 대한 생각차이 생각사면 여기서 의논한다고 답이 나오지는않을듯. 어쨌든 오픈소스의 혼란과 관련된 의견 잘 들었음. 그런거 막으려면 채굴 방해칩처럼 가정용 gpu에 그건거 넣어야 하나? 어쨌든 이야기 잘 들엇고 잘 자.
ㅇㅇ; 그래봐야 파이토치나 몇번 만져본 ↗밥인데 괜히 ㅈㅅ함. 좋은밤 되세요
놀랍게도 빅테크들도 돈 안 주고 써서 소송 걸린 게 지금 현 상황임 (...) 이미지 생성나 대화형 ai 자체의 데이터셋을 합법적으로 이용하느냐는 의미없는 논쟁이라고 생각함
사실 빅테크들도 지금 수집된 데이터셋들이 지금 다 ‘약관 내에서 동의받고 무료로 수집된 데이터’들이라, 사실 사용자가 인지 못하는 사이에 쓰인다는 점에서는 오픈소스나 빅테크나 똑같은 수준일거고...
그야 잘 모르니까 그래서 까는쪽이나 쉴드 치는 쪽이나 문제 핵심 아는 애들은 없고 다 뜬구름 잡는 소리만함
이런쪽은 문외한인데 솔직히 Ai 주제로해서 싸우기만하지 진중한 논의는 몇번 못본거같음
싸움도 데이터셋을 모으거나 학습한 사람이 있는 곳에 하면 뭔가 티키타카가 나오기라도 할텐데 여긴 그런 곳도 아니라 뭔가 나오진 않지
다들 목소리만 크지 건설적인 얘기는 없어서 아쉽긴함 물론 그런 얘기하는 사이트가 아니니 어쩔수는 없다만 적어도 찬성,반대를 막론하고 극단적인 소리는 안나왓으면 좋겠다 정도...
연구자 돌로 때려죽이자는 이야기는 많이 무섭더라
그런식으로 찬성,반대한다면서 얘기할때마다 본인들이 비인간적이게 되는건 아무렇지도 않은건가? 하는 생각이 들더라고 이런건 인문학의 영역이려나...
인문학이자 심리학의 영역이지. 심리학 부전공인데 원래 집단은 각 개개인보다 훨씬 극당적인 의견이 나오기 쉽데
뭔지 알거같음 Ai가 가져올 파장에 대한 부작용이 있다면 최소한으로 줄이는게 하나의 관건이 될텐데 찬성,반대 둘 다 반발의 심리는 이해한다만 반발만해서는 아무것도 안된다는걸 알아야할텐데 결국 이게 사회적 약속이 정해질때까지는 긴 시간이 필요할듯 싶으요