ChatGPT GPT4 ㅈ같아진거 아님?이라는 어글성으로 보이는 글이 관련 포럼에 올라옴
문제는 이 포럼의 댓글이나 코멘트는 보통은 무시될 만한 별 연관성이 없는 내용이었는데
이걸 들여다보던 일부 GPT-based 연구진들이 기존 프롬프트가 결과를 개떡같이 내놓게 된다는 걸 알아냄.
나도 오늘 오전에 다른 긴급업무 끝내고 2시부터 이거 건드리고 있는데
Web을 통한 검색 리퍼런스 활용이 5/28 기준으로 이전과 꽤 달라짐
그 결과 web 자료에 이끌려서 정작 제공된 프롬프트를 제대로 참조하지 못하고, 이전보다 더 많은 접속오류와 출력형 무시를 일으키는 거 나도 확인함.
json으로 결과를 출력하는 텍스트-요약 관련해서 좀 만지고 있었는데
내가 기존에 텍스트를 저작권 만료된 홈즈 네 개의 서명과 주홍색 연구를 바탕으로 돌리고 있었거든?
근데 이전과 다르게 요약문 생성을 하다가 문단을 지워버리거나, 저작권적으로 풀린 문서를 분석시키는데 저작권적 이슈가 있다고 작업을 중단해버리거나 하는 일이 벌어짐.
주홍색 연구의 경우 총 637번 정도 통신을 하도록 되어 있고, 더블체킹을 하도록 했는데
더블체킹하고도 올바르지 않은 json 출력을 하거나 요약문에서 문단째로 빠트리는 오류를 1번 돌릴 떄마다 10~20번씩 저지르고 있음
이게 json이 뭐냐면 대강
이런식으로 문자열 처리해주는거임.
원래는 4-5번 정도만 오류가 났었음.
이게 지금 Microsoft가 Azure OpenAI 서비스 6월중에 한다고 하면서 뒤에서 바꾼 거 아니냐는 설과
Aligned + 표절검사 부분에서 어딘가 근본적으로 사고를 쳤거나 했다는 설이 개발자들 사이에서 돌고 있다.
왜 이거 쓰고 있냐면 돌려놓고 유게질하려다가 시작부터 임베딩 개판나서 ????한 상태거든.
다른 데 가서 개발자들 말하는 거 들어봤는데 유료서비스의 함정(처음엔 적자나는 식으로 운영하다가 유저가 늘면 유저에게 주는 자원을 몰래 줄여서 속이는 것)을 켠 거 아니냐고 난리치는 사람도 있더라....
아 참고로 왜 알수가 없냐면 GPT구조가 지금 이래서 그럼
아니 정확히는 이론적으론 아는데 현실적으로 그게 어떻게 돌아가고 있는질 몰?루
요약
GPT 서비스 개판남
원인을 모르는데 알 수 있는 외부적 사인은 모델 업데이트 뿐
근데 다른 서비스는 더 □□임 100점이 삐꾸나서 80점 됐는데 다른애들은 만점이 10점임
자체적으로 만들어서 돌리자! 같이 GPT에서 벗어나자 하는 게 있는데 페이스북 주도의 llama가 제일 성능이 좋거든? 얘가 GPT-3 정도 성능을 냄 근데 우리가 공짜로 ChatGPT 가서 아무나 칠 수 있는 3.5도 이거보다 훨씬 정밀도가 높아
GPT 결과 구려짐 왜 그런지 모르겠는데 업뎃하고 이상해짐
API를 통한 접근은 건당 돈받는단말야... 나 오늘도 오픈AI에 회사카드로 20달러 집어넣었음
야설 쓰는 AI 나도 만들고싶어서 좀 건드려봤는데 문제가 그거임. 중편소설을 쓴다고 할 때, 한번의 통신량으로는 전체 텍스트를 만들어낼 수 없어. 그래서 책으로 치면 한 5페이지씩 만들어야 하는데 문제는 이거보다 앞의 글들은 알아서 요약한 문서만 줘서 작업해야한다는 거임. 얘가 얼마나 많은 메모리를 쓸지 내가 컨트롤을 못함. 심지어 GPT 3.5면 두페이지가 한계임. 이걸로 소설을 쓰니까 등장인물 이름이 바뀌고 관계가 바뀌고 배경이 바뀌고 그럼ㅋㅋㅋ
표절 관련 이슈 아니냐는 말이 그래서 돌더라고. 이게 비공식적으로 EU 항의를 맏아들인 거 아니냐는 말도 있었고.
결과물 내놓는 성능이 떨어졌다는 소리.
yoyakzom
토코♡유미♡사치코
결과물 내놓는 성능이 떨어졌다는 소리.
GPT 결과 구려짐 왜 그런지 모르겠는데 업뎃하고 이상해짐
의심할만하네 ㄷㄷ
슬슬 혼자 알아서 문제 일으키는거보니 챗GPT말고 다른 서비스가 빛을 볼때가 됐군
근데 다른 서비스는 더 □□임 100점이 삐꾸나서 80점 됐는데 다른애들은 만점이 10점임
에엥...
자체적으로 만들어서 돌리자! 같이 GPT에서 벗어나자 하는 게 있는데 페이스북 주도의 llama가 제일 성능이 좋거든? 얘가 GPT-3 정도 성능을 냄 근데 우리가 공짜로 ChatGPT 가서 아무나 칠 수 있는 3.5도 이거보다 훨씬 정밀도가 높아
역시 아직은 챗GPT구만 어서 기술이 발전해서 야설 써주는 AI가 널리 공개되면 좋겠다
야설 쓰는 AI 나도 만들고싶어서 좀 건드려봤는데 문제가 그거임. 중편소설을 쓴다고 할 때, 한번의 통신량으로는 전체 텍스트를 만들어낼 수 없어. 그래서 책으로 치면 한 5페이지씩 만들어야 하는데 문제는 이거보다 앞의 글들은 알아서 요약한 문서만 줘서 작업해야한다는 거임. 얘가 얼마나 많은 메모리를 쓸지 내가 컨트롤을 못함. 심지어 GPT 3.5면 두페이지가 한계임. 이걸로 소설을 쓰니까 등장인물 이름이 바뀌고 관계가 바뀌고 배경이 바뀌고 그럼ㅋㅋㅋ
엌ㅋㅋ역시 아직 갈길이 멀구만ㅋㅋ
그래서 딱 한페이지 정도인 기업의 홍보 찌라시나 소비자 답변 매크로 이런 건 오질나게 잘함 특히 저작권 풀린 텍스트도 엄청 많아서 학습도 잘 되어있음
유료 베타테스터해주는거나 다름없는데도 그러면 화나겠네
API를 통한 접근은 건당 돈받는단말야... 나 오늘도 오픈AI에 회사카드로 20달러 집어넣었음
기업이 운용하는 라이브서비스에 대해서 이래저래 말이 많은 이유중 하나긴 한데 그거랑은 별개로 저건 현 작가 파업사태랑 관련있어 보임. 그림쪽은 여기서 자주 언급되서 어느정도 정보가 풀렸는데 텍스트쪽은 집단적으로 움직이는데 시위말고 물밑작업도 꽤 크게 진행되는거같음
표절 관련 이슈 아니냐는 말이 그래서 돌더라고. 이게 비공식적으로 EU 항의를 맏아들인 거 아니냐는 말도 있었고.
공정이용 이슈를 제외하더라도 데이터를 전부 공개하게 되면 해당 저작권자들이 제외해달라면 해줘야하니까 별 수 없지.
내가 그래서 민감한 사내정보 쓰기 전에 저작권 만료된 책으로 테스트하는데 그거에 저작권 이슈가 걸리니 황당하더라고. 영어-영어 작업하는데 다른나라 번역판본이 남아있어서 걸리나?
보통 저작권 만료된 서적도 번역판본은 번역저작권이 인정되기도 하고 국내에서도 이슈됬던 시대상에 안맞는 단어 개정등으로 수정해서 새로 등록하는 식으로 연장하기도 해. 그걸 일일이 알아보고 처리하느니 일괄적으로 막아버리는 편이 간단하긴 하지.
진짜 이러다간 미국 독립선언문이나 그런걸로만 해야하나 근데 그건 내부에 미친듯이 쌓여서 하는 의미가 없을텐데
그래도 이번에 논란된거 정리되면 데이터셋 쓸만한거 몇 개는 나오지 않을까 ㅋㅋ 일당 서버 유지비가 7억달러였나? 추리면 몇 개는 나오겠지 ㅋ
이게 높으신 분 설득하려면 그분들이 이해하는 돈 안드는 데이터셋이 필요해....!
근데 챗GPT GPT4는 유료서비스잖아
ChatGPT로 써도 유료고 개발자들처럼 API 접근해도 유료임 근데 결과 상태가 메롱해지고 있어서 이게 뭔? 싶은 부분임. 웹부분만 이상해지면 유저가 늘어서 단가문제 아닌가 싶은데 API call도 이상해졌거든
허어 그냥 api 받아서 갖고 놀라고 하다 api 안 와서 슬퍼하고만 있었는데 뭔가 일이 터지고 있나보네
이게 그냥 이슈 떄문에 일주일에 하루이틀 돌리는 연구진도 다 오늘 돌리고있어서 폭주해서 이럴 가능성도 있긴 한데 아마 다음주 월요일쯤엔 결론이 날듯
api 4 승인 안 와도 3.5는 오니까, 일반적인 작업은 그걸로 해도 문제없어
아 나는 scale쪽에서 한 때 무료로 뿌리던 gpt4 맛보고 3.5로는 성이 안 차서 그런거라... 진짜 성능이 좋긴 하더라구.
그리고 엄밀히는 작업이 아니라 그냥 거의 역할극이나 소설 좀 써봐 시켜놓고 출력해봐 하는 수준이니까 ㅋㅋㅋㅋㅋㅋㅋㅋ 그렇게까지 급하지도 않음
그렇구만 우리는 성과는 내라 근데 너에게 주는 건 이 입사때 받은 아이맥과 3090 달린 컴퓨터 한대다 상태야 ㅋㅋㅋㅋㅋㅋ 트렌드는 따라가는데 내가 뭘 학습시킬 상태가 아님ㅋㅋㅋ
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 힘내... 3090갖고 뭐 되긴 하나
있는 llm 돌리는 건 된다구