- Nvidia의 Out of the Box 성능 및 경험은 놀랍고, 벤치마크 중에 Nvidia 특유의 버그에 부딪히지 않았습니다. Nvidia는 기술 지원을 위해 한 명의 엔지니어를 우리에게 배정했지만, Nvidia 소프트웨어 버그에 부딪히지 않았기 때문에 많은 지원이 필요하지 않았습니다.
- AMD의 Out of the Box Experience는 작업하기 매우 어렵고 사용 가능한 상태로 이동하려면 상당한 인내심과 팔굽혀펴기가 필요할 수 있습니다. 대부분의 벤치마크에서 AMD PyTorch의 Public AMD 안정 릴리스는 여전히 고장이 났고 해결 방법이 필요했습니다 .
- AMD의 경우, 공개된 안정적인 릴리스 소프트웨어의 실제 세계 성능은 종이에 마케팅된 TFLOP/s에 전혀 미치지 못합니다. Nvidia의 실제 세계 성능도 마케팅 TFLOP/s에 미치지 못하지만, 그 차이는 거의 없습니다.
- MI300X는 H100/H200에 비해 총 소유 비용(TCO)이 낮지만, AMD 소프트웨어의 공개 안정 릴리스에서는 MI300X의 TCO당 훈련 성능이 더 나쁩니다. AMD 소프트웨어의 사용자 지정 개발 빌드를 사용하면 이는 달라집니다.
- MI300X의 행렬 곱셈 마이크로 벤치마크에서 알 수 있듯이 학습 성능은 약하고, 단일 노드 학습 처리량에 대한 AMD 공개 릴리스 소프트웨어는 여전히 Nvidia의 H100 및 H200보다 뒤처집니다.
- MI300X 성능은 AMD 소프트웨어에 의해 제한됩니다 . BF16 개발 브랜치의 AMD MI300X 소프트웨어는 성능이 더 좋지만 아직 AMD 내부 리포의 메인 브랜치에 병합되지 않았습니다. 메인 브랜치와 PyTorch 안정 릴리스에 병합될 때쯤이면 Nvidia Blackwell은 이미 모든 사람이 사용할 수 있게 됩니다.
- AMD의 훈련 성능도 MI300X가 강력한 스케일 아웃 성능을 제공하지 않기 때문에 제한됩니다. 이는 약한 ROCm Compute Communication Library(RCCL)와 AMD의 네트워킹 및 스위칭 하드웨어와의 수직 통합 수준이 Nvidia의 Nvidia Collective Communications Library(NCCL), InfiniBand/Spectrum-X 네트워크 패브릭 및 스위치의 강력한 통합에 비해 낮기 때문입니다.
- AMD AI 라이브러리 중 다수는 NVIDIA AI 라이브러리의 포크로, 최적이 아닌 결과와 호환성 문제를 초래합니다.
- AMD 고객은 추론에만 수작업으로 만든 커널을 사용하는 경향이 있는데, 이는 매우 좁고 잘 정의된 사용 사례를 벗어나는 경우 성능이 좋지 않으며, 빠르게 변화하는 작업 부하에 대한 유연성이 전혀 없다는 것을 의미합니다.
그 와중에 말만 번지르르한 머릿속이 꽃밭인 CEO
리사 수: 제가 말씀드리고 싶은 건 소프트웨어 측면에서 우리가 이룬 진전에 정말 만족한다는 겁니다. 우리가 보고 있는 것은 뛰어난 아웃 오브 박스 성능입니다. 사실은 모든 것이 그냥 돌아가고, 개발자 생태계의 많은 부분이 추상화 계층으로 이동하고 싶어한다는 사실입니다. 모두가 선택권을 원하기 때문입니다. (출처)
1년간 주가는..
머릿속이 꽃밭인게 아니라... 대표라면 저렇게 말해야 함. 분명히 말하자면, 우리의 소프트웨어 진전은 거의 없다는 겁니다. 엔비디아와 비교가 안되요. 라고 할 순 없잖음. 10% 성능 향상해도 엄청난 진전 이뤘다고 해야지...
머리속이 꽃밭이 아니라 실제 성능을 떠나서 매출로 증명하니까 ㅋㅋ
머릿속이 꽃밭인게 아니라... 대표라면 저렇게 말해야 함. 분명히 말하자면, 우리의 소프트웨어 진전은 거의 없다는 겁니다. 엔비디아와 비교가 안되요. 라고 할 순 없잖음. 10% 성능 향상해도 엄청난 진전 이뤘다고 해야지...
머리속이 꽃밭이 아니라 실제 성능을 떠나서 매출로 증명하니까 ㅋㅋ
어.. 그건 암드가 게이밍 매출이 죽어가고 있기 때문이야..
저런 스타트업이 칩을 살때 자기자본으로 사지 않는데 칩셋구입 대출받을때 엔비디아의 칩이 더 많은 가치를 인정받는것도 있음
제발 좀 가즈아
리사수도 드디어 욕을 먹는군... 영원한 빛은 없군