2019 - Patryk Pilarski - Apache Spark vs Machine Learning
Gigant chipowy bardzo ostrożnie ustawił układ jako nie nowy układ graficzny, ale nowy Układ " obliczyć i grafikę", w tej kolejności (kursywa moja). Prawdę mówiąc, prawie wszystko, co ujawniło się w nowym chipie, odnosi się do jego funkcji obliczeniowych, a nie do tradycyjnych elementów graficznych, takich jak jednostki tekstur i zakończenia renderowania. Wiemy, że chip jest ogromny na około 3,0 miliardów tranzystorów i będzie produkowany w procesie 40 nm w TSMC. To około 40 procent więcej tranzystorów niż chip RV870 w nowych kartach DirectX 11 z serii Radeon 5800, właśnie wydanych przez konkurencyjną AMD. Chip ma 512 jednostek przetwarzania (Nvidia nazywa je rdzeniami CUDA) zorganizowanych w 16 "strumieniowe multiprocesory" z 32 rdzeniami. Jest to ponad dwa razy więcej niż 240 rdzeni w GT200, a rdzenie mają ponadto znaczące ulepszenia. Układ będzie wykorzystywał 384-bitowy interfejs pamięci GDDR5.
Oto niektóre z głównych punktów:
Trzecia generacja strumieniowego multiprocesora (SM)
- 32 rdzeni CUDA na SM, 4x ponad GT200
- 8x szczytowa wydajność zmiennoprzecinkowa podwójnej precyzji ponad GT200
- Dual Warp Scheduler, która planuje i wywołuje dwie osnowy z 32 wątków
- na zegar
- 64 KB pamięci RAM z konfigurowalnym partycjonowaniem pamięci współdzielonej i pamięcią podręczną L1
Druga Generowanie równoległych operacji tworzenia wątków ISA
- Ujednolicona przestrzeń adresowa z pełną obsługą języka C ++
- Zoptymalizowana dla OpenCL i DirectCompute
- Pełna IEEE 754-2008 32-bitowa i 64-bitowa precyzja
- Pełna 32-bitowa ścieżka całkowita z 64 -bitowe rozszerzenia
- Instrukcje dostępu do pamięci wspierające przejście na adresowanie 64-bitowe
- Lepsza wydajność dzięki predykcjom
Ulepszony podsystem pamięci
- Hierarchia równoległych danych NVIDIA z konfigurowalnym L1 i Unified L2
- Cache
- Pierwszy procesor graficzny z obsługą pamięci ECC
- Znacznie ulepszona obsługa pamięci atomowej wydajność
Silnik NVIDIA GigaThread
- 10-krotnie szybsze przełączanie kontekstu aplikacji
- Równoczesne wykonywanie jądra
- Blokowanie wątków poza kolejnością
- Podwójne nakładane mechanizmy transferu pamięci
Jest wiele dodatkowych funkcji, które powinny poprawić wydajność tego układu w zadaniach związanych z przetwarzaniem strumieniowym, na przykład znacznie szybsza szybkość obliczeń zmiennoprzecinkowych o podwójnej precyzji. Obecne procesory graficzne Nvidia obliczają podwójną precyzję w ułamku prędkości operacji z jedną precyzją. Operacje zmiennoprzecinkowe z podwójną precyzją powinny teraz osiągać połowę wydajności pojedynczej precyzji, co stanowi ogromną poprawę. Duże ulepszenia w buforowaniu i planowaniu są również widoczne. Możesz przeczytać więcej o architekturze na nowej stronie Fermi Nvidii, która zawiera dokument PDF.
Śledź Jason Crossa na Twitterze lub odwiedź jego bloga.
Epicor przedstawia kolejną generację ERP

Epicor wyda długo oczekiwany produkt Epicor 9 ERP do końca roku.
CA próbuje odzyskać kolejną generację komputerów mainframerzy

CA używa młodszych programistów do tworzenia oprogramowania mainframe nowej generacji.
Intel wprowadza na rynek następną generację procesorów Netbook Atom

Intel dostarcza procesor netbook nowej generacji Atom N450, który jest mniejszy i zużywa mniej energii niż jego poprzednicy .