Pull to refresh
1088
76.2
Михаил Сваричевский @BarsMonster

Терминатор кремния

Send message
Если не секрет, какие накладные расходы на вызов? Например для первого простого примера — сколько раз в секунду на вашем железе дернуть можно?
Я говорю об SSE операциях, так и получается 12 операций за такт на ядро — 3 операции по 4 числа.
Ставить вместо SSE операций обычные пожалуй не стоит :-)
На случай если пишеться клиент для распределенных вычислений типа Folding@Home.
Фолдингу то хорошо, с помощью сони они все без Линуха сделали, и запускать конечным пользователям легко.
К сожалению для простых смертных этот пусть закрыт :-)
Производительность и на 32 битных целых, и синглах(по крайней мере пока мы говорим о простых операциях) у всех одинаковая — все занимает по одному такту.
Код в статье — лишь для примера.
Для конечного пользователя релизнуть трудно.
Объяснять простому юзеру как ему надо на приставку линух ставить — достаточно трудновато.

Ну а о цене акселей с интерфейсом PCI-E лучше помолчим, чтобы не расстраиваться зря :-)
Большинство операций на GPU выполняются за один такт(иногда правда со сниженной точностью) — вот именно такие и учитываются.
Этот теоретический пик — на матричных операциях, и я согласен что он тоже важен. В данной статье я привожу максимальную реально достижимую скорость, не учитывая ограничения памяти (например когда все в регистрах или в L1 кеше). Производительность работы с памятью (bandwidth & latency на разных уровнях) можно рассмотреть в отдельной статье, там тоже много интересного :-)
12 ...
232

Information

Rating
76-th
Location
Zürich, Швейцария
Registered
Activity