(高)避免在同一個 warp 當中有不同的執行路徑(warp divergence) (低)迴圈的計數器以 signed integer 代替 unsigned integer, 因為 C 標準中,signed integer 的 overflow 沒有仔細定義,從而有加速空間 (高)避免在程式會發散的地方使用 __syncthreads()