• (高)避免在同一個 warp 當中有不同的執行路徑(warp divergence)
  • (低)迴圈的計數器以 signed integer 代替 unsigned integer, 因為 C 標準中,signed integer 的 overflow 沒有仔細定義,從而有加速空間
  • (高)避免在程式會發散的地方使用 __syncthreads()