LLNL · jeffhammond · Jul 7, 2022 · Jul 7, 2022 · Jul 7, 2022 · Jul 8, 2022
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -30,6 +30,10 @@ endif()
 if (ENABLE_KOKKOS)
   set(CMAKE_CXX_STANDARD 17)
   set(BLT_CXX_STD c++17)
+elseif (ENABLE_STDPAR)
+  set(CMAKE_CXX_STANDARD 20)
+  set(BLT_CXX_STD c++14)
+  add_definitions(-DBUILD_STDPAR)
 else()
   set(CMAKE_CXX_STANDARD 14)
   set(BLT_CXX_STD c++14)
@@ -94,6 +98,9 @@ endif ()
 if (ENABLE_OPENMP)
   add_definitions(-DRUN_OPENMP)
 endif ()
+if (ENABLE_STDPAR)
+  add_definitions(-DRUN_STDPAR)
+endif ()
 
 set(RAJA_PERFSUITE_VERSION_MAJOR 2022)
 set(RAJA_PERFSUITE_VERSION_MINOR 10)

diff --git a/README.stdpar b/README.stdpar
@@ -0,0 +1,106 @@
+# GCC
+
+```
+cmake .. -DCMAKE_C_COMPILER=gcc-11  -DCMAKE_CXX_COMPILER=g++-11 -DCMAKE_CXX_FLAGS="-std=c++20 -Wno-volatile -Wno-unused-parameter" -DENABLE_STDPAR=1 && make -j`nproc`
+```
+
+# NVC++
+
+## Patches
+
+```
+$ diff /opt/nvidia/hpc_sdk/Linux_$(uname -m)/${V}/compilers/include/nvhpc/algorithm_execution.hpp
+1066c1066
+<     _ASSERT_RANDOM_ACCESS(_FIt);
+---
+>     //_ASSERT_RANDOM_ACCESS(_FIt);
+```
+
+```
+$ diff /opt/nvidia/hpc_sdk/Linux_$(uname -m)/${V}/compilers/include/nvhpc/numeric_execution.hpp
+386c386
+<     _ASSERT_RANDOM_ACCESS(_FIt);
+---
+>     //_ASSERT_RANDOM_ACCESS(_FIt);
+```
+
+## OpenMP/OpenACC for atomics
+
+```
+cmake .. -DCMAKE_C_COMPILER=nvc -DCMAKE_CXX_COMPILER=nvc++ -DCMAKE_CXX_FLAGS="-std=c++20 --diag_suppress=volatile_inc_dec_deprecated -stdpar=multicore -acc=multicore -mp=multicore -tp=haswell" -DENABLE_STDPAR=1 && make -j8
+```
+
+```
+cmake .. -DCMAKE_C_COMPILER=nvc -DCMAKE_CXX_COMPILER=nvc++ -DCMAKE_CXX_FLAGS="-std=c++20 --diag_suppress=volatile_inc_dec_deprecated -stdpar=gpu -tp=haswell -acc" -DENABLE_STDPAR=1 && make -j8
+```
+
+## CPU
+
+Just disable the lambda one I guess...
+
+-------------------------------------------------------
+Basic_MAT_MAT_SHARED
+........................................................
+Base_StdPar-default        1136.6199452543779141       0.0000000000000000000
+Lambda_StdPar-default      -nan                        -nan
+
+Probably just not atomic...
+
+-------------------------------------------------------
+Basic_PI_ATOMIC
+........................................................
+Base_StdPar-default        0.55899274342205662602      2.5825999101679185666
+Lambda_StdPar-default      3.1415926535899751926       0.0000000000000000000
+
+Check these to make sure no stupid float<->double stuff happening.
+
+-------------------------------------------------------
+Polybench_GEMVER
+........................................................
+Base_Seq-default           16695345.016927006001       0.0000000000000000000
+Lambda_Seq-default         16695345.016927005882       1.1914380593225359917e-10
+RAJA_Seq-default           16695345.016927006608       -6.0663296608254313469e-10
+Base_StdPar-default        16695345.016927005745       2.5647750589996576309e-10
+Lambda_StdPar-default      16695345.016927006608       -6.0663296608254313469e-10
+
+-------------------------------------------------------
+Polybench_MVT
+........................................................
+Base_Seq-default           6821556.1519041797419       0.0000000000000000000
+Lambda_Seq-default         6821556.1519041797419       0.0000000000000000000
+RAJA_Seq-default           6821556.1519041792999       4.4201442506164312363e-10
+Base_StdPar-default        6821556.1519041792999       4.4201442506164312363e-10
+Lambda_StdPar-default      6821556.1519041792999       4.4201442506164312363e-10
+
+-------------------------------------------------------
+Stream_DOT
+........................................................
+Base_Seq-default           39999973.379841431975       0.0000000000000000000
+Lambda_Seq-default         39999973.379841439426       -7.4505805969238281250e-09
+RAJA_Seq-default           39999973.379841662943       -2.3096799850463867188e-07
+Base_StdPar-default        39999973.379841439426       -7.4505805969238281250e-09
+Lambda_StdPar-default      39999973.379841439426       -7.4505805969238281250e-09
+
+-------------------------------------------------------
+Algorithm_REDUCE_SUM
+........................................................
+RAJA_Seq-default           268294.10758353886195       1.5483237802982330322e-08
+
+## GPU
+
+Lambda_Seq has the bug too so just disable the Lambda versions...
+
+-------------------------------------------------------
+Basic_MAT_MAT_SHARED
+........................................................
+Base_Seq-default           1136.6199452543779141       0.0000000000000000000
+Lambda_Seq-default         -6.0464819976872759102e+32  6.0464819976872759102e+32
+RAJA_Seq-default           1136.6199452543779141       0.0000000000000000000
+Base_StdPar-default        1136.6199452543779141       0.0000000000000000000
+Lambda_StdPar-default      -6.0464819976872759102e+32  6.0464819976872759102e+32
+
+# Intel
+
+```
+cmake .. -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DCMAKE_CXX_FLAGS="-std=c++20  -Wno-unused-parameter -Wno-deprecated-volatile -tbb" -DENABLE_STDPAR=1 && make -j8
+```
diff --git a/src/algorithm/CMakeLists.txt b/src/algorithm/CMakeLists.txt
@@ -10,34 +10,40 @@ blt_add_library(
   NAME algorithm
   SOURCES SCAN.cpp
           SCAN-Seq.cpp
+          SCAN-StdPar.cpp
           SCAN-Hip.cpp
           SCAN-Cuda.cpp
           SCAN-OMP.cpp
           SCAN-OMPTarget.cpp
           SORT.cpp
           SORT-Seq.cpp
+          SORT-StdPar.cpp
           SORT-Hip.cpp
           SORT-Cuda.cpp
           SORT-OMP.cpp
           SORTPAIRS.cpp
           SORTPAIRS-Seq.cpp
+          SORTPAIRS-StdPar.cpp
           SORTPAIRS-Hip.cpp
           SORTPAIRS-Cuda.cpp
           SORTPAIRS-OMP.cpp
           REDUCE_SUM.cpp
           REDUCE_SUM-Seq.cpp
+          REDUCE_SUM-StdPar.cpp
           REDUCE_SUM-Hip.cpp
           REDUCE_SUM-Cuda.cpp
           REDUCE_SUM-OMP.cpp
           REDUCE_SUM-OMPTarget.cpp
           MEMSET.cpp
           MEMSET-Seq.cpp
+          MEMSET-StdPar.cpp
           MEMSET-Hip.cpp
           MEMSET-Cuda.cpp
           MEMSET-OMP.cpp
           MEMSET-OMPTarget.cpp
           MEMCPY.cpp
           MEMCPY-Seq.cpp
+          MEMCPY-StdPar.cpp
           MEMCPY-Hip.cpp
           MEMCPY-Cuda.cpp
           MEMCPY-OMP.cpp

diff --git a/src/algorithm/MEMCPY-StdPar.cpp b/src/algorithm/MEMCPY-StdPar.cpp
@@ -0,0 +1,154 @@
+//~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~//
+// Copyright (c) 2017-22, Lawrence Livermore National Security, LLC
+// and RAJA Performance Suite project contributors.
+// See the RAJAPerf/LICENSE file for details.
+//
+// SPDX-License-Identifier: (BSD-3-Clause)
+//~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~//
+
+#include "MEMCPY.hpp"
+
+#include "RAJA/RAJA.hpp"
+
+#if defined(BUILD_STDPAR)
+
+#include "common/StdParUtils.hpp"
+
+#include <iostream>
+
+namespace rajaperf
+{
+namespace algorithm
+{
+
+
+void MEMCPY::runStdParVariantLibrary(VariantID vid)
+{
+#if defined(RUN_STDPAR)
+  const Index_type run_reps = getRunReps();
+  const Index_type ibegin = 0;
+  const Index_type iend = getActualProblemSize();
+
+  MEMCPY_DATA_SETUP;
+
+  switch ( vid ) {
+
+    case Base_StdPar : {
+
+      startTimer();
+      for (RepIndex_type irep = 0; irep < run_reps; ++irep) {
+
+        std::copy_n(std::execution::par_unseq,
+                    x+ibegin, iend-ibegin, y+ibegin);
+
+      }
+      stopTimer();
+
+      break;
+    }
+
+    default : {
+      getCout() << "\n  MEMCPY : Unknown variant id = " << vid << std::endl;
+    }
+
+  }
+#endif
+}
+
+void MEMCPY::runStdParVariantDefault(VariantID vid)
+{
+#if defined(RUN_STDPAR)
+  const Index_type run_reps = getRunReps();
+  const Index_type ibegin = 0;
+  const Index_type iend = getActualProblemSize();
+
+  MEMCPY_DATA_SETUP;
+
+  switch ( vid ) {
+
+    case Base_StdPar : {
+
+      startTimer();
+      for (RepIndex_type irep = 0; irep < run_reps; ++irep) {
+
+        std::for_each_n( std::execution::par_unseq,
+                         counting_iterator<Index_type>(ibegin), iend-ibegin,
+                         [=](Index_type i) {
+          MEMCPY_BODY;
+        });
+
+      }
+      stopTimer();
+
+      break;
+    }
+
+    case Lambda_StdPar : {
+
+      auto memcpy_lambda = [=](Index_type i) {
+                             MEMCPY_BODY;
+                           };
+
+      startTimer();
+      for (RepIndex_type irep = 0; irep < run_reps; ++irep) {
+
+        std::for_each_n( std::execution::par_unseq,
+                         counting_iterator<Index_type>(ibegin), iend-ibegin,
+                         [=](Index_type i) {
+          memcpy_lambda(i);
+        });
+
+      }
+      stopTimer();
+
+      break;
+    }
+
+    default : {
+      getCout() << "\n  MEMCPY : Unknown variant id = " << vid << std::endl;
+    }
+
+  }
+
+#endif
+}
+
+void MEMCPY::runStdParVariant(VariantID vid, size_t tune_idx)
+{
+  size_t t = 0;
+
+  if (vid == Base_StdPar) {
+
+    if (tune_idx == t) {
+
+      runStdParVariantLibrary(vid);
+
+    }
+
+    t += 1;
+
+  }
+
+  if (tune_idx == t) {
+
+    runStdParVariantDefault(vid);
+
+  }
+
+  t += 1;
+}
+
+void MEMCPY::setStdParTuningDefinitions(VariantID vid)
+{
+  if (vid == Base_StdPar) {
+    addVariantTuningName(vid, "library");
+  }
+
+  addVariantTuningName(vid, "default");
+}
+
+} // end namespace algorithm
+} // end namespace rajaperf
+
+#endif  // BUILD_STDPAR
+
diff --git a/src/algorithm/MEMCPY.cpp b/src/algorithm/MEMCPY.cpp
@@ -51,6 +51,9 @@ MEMCPY::MEMCPY(const RunParams& params)
   setVariantDefined( Base_HIP );
   setVariantDefined( Lambda_HIP );
   setVariantDefined( RAJA_HIP );
+
+  setVariantDefined( Base_StdPar );
+  setVariantDefined( Lambda_StdPar );
 }
 
 MEMCPY::~MEMCPY()

diff --git a/src/algorithm/MEMCPY.hpp b/src/algorithm/MEMCPY.hpp
@@ -54,12 +54,16 @@ class MEMCPY : public KernelBase
   void runCudaVariant(VariantID vid, size_t tune_idx);
   void runHipVariant(VariantID vid, size_t tune_idx);
   void runOpenMPTargetVariant(VariantID vid, size_t tune_idx);
+  void runStdParVariant(VariantID vid, size_t tune_idx);
 
   void setSeqTuningDefinitions(VariantID vid);
+  void setStdParTuningDefinitions(VariantID vid);
   void setCudaTuningDefinitions(VariantID vid);
   void setHipTuningDefinitions(VariantID vid);
   void runSeqVariantDefault(VariantID vid);
   void runSeqVariantLibrary(VariantID vid);
+  void runStdParVariantDefault(VariantID vid);
+  void runStdParVariantLibrary(VariantID vid);
 
   template < size_t block_size >
   void runCudaVariantBlock(VariantID vid);