Gaopeng-Bai
diff --git a/‎README.md‎
Lines changed: 1 addition & 2 deletions b/‎README.md‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎rcnn/BatchedNms.cu‎
100644100755
Lines changed: 15 additions & 5 deletions b/‎rcnn/BatchedNms.cu‎
100644100755
Lines changed: 15 additions & 5 deletions
diff --git a/‎rcnn/BatchedNmsPlugin.h‎
100644100755
Lines changed: 29 additions & 28 deletions b/‎rcnn/BatchedNmsPlugin.h‎
100644100755
Lines changed: 29 additions & 28 deletions
diff --git a/‎rcnn/CMakeLists.txt‎
100644100755
Lines changed: 8 additions & 8 deletions b/‎rcnn/CMakeLists.txt‎
100644100755
Lines changed: 8 additions & 8 deletions
diff --git a/‎rcnn/MaskRcnnInference.cu‎
100644100755
Lines changed: 2 additions & 1 deletion b/‎rcnn/MaskRcnnInference.cu‎
100644100755
Lines changed: 2 additions & 1 deletion
@@ -14,7 +14,7 @@ The basic workflow of TensorRTx is:
 4. Load the TensorRT engine and run inference.
 
 ## News
-
+- `1 Mar 2023`. [Nengwp](https://github.com/nengwp): [RCNN](./rcnn) and [UNet](./unet) upgrade to support TensorRT 8.
 - `18 Dec 2022`. [YOLOv5](./yolov5) upgrade to support v7.0, including instance segmentation.
 - `12 Dec 2022`. [East-Face](https://github.com/East-Face): [UNet](./unet) upgrade to support v3.0 of [Pytorch-UNet](https://github.com/milesial/Pytorch-UNet).
 - `26 Oct 2022`. [ausk](https://github.com/ausk): YoloP(You Only Look Once for Panopitic Driving Perception).
@@ -29,7 +29,6 @@ The basic workflow of TensorRTx is:
 - `19 Oct 2021`. [liuqi123123](https://github.com/liuqi123123) added cuda preprossing for yolov5, preprocessing + inference is 3x faster when batchsize=8.
 - `18 Oct 2021`. [xupengao](https://github.com/xupengao): YOLOv5 updated to v6.0, supporting n/s/m/l/x/n6/s6/m6/l6/x6.
 - `31 Aug 2021`. [FamousDirector](https://github.com/FamousDirector): update retinaface to support TensorRT 8.0.
-- `27 Aug 2021`. [HaiyangPeng](https://github.com/HaiyangPeng): add a python wrapper for hrnet segmentation.
 
 ## Tutorials
 
 
@@ -3,7 +3,6 @@
 #include <thrust/sequence.h>
 #include <thrust/execution_policy.h>
 #include <thrust/gather.h>
-#include <thrust/system/cuda/detail/cub/device/device_radix_sort.cuh>
 #include <cmath>
 #include <algorithm>
 #include <iostream>
@@ -12,6 +11,17 @@
 #include <vector>
 #include "BatchedNmsPlugin.h"
 #include "./cuda_utils.h"
+#include "macros.h"
+
+#ifdef CUDA_11
+#include <cub/device/device_radix_sort.cuh>
+#include <cub/iterator/counting_input_iterator.cuh>
+#else
+#include <thrust/system/cuda/detail/cub/device/device_radix_sort.cuh>
+#include <thrust/system/cuda/detail/cub/iterator/counting_input_iterator.cuh>
+namespace cub = thrust::cuda_cub::cub;
+
+#endif
 
 namespace nvinfer1 {
 
@@ -52,7 +62,7 @@ __global__ void batched_nms_kernel(
 }
 
 int batchedNms(int batch_size,
-    const void *const *inputs, void **outputs,
+    const void *const *inputs, void *TRT_CONST_ENQUEUE*outputs,
     size_t count, int detections_per_im, float nms_thresh,
     void *workspace, size_t workspace_size, cudaStream_t stream) {
 
@@ -63,7 +73,7 @@ int batchedNms(int batch_size,
         workspace_size += get_size_aligned<float>(count);  // scores_sorted
 
         size_t temp_size_sort = 0;
-        thrust::cuda_cub::cub::DeviceRadixSort::SortPairsDescending(
+        cub::DeviceRadixSort::SortPairsDescending(
             static_cast<void*>(nullptr), temp_size_sort,
             static_cast<float*>(nullptr),
             static_cast<float*>(nullptr),
@@ -95,7 +105,7 @@ int batchedNms(int batch_size,
 
         // Sort scores and corresponding indices
         int num_detections = count;
-        thrust::cuda_cub::cub::DeviceRadixSort::SortPairsDescending(workspace, workspace_size,
+        cub::DeviceRadixSort::SortPairsDescending(workspace, workspace_size,
             in_scores, scores_sorted, indices, indices_sorted, num_detections, 0, sizeof(*scores_sorted) * 8, stream);
 
         // Launch actual NMS kernel - 1 block with each thread handling n detections
@@ -106,7 +116,7 @@ int batchedNms(int batch_size,
             indices_sorted, scores_sorted, in_classes, in_boxes);
 
         // Re-sort with updated scores
-        thrust::cuda_cub::cub::DeviceRadixSort::SortPairsDescending(workspace, workspace_size,
+        cub::DeviceRadixSort::SortPairsDescending(workspace, workspace_size,
             scores_sorted, scores_sorted, indices_sorted, indices,
             num_detections, 0, sizeof(*scores_sorted) * 8, stream);
 
 
@@ -4,6 +4,7 @@
 
 #include <vector>
 #include <cassert>
+#include "macros.h"
 
 using namespace nvinfer1;
 
@@ -13,7 +14,7 @@ using namespace nvinfer1;
 
 namespace nvinfer1 {
 int batchedNms(int batchSize,
-    const void *const *inputs, void **outputs,
+    const void *const *inputs, void *TRT_CONST_ENQUEUE*outputs,
     size_t count, int detections_per_im, float nms_thresh,
     void *workspace, size_t workspace_size, cudaStream_t stream);
 
@@ -40,12 +41,12 @@ class BatchedNmsPlugin : public IPluginV2Ext {
         read(d, _count);
     }
 
-    size_t getSerializationSize() const override {
+    size_t getSerializationSize() const TRT_NOEXCEPT override {
         return sizeof(_nms_thresh) + sizeof(_detections_per_im)
             + sizeof(_count);
     }
 
-    void serialize(void *buffer) const override {
+    void serialize(void *buffer) const TRT_NOEXCEPT override {
         char* d = static_cast<char*>(buffer);
         write(d, _nms_thresh);
         write(d, _detections_per_im);
@@ -70,34 +71,34 @@ class BatchedNmsPlugin : public IPluginV2Ext {
         this->deserialize(data, length);
     }
 
-    const char *getPluginType() const override {
+    const char *getPluginType() const TRT_NOEXCEPT override {
         return PLUGIN_NAME;
     }
 
-    const char *getPluginVersion() const override {
+    const char *getPluginVersion() const TRT_NOEXCEPT override {
         return PLUGIN_VERSION;
     }
 
-    int getNbOutputs() const override {
+    int getNbOutputs() const TRT_NOEXCEPT override {
         return 3;
     }
 
     Dims getOutputDimensions(int index,
-        const Dims *inputs, int nbInputDims) override {
+        const Dims *inputs, int nbInputDims) TRT_NOEXCEPT override {
         assert(nbInputDims == 3);
         assert(index < this->getNbOutputs());
         return Dims2(_detections_per_im, index == 1 ? 4 : 1);
     }
 
-    bool supportsFormat(DataType type, PluginFormat format) const override {
+    bool supportsFormat(DataType type, PluginFormat format) const TRT_NOEXCEPT override {
         return type == DataType::kFLOAT && format == PluginFormat::kLINEAR;
     }
 
-    int initialize() override { return 0; }
+    int initialize() TRT_NOEXCEPT override { return 0; }
 
-    void terminate() override {}
+    void terminate() TRT_NOEXCEPT override {}
 
-    size_t getWorkspaceSize(int maxBatchSize) const override {
+    size_t getWorkspaceSize(int maxBatchSize) const TRT_NOEXCEPT override {
         static int size = -1;
         if (size < 0) {
             size = batchedNms(maxBatchSize, nullptr, nullptr, _count,
@@ -108,40 +109,40 @@ class BatchedNmsPlugin : public IPluginV2Ext {
     }
 
     int enqueue(int batchSize,
-        const void *const *inputs, void **outputs,
-        void *workspace, cudaStream_t stream) override {
+        const void *const *inputs, void *TRT_CONST_ENQUEUE*outputs,
+        void *workspace, cudaStream_t stream) TRT_NOEXCEPT override {
         return batchedNms(batchSize, inputs, outputs, _count,
             _detections_per_im, _nms_thresh,
             workspace, getWorkspaceSize(batchSize), stream);
     }
 
-    void destroy() override {
+    void destroy() TRT_NOEXCEPT override {
         delete this;
     }
 
-    const char *getPluginNamespace() const override {
+    const char *getPluginNamespace() const TRT_NOEXCEPT override {
         return PLUGIN_NAMESPACE;
     }
 
-    void setPluginNamespace(const char *N) override {
+    void setPluginNamespace(const char *N) TRT_NOEXCEPT override {
     }
 
     // IPluginV2Ext Methods
-    DataType getOutputDataType(int index, const DataType* inputTypes, int nbInputs) const {
+    DataType getOutputDataType(int index, const DataType* inputTypes, int nbInputs) const TRT_NOEXCEPT override {
         assert(index < 3);
         return DataType::kFLOAT;
     }
 
     bool isOutputBroadcastAcrossBatch(int outputIndex, const bool* inputIsBroadcasted,
-        int nbInputs) const {
+        int nbInputs) const TRT_NOEXCEPT override {
         return false;
     }
 
-    bool canBroadcastInputAcrossBatch(int inputIndex) const { return false; }
+    bool canBroadcastInputAcrossBatch(int inputIndex) const TRT_NOEXCEPT override { return false; }
 
     void configurePlugin(const Dims* inputDims, int nbInputs, const Dims* outputDims, int nbOutputs,
         const DataType* inputTypes, const DataType* outputTypes, const bool* inputIsBroadcast,
-        const bool* outputIsBroadcast, PluginFormat floatFormat, int maxBatchSize) {
+        const bool* outputIsBroadcast, PluginFormat floatFormat, int maxBatchSize) TRT_NOEXCEPT override {
         assert(*inputTypes == nvinfer1::DataType::kFLOAT &&
             floatFormat == nvinfer1::PluginFormat::kLINEAR);
         assert(nbInputs == 3);
@@ -150,7 +151,7 @@ class BatchedNmsPlugin : public IPluginV2Ext {
         _count = inputDims[0].d[0];
     }
 
-    IPluginV2Ext *clone() const override {
+    IPluginV2Ext *clone() const TRT_NOEXCEPT override {
         return new BatchedNmsPlugin(_nms_thresh, _detections_per_im, _count);
     }
 
@@ -170,24 +171,24 @@ class BatchedNmsPluginCreator : public IPluginCreator {
  public:
     BatchedNmsPluginCreator() {}
 
-    const char *getPluginNamespace() const override {
+    const char *getPluginNamespace() const TRT_NOEXCEPT override {
         return PLUGIN_NAMESPACE;
     }
-    const char *getPluginName() const override {
+    const char *getPluginName() const TRT_NOEXCEPT override {
         return PLUGIN_NAME;
     }
 
-    const char *getPluginVersion() const override {
+    const char *getPluginVersion() const TRT_NOEXCEPT override {
         return PLUGIN_VERSION;
     }
 
-    IPluginV2 *deserializePlugin(const char *name, const void *serialData, size_t serialLength) override {
+    IPluginV2 *deserializePlugin(const char *name, const void *serialData, size_t serialLength) TRT_NOEXCEPT override {
         return new BatchedNmsPlugin(serialData, serialLength);
     }
 
-    void setPluginNamespace(const char *N) override {}
-    const PluginFieldCollection *getFieldNames() override { return nullptr; }
-    IPluginV2 *createPlugin(const char *name, const PluginFieldCollection *fc) override { return nullptr; }
+    void setPluginNamespace(const char *N) TRT_NOEXCEPT override {}
+    const PluginFieldCollection *getFieldNames() TRT_NOEXCEPT override { return nullptr; }
+    IPluginV2 *createPlugin(const char *name, const PluginFieldCollection *fc) TRT_NOEXCEPT override { return nullptr; }
 };
 
 REGISTER_TENSORRT_PLUGIN(BatchedNmsPluginCreator);
 
@@ -1,11 +1,11 @@
-cmake_minimum_required(VERSION 2.6)
+cmake_minimum_required(VERSION 3.1)
 
 project(rcnn)
 
-add_definitions(-std=c++11)
+add_definitions(-std=c++14)
 
 option(CUDA_USE_STATIC_CUDA_RUNTIME OFF)
-set(CMAKE_CXX_STANDARD 11)
+set(CMAKE_CXX_STANDARD 14)
 set(CMAKE_BUILD_TYPE Debug)
 
 set(CUDA_NVCC_FLAGS ${CUDA_NVCC_FLAGS};--extended-lambda)
@@ -15,13 +15,13 @@ find_package(CUDA REQUIRED)
 include_directories(${PROJECT_SOURCE_DIR}/include)
 # include and link dirs of cuda and tensorrt, you need adapt them if yours are different
 # cuda
-include_directories(/usr/local/cuda-10.2/include)
-link_directories(/usr/local/cuda-10.2/lib64)
+include_directories(/usr/local/cuda/include)
+link_directories(/usr/local/cuda/lib64)
 # tensorrt
-include_directories(/home/jushi/TensorRT-7.2.1.6/include)
-link_directories(/home/jushi/TensorRT-7.2.1.6/lib)
+include_directories(/home/jushi/TensorRT-8.2.1.6/include)
+link_directories(/home/jushi/TensorRT-8.2.1.6/lib)
 
-set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11 -Wall -Ofast -Wfatal-errors -D_MWAITXINTRIN_H_INCLUDED")
+set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++14 -Wall -Ofast -Wfatal-errors -D_MWAITXINTRIN_H_INCLUDED")
 
 cuda_add_library(myplugins SHARED ${PROJECT_SOURCE_DIR}/BatchedNms.cu ${PROJECT_SOURCE_DIR}/PredictorDecode.cu ${PROJECT_SOURCE_DIR}/RoiAlign.cu ${PROJECT_SOURCE_DIR}/RpnDecode.cu ${PROJECT_SOURCE_DIR}/RpnNms.cu ${PROJECT_SOURCE_DIR}/MaskRcnnInference.cu)
 target_link_libraries(myplugins nvinfer cudart)
 
@@ -1,4 +1,5 @@
 #include "MaskRcnnInferencePlugin.h"
+#include "macros.h"
 
 namespace nvinfer1 {
 
@@ -31,7 +32,7 @@ __global__ void MaskRcnnInferenceKernel(
 }
 
 int maskRcnnInference(int batchSize,
-    const void *const *inputs, void **outputs,
+    const void *const *inputs, void *TRT_CONST_ENQUEUE*outputs,
     int detections_per_im, int output_size, int num_classes, cudaStream_t stream) {
 
     for (int batch = 0; batch < batchSize; batch++) {