Support GetNext Parallel

6 years ago · f8208c7c52
parent 27a88a6bc3
commit f8208c7c52
10 changed files with 304 additions and 223 deletions
--- a/mindspore/ccsrc/device/ascend/ascend_kernel_runtime.cc
+++ b/mindspore/ccsrc/device/ascend/ascend_kernel_runtime.cc
@ -283,18 +283,19 @@ bool AscendKernelRuntime::GenTask(const session::KernelGraph *graph) {

  AscendStreamAssign &assign_instance = AscendStreamAssign::GetInstance();
  // the streams' flag not HEAD_STREAM
-  std::vector<uint32_t> wait_active_stream_list = assign_instance.GetWaitStreams();
-  std::vector<uint32_t> force_copy_stream_list = assign_instance.GetHcomStreams();
+  std::vector<uint32_t> wait_active_stream_list;
+  assign_instance.GetWaitStreams(&wait_active_stream_list);
+  auto force_copy_stream_list = assign_instance.hcom_streams();

  MS_LOG(INFO) << "call DavinciModel total stream num:" << assign_instance.GetTotalStreamNum()
-               << ", total event num:" << assign_instance.GetTotalEventNum()
+               << ", total event num:" << assign_instance.total_event_num()
               << ", wait_active_stream_list size:" << wait_active_stream_list.size()
               << ", force_copy_stream_list size:" << force_copy_stream_list.size();

  std::vector<std::shared_ptr<ge::model_runner::OpInfo>> empty_list;
  std::shared_ptr<ge::model_runner::DavinciModel> model = std::make_shared<ge::model_runner::DavinciModel>(
    task_info_list, empty_list, empty_list, empty_list, empty_list, wait_active_stream_list, force_copy_stream_list, 0,
-    0, 0, 0, 0, 0, assign_instance.GetTotalStreamNum(), 1, assign_instance.GetTotalEventNum(), 0);
+    0, 0, 0, 0, 0, assign_instance.GetTotalStreamNum(), 1, assign_instance.total_event_num(), 0);

  auto ret = graph_model_map_.insert(std::make_pair(graph->graph_id(), model));
  if (!ret.second) {
--- a/mindspore/ccsrc/device/ascend/ascend_stream_assign.cc
+++ b/mindspore/ccsrc/device/ascend/ascend_stream_assign.cc
--- a/mindspore/ccsrc/device/ascend/ascend_stream_assign.h
+++ b/mindspore/ccsrc/device/ascend/ascend_stream_assign.h
@ -49,37 +49,35 @@ class AscendStreamAssign {

  uint32_t GetTotalStreamNum() const;
  // new stream policy
-  uint32_t GetTotalCommonStreamNum() const { return total_common_stream_num_; }
-  uint32_t GetTotalIndependStreamNum() const { return total_independ_stream_num_; }
-  uint32_t GetTotalEventNum() const { return total_event_num_; }
-  const uint32_t GetFisrtPhysicId() const { return first_physic_id_; }
-  const uint32_t GetFirstLogicId() const { return first_logic_id_; }
+  uint32_t total_common_stream_num() const { return total_common_stream_num_; }
+  uint32_t total_independ_stream_num() const { return total_independ_stream_num_; }
+  uint32_t total_event_num() const { return total_event_num_; }

  void InsertActiveNew(const std::shared_ptr<session::KernelGraph>& graph_ptr);
  void AssignAllNodesStream(const std::shared_ptr<session::KernelGraph>& graph_ptr);
  void ResetNew();
  void AssignStreamNew(const std::shared_ptr<session::KernelGraph>& graph_ptr);
  bool IsIndependentNode(const CNodePtr& node_ptr);
-  const std::unordered_map<uint32_t, uint32_t> GetIndependentMap() { return logic_to_independent_map_; }
-  const std::unordered_map<uint32_t, uint32_t> GetPhysicMap() { return logic_to_physic_map_; }
-  std::vector<uint32_t> GetWaitStreams();
-  std::vector<uint32_t> GetHcomStreams();
-
- private:
-  AscendStreamAssign() = default;
-  ~AscendStreamAssign() = default;
-
+  const std::unordered_map<uint32_t, uint32_t>& logic_to_independent_map() { return logic_to_independent_map_; }
+  const std::unordered_map<uint32_t, uint32_t>& logic_to_physic_map() { return logic_to_physic_map_; }
+  const std::vector<std::vector<uint32_t>>& inner_parallel_streams() { return inner_parallel_streams_; }
+  void GetWaitStreams(vector<uint32_t>* wait_active_stream_list);
+  const std::vector<uint32_t>& hcom_streams() { return hcom_stream_list_; }
  CNodePtr CreateSendApplyKernel(const std::shared_ptr<session::KernelGraph>& graph_ptr, uint32_t event_id,
                                 uint32_t stream_id);
  CNodePtr CreateRecvApplyKernel(const std::shared_ptr<session::KernelGraph>& graph_ptr, uint32_t event_id,
                                 uint32_t stream_id);

+ private:
+  AscendStreamAssign() = default;
+  ~AscendStreamAssign() = default;
+
  vector<CNodePtr>::iterator FindTargetOp(vector<CNodePtr>::iterator begin, vector<CNodePtr>::iterator end,
                                          const CNodePtr& node);

  bool IsHcom(const CNodePtr& apply_kernel);
  bool IsProcessed(uint32_t logic_id);
-  vector<uint32_t> TransLogicToPhysic(const vector<uint32_t>& logic_ids);
+  void TransLogicToPhysic(const vector<uint32_t>& logic_ids, vector<uint32_t>* physic_ids);
  void AssignCommonStreamId(const CNodePtr& cur_cnode_ptr, CNodePtr* pre_cnode_ptr, uint32_t* cur_index,
                            uint32_t* cur_stream_id);
  void RecordIdMap(uint32_t logic_id, uint32_t physic_id);
@ -88,15 +86,17 @@ class AscendStreamAssign {
  bool IsTaskSink();
  void AssignIndependentStreamId(const CNodePtr& cur_cnode_ptr, uint32_t deal_logic_id);
  void UpdateStreamId(const std::shared_ptr<session::KernelGraph>& graph_ptr);
+  void UpdateEventId(const std::shared_ptr<session::KernelGraph>& graph_ptr);
  void PrintGraphExeOrders(const std::shared_ptr<session::KernelGraph>& graph_ptr);
  void RecordFirstCommonOp(const CNodePtr& cur_cnode_ptr, uint32_t cur_node_logic_id, uint32_t cur_stream_id);
  uint32_t GetLogicId(const CNodePtr& cur_cnode_ptr);
  void SetCommonStreamNum(uint32_t cur_stream_id);
  void FindAllReduceParallel(const std::shared_ptr<session::KernelGraph>& graph_ptr);
  bool IsProcessedParallelStream(uint32_t stream_id);
-  vector<uint32_t> GetParallelStream(uint32_t cur_stream_id, uint32_t stream_acitve_id);
+  void GetParallelStream(uint32_t cur_stream_id, uint32_t stream_acitve_id, std::vector<uint32_t>* parallel_streams);
  void InsertSendRecvForIndependent(const std::shared_ptr<session::KernelGraph>& graph_ptr);
  void InsertSendRecvForHcomParallel(const std::shared_ptr<session::KernelGraph>& graph_ptr);
+  void GetNeedActiveStreams(const std::shared_ptr<session::KernelGraph>& graph_ptr);

  uint32_t total_common_stream_num_{0};
  uint32_t total_independ_stream_num_{0};
@ -112,6 +112,7 @@ class AscendStreamAssign {
  std::vector<std::vector<uint32_t>> inner_parallel_streams_{};
  std::vector<uint32_t> processed_parallel_streams_{};
  std::vector<uint32_t> hcom_stream_list_{};
+  std::vector<uint32_t> need_first_active_streams_{};
  // new policy end
 };
 }  // namespace ascend
--- a/mindspore/ccsrc/device/kernel_adjust.cc
+++ b/mindspore/ccsrc/device/kernel_adjust.cc
--- a/mindspore/ccsrc/device/kernel_adjust.h
+++ b/mindspore/ccsrc/device/kernel_adjust.h
@ -28,10 +28,22 @@
 #include "session/session_context.h"
 #include "ir/meta_tensor.h"
 #include "device/ascend/profiling/profiling_utils.h"
+#include "device/kernel_info.h"

 using mindspore::device::ascend::ProfilingTraceInfo;
 using mindspore::device::ascend::ProfilingUtils;
 namespace mindspore {
+constexpr auto kLoopCountParamName = "loop_count";
+constexpr auto kIterLoopParamName = "iter_loop";
+constexpr auto kZeroParamName = "zero";
+constexpr auto kOneParamName = "one";
+constexpr auto kStreamNeedActivedFirst = "stream_need_active_first";
+
+const uint32_t kFirstStreamSwitchLabel = kInvalidDistincLabel - 1;
+const uint32_t kGetNextLabel = kInvalidDistincLabel - 2;
+const uint32_t kSecondStreamSwitchLabel = kInvalidDistincLabel - 3;
+const uint32_t kInvalidEventId = UINT32_MAX;
+const uint32_t kFirstEventId = kInvalidEventId / 2;
 namespace device {
 class KernelAdjust {
 public:
@ -41,26 +53,23 @@ class KernelAdjust {
  }
  void Reorder(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);
  void InsertSwitchLoop(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);
-  void SetStreamActiveOPs(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr,
-                          const std::unordered_set<uint32_t> &ctrl_stream_list,
-                          const std::unordered_set<uint32_t> &comm_stream_list,
-                          const std::unordered_set<uint32_t> &momentum_stream_list);
-  void SetStreamSwitchOps(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);
  bool StepLoadCtrlInputs(const std::shared_ptr<session::Context> &context,
                          const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);
  void Profiling(NotNull<session::KernelGraph *> kernel_graph_ptr);
  static bool NeedInsertSwitch();
-  CNodePtr CreateSteamActiveOp(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);
+  CNodePtr CreateStreamActiveOp(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);

 private:
  KernelAdjust() = default;
  ~KernelAdjust() = default;
+
+  CNodePtr CreateRecvApplyKernel(const std::shared_ptr<session::KernelGraph> &graph_ptr, uint32_t event_id);
+  CNodePtr CreateSendApplyKernel(const std::shared_ptr<session::KernelGraph> &graph_ptr, uint32_t event_id);
+  uint32_t FindFirstStreamSwitchLabel(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);
  void CreateSwitchOpParameters(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr,
                                std::map<std::string, mindspore::ParameterPtr> *switch_loop_input);
  CNodePtr CreateStreamSwitchOp(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr,
                                const std::map<std::string, mindspore::ParameterPtr> &switch_loop_input);
-  CNodePtr CreateStreamActiveSwitchOp(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);
-  CNodePtr CreateStreamActiveOtherOp(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr);
  CNodePtr CreateStreamAssignAddnOP(const std::shared_ptr<session::KernelGraph> &kernel_graph_ptr,
                                    const std::map<std::string, mindspore::ParameterPtr> &switch_loop_input);
  kernel::KernelBuildInfo::KernelBuildInfoBuilder CreateMngKernelBuilder(const std::vector<std::string> &formats,
--- a/mindspore/ccsrc/pre_activate/ascend/ascend_backend_optimization.cc
+++ b/mindspore/ccsrc/pre_activate/ascend/ascend_backend_optimization.cc
@ -62,6 +62,7 @@
 #include "pre_activate/ascend/format_type/insert_transdata_for_runop.h"
 #include "pre_activate/ascend/enhancer/getnext_memcpy_elimination.h"
 #include "pre_activate/ascend/ir_fission/addn_fission.h"
+#include "pre_activate/ascend/enhancer/insert_memcpy_async_for_getnext.h"
 #include "utils/context/ms_context.h"
 #include "utils/config_manager.h"
 #include "debug/anf_ir_dump.h"
@ -187,6 +188,12 @@ void AscendBackendIRFusionOptimization(const std::shared_ptr<session::KernelGrap
    ir_fusion_pm->AddPass(std::make_shared<GetitemTuple>());
    ir_fusion_pm->AddPass(std::make_shared<TransposeTransDataFusion>());
  }
+
+  if (context_ptr->enable_task_sink() && context_ptr->loop_sink_flag() && ConfigManager::GetInstance().iter_num() > 1) {
+    ir_fusion_pm->AddPass(std::make_shared<InsertMemcpyAsyncForGetNext>());
+    ir_fusion_pm->AddPass(std::make_shared<GetitemTuple>());
+    ir_fusion_pm->AddPass(std::make_shared<EraseVisitAttr>());
+  }
  optimizer->AddPassManager(ir_fusion_pm);
  (void)optimizer->Optimize(kernel_graph);
  kernel_graph->SetExecOrderByDefault();
--- a/mindspore/ccsrc/pre_activate/mem_reuse/stream_reuse.cc
+++ b/mindspore/ccsrc/pre_activate/mem_reuse/stream_reuse.cc
@ -20,8 +20,8 @@ namespace mindspore {
 namespace memreuse {
 void StreamReuse::SetStreamReuseResource() {
 #ifdef ENABLE_D
-  auto logic_physic_map = device::ascend::AscendStreamAssign::GetInstance().GetPhysicMap();
-  auto logic_independent_map = device::ascend::AscendStreamAssign::GetInstance().GetIndependentMap();
+  auto logic_physic_map = device::ascend::AscendStreamAssign::GetInstance().logic_to_physic_map();
+  auto logic_independent_map = device::ascend::AscendStreamAssign::GetInstance().logic_to_independent_map();
  MS_LOG(INFO) << "stream mem reuse for Davici";
  if (!logic_independent_map.empty() && !logic_physic_map.empty()) {
    set_logic_physic_map(logic_physic_map);
--- a/mindspore/ccsrc/session/ascend_session.cc
+++ b/mindspore/ccsrc/session/ascend_session.cc
@ -610,7 +610,7 @@ void AscendSession::CopyOutputOfIf(GraphId false_graph_id) {
      if (context_ptr->enable_task_sink() && context_ptr->loop_sink_flag() &&
          ConfigManager::GetInstance().iter_num() > 1) {
        // insert active in true graph, another active will be inserted in kernel adjust
-        InsertStreamActiveToGraph(true_last_id, kInvalidDistincLabel - 1);
+        InsertStreamActiveToGraph(true_last_id, kSecondStreamSwitchLabel);
      }
      break;
    }
--- a/mindspore/ccsrc/utils/utils.h
+++ b/mindspore/ccsrc/utils/utils.h
@ -114,6 +114,9 @@ constexpr auto kFusedMulAddNOpName = "FusedMulAddN";
 constexpr auto kFusedMulApplyMomentumOpName = "FusedMulApplyMomentum";
 constexpr auto kBiasAddOpName = "BiasAdd";
 constexpr auto kConfusionMulGradOpName = "ConfusionMulGrad";
+constexpr auto kStreamSwitchOpName = "StreamSwitch";
+constexpr auto kStreamActiveOpName = "StreamActive";
+constexpr auto kAssignAddOpName = "AssignAdd";
 constexpr auto kSendOpName = "Send";
 constexpr auto kRecvOpName = "Recv";
 constexpr auto kReluV2OpName = "ReluV2";
--- a/tests/ut/cpp/stub/tasksink/ascend_stream_assign_stub.cc
+++ b/tests/ut/cpp/stub/tasksink/ascend_stream_assign_stub.cc
@ -24,9 +24,7 @@ void AscendStreamAssign::AssignStreamNew(const KernelGraphPtr &graph) { return;

 uint32_t AscendStreamAssign::GetTotalStreamNum() const { return 1; }

-std::vector<uint32_t> AscendStreamAssign::GetWaitStreams() { return vector<uint32_t>(); }
-
-std::vector<uint32_t> AscendStreamAssign::GetHcomStreams() { return vector<uint32_t>(); }
+void AscendStreamAssign::GetWaitStreams(vector<uint32_t> *wait_active_stream_list) { return; }

 namespace tasksink {
 bool TaskGenerator::GenTasks(const std::vector<CNodePtr> &anf_node_list, std::vector<TaskInfoPtr> *const task_info_list,