Paddle/paddle/fluid/operators/detail/sendrecvop_utils.cc

/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License. */

#include "paddle/fluid/operators/detail/sendrecvop_utils.h"

#ifdef PADDLE_WITH_CUDA
#include <nccl.h>
#endif
#include <sys/time.h>
#include <thread>  // NOLINT

#include "google/protobuf/io/coded_stream.h"
#include "google/protobuf/io/zero_copy_stream.h"
#include "paddle/fluid/framework/data_type.h"
#include "paddle/fluid/operators/detail/bytebuffer_stream.h"
#include "paddle/fluid/operators/detail/proto_encoder_helper.h"
#include "paddle/fluid/operators/detail/variable_response.h"
#include "paddle/fluid/platform/profiler.h"

namespace paddle {
namespace operators {
namespace detail {

using VarMsg = sendrecv::VariableMessage;

void GetTensorPayload(framework::Variable* var,
                      const platform::DeviceContext& ctx, VarMsg* request,
                      void** payload, size_t* payload_size) {
  auto tensor = var->Get<framework::LoDTensor>();
  // FIXME(wuyi): data types in send_recv.proto is copied from
  // framework.proto
  request->set_data_type(
      static_cast<VarMsg::Type>(framework::ToDataType(tensor.type())));
  for (auto& dim : framework::vectorize(tensor.dims())) {
    request->add_dims(dim);
  }
  const framework::LoD lod = tensor.lod();
  if (lod.size() > 0) {
    request->set_lod_level(lod.size());
    for (auto& each : lod) {
      VarMsg::LodData* lod_inner = request->add_lod();
      for (auto& d : each) {
        lod_inner->add_lod_data(d);
      }
    }
  }
  if (platform::is_gpu_place(ctx.GetPlace())) {
#ifdef PADDLE_WITH_CUDA
    PADDLE_ENFORCE(platform::is_gpu_place(tensor.place()));
    platform::CUDAPinnedPlace cuda_pinned;
    auto& gpu_dev_ctx = static_cast<const platform::CUDADeviceContext&>(ctx);
    auto copy_size = tensor.numel() * framework::SizeOfType(tensor.type());
    *payload = memory::Alloc(cuda_pinned, copy_size);

    memory::Copy(cuda_pinned, *payload,
                 boost::get<platform::CUDAPlace>(tensor.place()),
                 reinterpret_cast<const void*>(tensor.data<void>()), copy_size,
                 gpu_dev_ctx.stream());
    ctx.Wait();
#endif
  } else {
    *payload = tensor.data<void>();
  }
  *payload_size = tensor.numel() * framework::SizeOfType(tensor.type());
}

void GetSelectedRowsPayload(framework::Variable* var,
                            const platform::DeviceContext& ctx, VarMsg* request,
                            void** payload, size_t* payload_size) {
  auto* slr = var->GetMutable<framework::SelectedRows>();
  request->set_data_type(
      static_cast<VarMsg::Type>(framework::ToDataType(slr->value().type())));
  request->set_lod_level(0);
  request->set_slr_height(slr->height());

  for (auto& dim : framework::vectorize(slr->value().dims())) {
    request->add_dims(dim);
  }

  auto* tensor = slr->mutable_value();
  if (platform::is_gpu_place(ctx.GetPlace())) {
#ifdef PADDLE_WITH_CUDA
    platform::CUDAPinnedPlace cuda_pinned;
    auto& gpu_dev_ctx = static_cast<const platform::CUDADeviceContext&>(ctx);
    auto copy_size = tensor->numel() * framework::SizeOfType(tensor->type());
    *payload = memory::Alloc(cuda_pinned, copy_size);
    memory::Copy(cuda_pinned, *payload,
                 boost::get<platform::CUDAPlace>(tensor->place()),
                 reinterpret_cast<const void*>(tensor->data<void>()), copy_size,
                 gpu_dev_ctx.stream());
    ctx.Wait();
#endif
  } else {
    *payload = slr->mutable_value()->data<void>();
  }
  *payload_size = tensor->numel() * framework::SizeOfType(tensor->type());
}

void SerializeToByteBuffer(const std::string& name, framework::Variable* var,
                           const platform::DeviceContext& ctx,
                           ::grpc::ByteBuffer* msg,
                           const std::string& out_name) {
  // Default DestroyCallback does nothing, When using GPU
  // the CPU buffer need to be freed.
  DestroyCallback destroy_callback = [](void* backing) {};
  VarMsg request;
  void* payload = nullptr;
  size_t payload_size;

  request.set_varname(name);
  // Note: normally the profiler is enabled in 1 trainer, hence only
  // 1 trainer returns true for ShouldSendProfileState(). It tells PS
  // servers the trainer's profiling state so that PS can follow the
  // trainer.
  if (platform::ShouldSendProfileState()) {
    if (platform::IsProfileEnabled()) {
      request.set_profile(platform::kEnableProfiler);
    } else {
      request.set_profile(platform::kDisableProfiler);
    }
  }
  if (!out_name.empty()) {
    request.set_out_varname(out_name);
  }
  if (var->IsType<framework::LoDTensor>()) {
    request.set_type(::sendrecv::LOD_TENSOR);
    GetTensorPayload(var, ctx, &request, &payload, &payload_size);
  } else if (var->IsType<framework::SelectedRows>()) {
    request.set_type(::sendrecv::SELECTED_ROWS);
    GetSelectedRowsPayload(var, ctx, &request, &payload, &payload_size);
#ifdef PADDLE_WITH_CUDA
  } else if (var->IsType<ncclUniqueId>()) {
    request.set_type(::sendrecv::NCCL_ID);
#endif
  } else {
    PADDLE_THROW("Serialize does not support type: %s",
                 typeid(var->Type()).name());
  }

  if (platform::is_gpu_place(ctx.GetPlace())) {
#ifdef PADDLE_WITH_CUDA
    // GPU data is copied to CPU buffer when sending,
    // free the buffer when possible.
    destroy_callback = [](void* backing) {
      platform::CUDAPinnedPlace cuda_pinned;
      memory::Free(cuda_pinned, backing);
    };
#endif
  }

  std::string header;
  request.AppendToString(&header);
  auto buffer = std::unique_ptr<char[]>(new char[1024]);
  void* buf = buffer.get();
  ProtoEncodeHelper e(static_cast<char*>(buf), 1024);
  e.WriteRawBytes(std::string(header.data(), header.size()));
// NCCLID is copied directly to the message, return bytebuffer
// with only one slice if serializing NCCLID.
#ifdef PADDLE_WITH_CUDA
  if (var->IsType<ncclUniqueId>()) {
    e.WriteVarlengthBeginning(VarMsg::kSerializedFieldNumber,
                              NCCL_UNIQUE_ID_BYTES);
    const ncclUniqueId& uid = var->Get<ncclUniqueId>();
    e.WriteRawBytes(std::string(uid.internal, NCCL_UNIQUE_ID_BYTES));

    // for serialize NCCL_ID
    ::grpc::Slice slices(e.size());
    memcpy(const_cast<uint8_t*>(slices.begin()), e.data(), e.size());
    ::grpc::ByteBuffer tmp(&slices, 1);
    msg->Swap(&tmp);
    return;
  }
#endif

  e.WriteVarlengthBeginning(VarMsg::kSerializedFieldNumber, payload_size);
  // steal reference of tensor data
  ::grpc::Slice slices[4];  // metadata, tensor, rows meta, rows
  int num_slices = 2;       // only SelectedRows have rows buffer
  slices[0] = ::grpc::Slice(e.size());
  memcpy(const_cast<uint8_t*>(slices[0].begin()), e.data(), e.size());
  slices[1] = ::grpc::Slice(
      grpc_slice_new_with_user_data(payload, payload_size, destroy_callback,
                                    static_cast<char*>(payload)),
      ::grpc::Slice::STEAL_REF);

  if (var->IsType<framework::SelectedRows>()) {
    auto* slr = var->GetMutable<framework::SelectedRows>();
    ProtoEncodeHelper e2(static_cast<char*>(buf), 128);
    size_t rows_memory_size =
        slr->rows().size() * framework::SizeOfType(typeid(int64_t));
    e2.WriteVarlengthBeginning(VarMsg::kRowsFieldNumber, rows_memory_size);
    slices[2] = ::grpc::Slice(e2.size());
    memcpy(const_cast<uint8_t*>(slices[2].begin()), e2.data(), e2.size());

    slices[3] = ::grpc::Slice(
        grpc_slice_new_with_user_data(
            const_cast<void*>(
                reinterpret_cast<const void*>(slr->rows().data())),
            rows_memory_size, [](void* backing) {},
            const_cast<char*>(
                reinterpret_cast<const char*>(slr->rows().data()))),
        ::grpc::Slice::STEAL_REF);
    num_slices = 4;
  }

  ::grpc::ByteBuffer tmp(&slices[0], num_slices);
  msg->Swap(&tmp);
}

void DeserializeFromByteBuffer(const ::grpc::ByteBuffer& msg,
                               const platform::DeviceContext& ctx,
                               const framework::Scope* scope,
                               framework::Variable** var) {
  operators::detail::VariableResponse resp(scope, &ctx);
  PADDLE_ENFORCE(resp.Parse(msg) == 0, "parse bytebuffer to tensor error!");
  *var = resp.GetVar();
}

}  // namespace detail
}  // namespace operators
}  // namespace paddle
Fix the grammar in copyright. (#8403) 7 years ago			`/* Copyright (c) 2016 PaddlePaddle Authors. All Rights Reserved.`
Async GRPC sendrecv (#7133) Async GRPC sendrecv 7 years ago
			`Licensed under the Apache License, Version 2.0 (the "License");`
			`you may not use this file except in compliance with the License.`
			`You may obtain a copy of the License at`

			`http://www.apache.org/licenses/LICENSE-2.0`

			`Unless required by applicable law or agreed to in writing, software`
			`distributed under the License is distributed on an "AS IS" BASIS,`
			`WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.`
			`See the License for the specific language governing permissions and`
			`limitations under the License. */`

Correct #include path 7 years ago			`#include "paddle/fluid/operators/detail/sendrecvop_utils.h"`
Fix cpplint errors 7 years ago
fix build 7 years ago			`#ifdef PADDLE_WITH_CUDA`
fix ci 7 years ago			`#include <nccl.h>`
fix build 7 years ago			`#endif`
Reuduce memory copy when communication between trainer and pserver. (#9271) 7 years ago			`#include <sys/time.h>`
Fix cpplint errors 7 years ago			`#include <thread> // NOLINT`

Performance/zero copy variable seriralization (#8839) 7 years ago			`#include "google/protobuf/io/coded_stream.h"`
			`#include "google/protobuf/io/zero_copy_stream.h"`
			`#include "paddle/fluid/framework/data_type.h"`
			`#include "paddle/fluid/operators/detail/bytebuffer_stream.h"`
			`#include "paddle/fluid/operators/detail/proto_encoder_helper.h"`
Reuduce memory copy when communication between trainer and pserver. (#9271) 7 years ago			`#include "paddle/fluid/operators/detail/variable_response.h"`
Add timeline support for distributed training 7 years ago			`#include "paddle/fluid/platform/profiler.h"`
Async GRPC sendrecv (#7133) Async GRPC sendrecv 7 years ago
			`namespace paddle {`
			`namespace operators {`
			`namespace detail {`

refine serde code 7 years ago			`using VarMsg = sendrecv::VariableMessage;`

			`void GetTensorPayload(framework::Variable* var,`
			`const platform::DeviceContext& ctx, VarMsg* request,`
			`void** payload, size_t* payload_size) {`
			`auto tensor = var->Get<framework::LoDTensor>();`
cast data type 7 years ago			`// FIXME(wuyi): data types in send_recv.proto is copied from`
refine serde code 7 years ago			`// framework.proto`
cast data type 7 years ago			`request->set_data_type(`
			`static_cast<VarMsg::Type>(framework::ToDataType(tensor.type())));`
refine serde code 7 years ago			`for (auto& dim : framework::vectorize(tensor.dims())) {`
			`request->add_dims(dim);`
			`}`
			`const framework::LoD lod = tensor.lod();`
			`if (lod.size() > 0) {`
			`request->set_lod_level(lod.size());`
			`for (auto& each : lod) {`
			`VarMsg::LodData* lod_inner = request->add_lod();`
			`for (auto& d : each) {`
			`lod_inner->add_lod_data(d);`
			`}`
			`}`
			`}`
			`if (platform::is_gpu_place(ctx.GetPlace())) {`
			`#ifdef PADDLE_WITH_CUDA`
			`PADDLE_ENFORCE(platform::is_gpu_place(tensor.place()));`
send use pinned memory 7 years ago			`platform::CUDAPinnedPlace cuda_pinned;`
refine serde code 7 years ago			`auto& gpu_dev_ctx = static_cast<const platform::CUDADeviceContext&>(ctx);`
			`auto copy_size = tensor.numel() * framework::SizeOfType(tensor.type());`
send use pinned memory 7 years ago			`*payload = memory::Alloc(cuda_pinned, copy_size);`
refine serde code 7 years ago
send use pinned memory 7 years ago			`memory::Copy(cuda_pinned, *payload,`
			`boost::get<platform::CUDAPlace>(tensor.place()),`
refine serde code 7 years ago			`reinterpret_cast<const void*>(tensor.data<void>()), copy_size,`
			`gpu_dev_ctx.stream());`
			`ctx.Wait();`
			`#endif`
			`} else {`
			`*payload = tensor.data<void>();`
			`}`
			`payload_size = tensor.numel() framework::SizeOfType(tensor.type());`
			`}`

			`void GetSelectedRowsPayload(framework::Variable* var,`
			`const platform::DeviceContext& ctx, VarMsg* request,`
			`void** payload, size_t* payload_size) {`
			`auto* slr = var->GetMutable<framework::SelectedRows>();`
cast data type 7 years ago			`request->set_data_type(`
			`static_cast<VarMsg::Type>(framework::ToDataType(slr->value().type())));`
refine serde code 7 years ago			`request->set_lod_level(0);`
			`request->set_slr_height(slr->height());`

			`for (auto& dim : framework::vectorize(slr->value().dims())) {`
			`request->add_dims(dim);`
			`}`

			`auto* tensor = slr->mutable_value();`
			`if (platform::is_gpu_place(ctx.GetPlace())) {`
			`#ifdef PADDLE_WITH_CUDA`
send use pinned memory 7 years ago			`platform::CUDAPinnedPlace cuda_pinned;`
refine serde code 7 years ago			`auto& gpu_dev_ctx = static_cast<const platform::CUDADeviceContext&>(ctx);`
			`auto copy_size = tensor->numel() * framework::SizeOfType(tensor->type());`
send use pinned memory 7 years ago			`*payload = memory::Alloc(cuda_pinned, copy_size);`
			`memory::Copy(cuda_pinned, *payload,`
refine serde code 7 years ago			`boost::get<platform::CUDAPlace>(tensor->place()),`
			`reinterpret_cast<const void*>(tensor->data<void>()), copy_size,`
			`gpu_dev_ctx.stream());`
			`ctx.Wait();`
			`#endif`
			`} else {`
			`*payload = slr->mutable_value()->data<void>();`
			`}`
			`payload_size = tensor->numel() framework::SizeOfType(tensor->type());`
			`}`

Performance/zero copy variable seriralization (#8839) 7 years ago			`void SerializeToByteBuffer(const std::string& name, framework::Variable* var,`
			`const platform::DeviceContext& ctx,`
run prefetch prog on server 7 years ago			`::grpc::ByteBuffer* msg,`
			`const std::string& out_name) {`
refine serde code 7 years ago			`// Default DestroyCallback does nothing, When using GPU`
			`// the CPU buffer need to be freed.`
Performance/zero copy variable seriralization (#8839) 7 years ago			`DestroyCallback destroy_callback = [](void* backing) {};`
refine serde code 7 years ago			`VarMsg request;`
Fix dist compile error (#8987) 7 years ago			`void* payload = nullptr;`
Performance/zero copy variable seriralization (#8839) 7 years ago			`size_t payload_size;`
refine serde code 7 years ago
			`request.set_varname(name);`
Add timeline support for distributed training 7 years ago			`// Note: normally the profiler is enabled in 1 trainer, hence only`
			`// 1 trainer returns true for ShouldSendProfileState(). It tells PS`
			`// servers the trainer's profiling state so that PS can follow the`
			`// trainer.`
multi-thread handlerequest Experiment on vgg flower, 2 trainers, 1ps. more trainer could have more speedup. After: Pass = 0, Iters = 327, Speed = (7.52) img/s Before: Pass = 0, Iters = 385, Speed = (6.77) img/s 7 years ago			`if (platform::ShouldSendProfileState()) {`
			`if (platform::IsProfileEnabled()) {`
follow comments 7 years ago			`request.set_profile(platform::kEnableProfiler);`
multi-thread handlerequest Experiment on vgg flower, 2 trainers, 1ps. more trainer could have more speedup. After: Pass = 0, Iters = 327, Speed = (7.52) img/s Before: Pass = 0, Iters = 385, Speed = (6.77) img/s 7 years ago			`} else {`
follow comments 7 years ago			`request.set_profile(platform::kDisableProfiler);`
multi-thread handlerequest Experiment on vgg flower, 2 trainers, 1ps. more trainer could have more speedup. After: Pass = 0, Iters = 327, Speed = (7.52) img/s Before: Pass = 0, Iters = 385, Speed = (6.77) img/s 7 years ago			`}`
			`}`
refine serde code 7 years ago			`if (!out_name.empty()) {`
			`request.set_out_varname(out_name);`
Add timeline support for distributed training 7 years ago			`}`
Performance/zero copy variable seriralization (#8839) 7 years ago			`if (var->IsType<framework::LoDTensor>()) {`
refine serde code 7 years ago			`request.set_type(::sendrecv::LOD_TENSOR);`
			`GetTensorPayload(var, ctx, &request, &payload, &payload_size);`
Performance/zero copy variable seriralization (#8839) 7 years ago			`} else if (var->IsType<framework::SelectedRows>()) {`
refine serde code 7 years ago			`request.set_type(::sendrecv::SELECTED_ROWS);`
			`GetSelectedRowsPayload(var, ctx, &request, &payload, &payload_size);`
fix build 7 years ago			`#ifdef PADDLE_WITH_CUDA`
complete code 7 years ago			`} else if (var->IsType<ncclUniqueId>()) {`
Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into gen_nccl_id_op 7 years ago			`request.set_type(::sendrecv::NCCL_ID);`
fix build 7 years ago			`#endif`
refine serde code 7 years ago			`} else {`
			`PADDLE_THROW("Serialize does not support type: %s",`
			`typeid(var->Type()).name());`
Performance/zero copy variable seriralization (#8839) 7 years ago			`}`

refine serde code 7 years ago			`if (platform::is_gpu_place(ctx.GetPlace())) {`
fix build error with testing and gpu on (#10932) 7 years ago			`#ifdef PADDLE_WITH_CUDA`
refine serde code 7 years ago			`// GPU data is copied to CPU buffer when sending,`
			`// free the buffer when possible.`
			`destroy_callback = [](void* backing) {`
send use pinned memory 7 years ago			`platform::CUDAPinnedPlace cuda_pinned;`
			`memory::Free(cuda_pinned, backing);`
refine serde code 7 years ago			`};`
fix build error with testing and gpu on (#10932) 7 years ago			`#endif`
run prefetch prog on server 7 years ago			`}`
Reuduce memory copy when communication between trainer and pserver. (#9271) 7 years ago
refine serde code 7 years ago			`std::string header;`
			`request.AppendToString(&header);`
			`auto buffer = std::unique_ptr<char[]>(new char[1024]);`
			`void* buf = buffer.get();`
			`ProtoEncodeHelper e(static_cast<char*>(buf), 1024);`
			`e.WriteRawBytes(std::string(header.data(), header.size()));`
Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into gen_nccl_id_op 7 years ago			`// NCCLID is copied directly to the message, return bytebuffer`
			`// with only one slice if serializing NCCLID.`
fix build 7 years ago			`#ifdef PADDLE_WITH_CUDA`
Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into gen_nccl_id_op 7 years ago			`if (var->IsType<ncclUniqueId>()) {`
fix testing 7 years ago			`e.WriteVarlengthBeginning(VarMsg::kSerializedFieldNumber,`
			`NCCL_UNIQUE_ID_BYTES);`
update 7 years ago			`const ncclUniqueId& uid = var->Get<ncclUniqueId>();`
follow comments 7 years ago			`e.WriteRawBytes(std::string(uid.internal, NCCL_UNIQUE_ID_BYTES));`
Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into gen_nccl_id_op 7 years ago
complete code 7 years ago			`// for serialize NCCL_ID`
			`::grpc::Slice slices(e.size());`
			`memcpy(const_cast<uint8_t*>(slices.begin()), e.data(), e.size());`
			`::grpc::ByteBuffer tmp(&slices, 1);`
			`msg->Swap(&tmp);`
			`return;`
			`}`
fix build 7 years ago			`#endif`
Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into gen_nccl_id_op 7 years ago
refine serde code 7 years ago			`e.WriteVarlengthBeginning(VarMsg::kSerializedFieldNumber, payload_size);`
Performance/zero copy variable seriralization (#8839) 7 years ago			`// steal reference of tensor data`
			`::grpc::Slice slices[4]; // metadata, tensor, rows meta, rows`
			`int num_slices = 2; // only SelectedRows have rows buffer`
			`slices[0] = ::grpc::Slice(e.size());`
			`memcpy(const_cast<uint8_t*>(slices[0].begin()), e.data(), e.size());`
			`slices[1] = ::grpc::Slice(`
			`grpc_slice_new_with_user_data(payload, payload_size, destroy_callback,`
			`static_cast<char*>(payload)),`
			`::grpc::Slice::STEAL_REF);`

refine serde code 7 years ago			`if (var->IsType<framework::SelectedRows>()) {`
Performance/zero copy variable seriralization (#8839) 7 years ago			`auto* slr = var->GetMutable<framework::SelectedRows>();`
Fix cpplint errors 7 years ago			`ProtoEncodeHelper e2(static_cast<char*>(buf), 128);`
Performance/zero copy variable seriralization (#8839) 7 years ago			`size_t rows_memory_size =`
fix sparse errors 7 years ago			`slr->rows().size() * framework::SizeOfType(typeid(int64_t));`
Performance/zero copy variable seriralization (#8839) 7 years ago			`e2.WriteVarlengthBeginning(VarMsg::kRowsFieldNumber, rows_memory_size);`
			`slices[2] = ::grpc::Slice(e2.size());`
			`memcpy(const_cast<uint8_t*>(slices[2].begin()), e2.data(), e2.size());`

			`slices[3] = ::grpc::Slice(`
			`grpc_slice_new_with_user_data(`
			`const_cast<void*>(`
			`reinterpret_cast<const void*>(slr->rows().data())),`
refine serde code 7 years ago			`rows_memory_size, [](void* backing) {},`
Performance/zero copy variable seriralization (#8839) 7 years ago			`const_cast<char*>(`
			`reinterpret_cast<const char*>(slr->rows().data()))),`
			`::grpc::Slice::STEAL_REF);`
			`num_slices = 4;`
			`}`

			`::grpc::ByteBuffer tmp(&slices[0], num_slices);`
			`msg->Swap(&tmp);`
			`}`

			`void DeserializeFromByteBuffer(const ::grpc::ByteBuffer& msg,`
			`const platform::DeviceContext& ctx,`
Reuduce memory copy when communication between trainer and pserver. (#9271) 7 years ago			`const framework::Scope* scope,`
Fix cpplint errors 7 years ago			`framework::Variable** var) {`
Create sub socpe when it is necessary 7 years ago			`operators::detail::VariableResponse resp(scope, &ctx);`
Reuduce memory copy when communication between trainer and pserver. (#9271) 7 years ago			`PADDLE_ENFORCE(resp.Parse(msg) == 0, "parse bytebuffer to tensor error!");`
Fix cpplint errors 7 years ago			`*var = resp.GetVar();`
Performance/zero copy variable seriralization (#8839) 7 years ago			`}`

Async GRPC sendrecv (#7133) Async GRPC sendrecv 7 years ago			`} // namespace detail`
			`} // namespace operators`
Fix dist compile error (#8987) 7 years ago			`} // namespace paddle`