Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into improve_pruning

8 years ago · 561c4562cf
parent fdde4eff0d 08d0b1d9ac
commit 561c4562cf
25 changed files with 837 additions and 156 deletions
--- a/.travis.yml
+++ b/.travis.yml
@ -1,3 +1,4 @@
 group: deprecated-2017Q2
 language: cpp
 cache:
  directories:
--- a/doc/api/v2/config/evaluators.rst
+++ b/doc/api/v2/config/evaluators.rst
@ -99,3 +99,12 @@ value_printer
 ..  automodule:: paddle.v2.evaluator
    :members:  value_printer
    :noindex:
 Detection
 =====
 detection_map
 -------------
 ..  automodule:: paddle.v2.evaluator
    :members:  detection_map
    :noindex:
--- a/go/cmd/pserver/pserver.go
+++ b/go/cmd/pserver/pserver.go
@ -5,18 +5,35 @@ import (
 	"net/http"
 	"net/rpc"
 	"strconv"
 	"time"
 	"github.com/namsral/flag"
 	"github.com/PaddlePaddle/Paddle/go/pserver"
 	log "github.com/sirupsen/logrus"
 )
 func main() {
 	port := flag.Int("port", 0, "port of the pserver")
 	etcdEndpoint := flag.String("etcd-endpoint", "http://127.0.0.1:2379",
 		"comma separated endpoint string for pserver to connect to etcd")
 	etcdTimeout := flag.Int("etcd-timeout", 5, "timeout for etcd calls")
 	logLevel := flag.String("log-level", "info",
 		"log level, possible values: debug, info, warning, error, fatal, panic")
 	flag.Parse()
-	s := pserver.NewService()
+	level, err := log.ParseLevel(*logLevel)
-	err := rpc.Register(s)
+	if err != nil {
 		panic(err)
 	}
 	log.SetLevel(level)
 	timeout := time.Second * time.Duration((*etcdTimeout))
 	s, err := pserver.NewService(*etcdEndpoint, timeout)
 	if err != nil {
 		panic(err)
 	}
 	err = rpc.Register(s)
 	if err != nil {
 		panic(err)
 	}
@ -27,7 +44,9 @@ func main() {
 		panic(err)
 	}
 	log.Infof("start pserver at port %d", *port)
 	err = http.Serve(l, nil)
 	if err != nil {
 		panic(err)
 	}
--- a/go/pserver/client_test.go
+++ b/go/pserver/client_test.go
@ -7,6 +7,7 @@ import (
 	"strconv"
 	"strings"
 	"testing"
 	"time"
 	"github.com/PaddlePaddle/Paddle/go/pserver"
 )
@ -30,9 +31,12 @@ func init() {
 		port[i] = p
 		go func(l net.Listener) {
-			s := pserver.NewService()
+			s, err := pserver.NewService("", time.Second*5)
 			if err != nil {
 				panic(err)
 			}
 			server := rpc.NewServer()
-			err := server.Register(s)
+			err = server.Register(s)
 			if err != nil {
 				panic(err)
 			}
--- a/go/pserver/service.go
+++ b/go/pserver/service.go
@ -1,9 +1,18 @@
 package pserver
 import (
 	"context"
 	"errors"
 	"fmt"
 	"strconv"
 	"strings"
 	"sync"
 	"time"
 	"github.com/PaddlePaddle/Paddle/go/utils/networkhelper"
 	"github.com/coreos/etcd/clientv3"
 	"github.com/coreos/etcd/clientv3/concurrency"
 	log "github.com/sirupsen/logrus"
 )
 // ElementType is the type of elements of a Parameter.
@ -24,6 +33,9 @@ const (
 	Float64
 )
 // PsDesired is etcd path for store desired pserver count
 const PsDesired = "/ps_desired"
 // Parameter is a piece of data to sync with the parameter server.
 type Parameter struct {
 	Name        string
@ -47,14 +59,121 @@ type Service struct {
 	mu       sync.Mutex
 	opt      *optimizer
 	paramMap map[string]Parameter
 	etcdEndpoints string
 	etcdClient    *clientv3.Client
 	// etcdTimeout is also used as retry intervals.
 	etcdTimeout time.Duration
 	// desired number of pservers in the job.
 	// assume desired will not change during one training job.
 	desired int
 	// FIXME: ensure GetExternalIP gets the correct ip for trainers to connect.
 	externalIP string
 }
-// NewService creates a new service.
+// NewService creates a new service, will bypass etcd registration if no
-func NewService() *Service {
+// endpoints specified.
 func NewService(endpoints string, timeout time.Duration) (*Service, error) {
 	s := &Service{opt: newOptimizer(sgd, 0.005)}
 	s.paramMap = make(map[string]Parameter)
 	s.initialized = make(chan struct{})
-	return s
+	s.etcdEndpoints = endpoints
 	s.etcdTimeout = timeout
 	var err error
 	s.externalIP, err = networkhelper.GetExternalIP()
 	if err != nil {
 		return nil, err
 	}
 	if endpoints != "" {
 		// initialize connection to etcd, try
 		ep := strings.Split(s.etcdEndpoints, ",")
 		for {
 			cli, err := clientv3.New(clientv3.Config{
 				Endpoints:   ep,
 				DialTimeout: s.etcdTimeout,
 			})
 			if err != nil {
 				log.Errorf("connect to etcd error: %v", err)
 				time.Sleep(s.etcdTimeout)
 				continue
 			}
 			s.etcdClient = cli
 			log.Debugf("inited client to %s", s.etcdEndpoints)
 			break
 		}
 		// wait and set s.desired init value
 		for {
 			ctx, cancel := context.WithTimeout(context.Background(), time.Second)
 			resp, err := s.etcdClient.Get(ctx, PsDesired)
 			cancel()
 			if err != nil {
 				log.Errorf("getting %s error: %v", PsDesired, err)
 				time.Sleep(s.etcdTimeout)
 				continue
 			}
 			if len(resp.Kvs) != 0 {
 				s.desired, err = strconv.Atoi(string(resp.Kvs[0].Value))
 				if err != nil {
 					log.Errorf("value of %s invalid %v\n", PsDesired, err)
 					time.Sleep(s.etcdTimeout)
 					// NOTE: wait util ps_desired value change
 					continue
 				}
 				break
 			}
 		}
 		// try register pserver node on etcd
 		for {
 			ctx, cancel := context.WithTimeout(context.Background(), time.Second)
 			_, err := s.registerPserverEtcd(ctx)
 			cancel()
 			if err != nil {
 				log.Warn(err)
 				time.Sleep(s.etcdTimeout)
 				continue
 			}
 			break
 		}
 	} // if endpoints != ""
 	// Bypass etcd registration if no endpoints specified
 	return s, nil
 }
 // registerPserverEtcd registers pserver node on etcd using transaction.
 func (s *Service) registerPserverEtcd(ctx context.Context) (*clientv3.TxnResponse, error) {
 	return concurrency.NewSTM(s.etcdClient, func(c concurrency.STM) error {
 		registered := false
 		for i := 0; i < s.desired; i++ {
 			psKey := "/ps/" + strconv.Itoa(i)
 			log.Debugf("checking %s", psKey)
 			ps := c.Get(psKey)
 			log.Debugf("got value (%s) for key: %s", ps, psKey)
 			if ps == "" {
 				resp, err := s.etcdClient.Grant(context.TODO(), 5)
 				if err != nil {
 					log.Fatal(err)
 				}
 				// find the first id and write info
 				c.Put(psKey, s.externalIP, clientv3.WithLease(resp.ID))
 				log.Debugf("set pserver node %s with value %s", psKey, s.externalIP)
 				_, kaerr := s.etcdClient.KeepAlive(context.TODO(), resp.ID)
 				if kaerr != nil {
 					log.Errorf("keepalive etcd node error: %v", kaerr)
 					return kaerr
 				}
 				log.Debug("register finished")
 				registered = true
 				break
 			}
 		}
 		if registered == true {
 			return nil
 		}
 		return errors.New("not registerd, may due to already have enough pservers")
 	}, concurrency.WithAbortContext(ctx), concurrency.WithIsolation(concurrency.RepeatableReads))
 }
 // InitParam initializes a parameter.
--- a/go/pserver/service_test.go
+++ b/go/pserver/service_test.go
@ -10,12 +10,15 @@ import (
 )
 func TestFull(t *testing.T) {
-	s := pserver.NewService()
+	s, err := pserver.NewService("", time.Second*5)
 	if err != nil {
 		t.Error(err)
 	}
 	var p pserver.Parameter
 	p.Name = "param_a"
 	p.Content = []byte{1, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0}
 	p.ElementType = pserver.Int32
-	err := s.InitParam(pserver.ParameterWithConfig{Param: p, Config: nil}, nil)
+	err = s.InitParam(pserver.ParameterWithConfig{Param: p, Config: nil}, nil)
 	if err != nil {
 		t.FailNow()
 	}
@ -72,8 +75,11 @@ func TestFull(t *testing.T) {
 }
 func TestMultipleInit(t *testing.T) {
-	s := pserver.NewService()
+	s, err := pserver.NewService("", time.Second*5)
-	err := s.FinishInitParams(0, nil)
+	if err != nil {
 		t.Error(err)
 	}
 	err = s.FinishInitParams(0, nil)
 	if err != nil {
 		t.FailNow()
 	}
@ -85,15 +91,18 @@ func TestMultipleInit(t *testing.T) {
 }
 func TestUninitialized(t *testing.T) {
-	s := pserver.NewService()
+	s, err := pserver.NewService("", time.Second*5)
-	err := s.SendGrad(pserver.Gradient{}, nil)
+	err = s.SendGrad(pserver.Gradient{}, nil)
 	if err.Error() != pserver.Uninitialized {
 		t.FailNow()
 	}
 }
 func TestBlockUntilInitialized(t *testing.T) {
-	s := pserver.NewService()
+	s, err := pserver.NewService("", time.Second*5)
 	if err != nil {
 		t.Error(err)
 	}
 	ch := make(chan struct{}, 2)
 	errCh := make(chan error, 2)
 	var wg sync.WaitGroup
@ -133,7 +142,7 @@ func TestBlockUntilInitialized(t *testing.T) {
 	p.Name = "param_a"
 	p.Content = []byte{1, 0, 0, 0, 2, 0, 0, 0, 3, 0, 0, 0}
 	p.ElementType = pserver.Int32
-	err := s.InitParam(pserver.ParameterWithConfig{Param: p, Config: nil}, nil)
+	err = s.InitParam(pserver.ParameterWithConfig{Param: p, Config: nil}, nil)
 	if err != nil {
 		t.FailNow()
 	}
--- a/go/utils/networkhelper/helper.go
+++ b/go/utils/networkhelper/helper.go
@ -0,0 +1,45 @@
 package networkhelper
 import (
 	"errors"
 	"net"
 )
 // GetExternalIP returns the ip address of local network interface, not the
 // loopback device.
 func GetExternalIP() (string, error) {
 	ifaces, err := net.Interfaces()
 	if err != nil {
 		return "", err
 	}
 	for _, iface := range ifaces {
 		if iface.Flags&net.FlagUp == 0 {
 			continue // interface down
 		}
 		if iface.Flags&net.FlagLoopback != 0 {
 			continue // loopback interface
 		}
 		addrs, err := iface.Addrs()
 		if err != nil {
 			return "", err
 		}
 		for _, addr := range addrs {
 			var ip net.IP
 			switch v := addr.(type) {
 			case *net.IPNet:
 				ip = v.IP
 			case *net.IPAddr:
 				ip = v.IP
 			}
 			if ip == nil || ip.IsLoopback() {
 				continue
 			}
 			ip = ip.To4()
 			if ip == nil {
 				continue // not an ipv4 address
 			}
 			return ip.String(), nil
 		}
 	}
 	return "", errors.New("are you connected to the network?")
 }
--- a/go/utils/networkhelper/helper_test.go
+++ b/go/utils/networkhelper/helper_test.go
@ -0,0 +1,10 @@
 package networkhelper
 import "testing"
 func TestGetIP(t *testing.T) {
 	_, err := GetExternalIP()
 	if err != nil {
 		t.Errorf("GetExternalIP returns error : %v\n", err)
 	}
 }
--- a/paddle/gserver/evaluators/DetectionMAPEvaluator.cpp
+++ b/paddle/gserver/evaluators/DetectionMAPEvaluator.cpp
--- a/paddle/gserver/gradientmachines/NeuralNetwork.cpp
+++ b/paddle/gserver/gradientmachines/NeuralNetwork.cpp
@ -241,11 +241,14 @@ void NeuralNetwork::forward(const std::vector<Argument>& inArgs,
    dataLayers_[i]->setData(inArgs[i]);
  }
  gLayerStackTrace.set_stage(true);
  {
    for (auto& layer : layers_) {
      REGISTER_TIMER_INFO("ForwardTimer", layer->getName().c_str());
      gLayerStackTrace.push(layer->getName());
      layer->forward(passType);
      gLayerStackTrace.pop(layer->getName());
    }
  }
@ -254,9 +257,6 @@ void NeuralNetwork::forward(const std::vector<Argument>& inArgs,
  for (auto& layer : outputLayers_) {
    outArgs->push_back(layer->getOutput());
  }
  if (passType == PASS_TEST) {
    gLayerStackTrace.clear();
  }
 }
 void NeuralNetwork::resetState() {
@ -283,9 +283,10 @@ void NeuralNetwork::getState(MachineState& machineState) {
 }
 void NeuralNetwork::backward(const UpdateCallback& callback) {
-  gLayerStackTrace.pop("");  // tell layer trace is during backward.
+  gLayerStackTrace.set_stage(false);
  FOR_EACH_R(layer, layers_) {
    REGISTER_TIMER_INFO("BackwardTimer", (*layer)->getName().c_str());
    gLayerStackTrace.push((*layer)->getName());
    if ((*layer)->needGradient()) {
      (*layer)->backward(callback);
    }
@ -320,7 +321,7 @@ public:
    }
  }
-  virtual void eval(const NeuralNetwork& nn) {
+  virtual void eval(const NeuralNetwork& nn) override {
    for (auto& evaluator : evaluators_) {
      evaluator->eval(nn);
    }
@ -395,6 +396,30 @@ private:
  }
 };
 class SubnetEvaluator : public CombinedEvaluator {
 public:
  SubnetEvaluator(const std::string& layerName,
                  std::unique_ptr<Evaluator>&& evaluator)
      : layerName_(layerName) {
    addEvaluator(std::move(evaluator));
  }
  virtual void eval(const NeuralNetwork& nn) override {
    const LayerPtr& layer = nn.getLayer(layerName_);
    CHECK(layer) << "Nonexisted layer: " << layerName_ << " in submodel "
                 << nn.getName();
    bool accessed = false;
    layer->accessSubNetwork([this, &accessed](NeuralNetwork& subnet) {
      subnet.eval(evaluators_[0].get());
      accessed = true;
    });
    CHECK(accessed) << "There is no subnetwork for layer " << layerName_
                    << " in submodel " << nn.getName();
  }
 protected:
  std::string layerName_;
 };
 Evaluator* NeuralNetwork::makeEvaluator() const {
  CombinedEvaluator* combinedEvaluator = new CombinedEvaluator();
  auto subModelConfig = std::find_if(config_.sub_models().begin(),
@ -421,6 +446,15 @@ Evaluator* NeuralNetwork::makeEvaluator() const {
        combinedEvaluator->addEvaluator(std::move(evaluator));
      }
    }
    for (auto& layer : layers_) {
      layer->accessSubNetwork(
          [layer, combinedEvaluator](NeuralNetwork& subnet) {
            std::unique_ptr<Evaluator> subEvaluator(new SubnetEvaluator(
                layer->getName(),
                std::unique_ptr<Evaluator>(subnet.makeEvaluator())));
            combinedEvaluator->addEvaluator(std::move(subEvaluator));
          });
    }
  } else {
    for (const EvaluatorConfig& evalConfig : config_.evaluators()) {
      std::unique_ptr<Evaluator> evaluator(Evaluator::create(evalConfig));
--- a/paddle/gserver/gradientmachines/NeuralNetwork.h
+++ b/paddle/gserver/gradientmachines/NeuralNetwork.h
@ -129,6 +129,8 @@ public:
  static NeuralNetwork* newNeuralNetwork(const std::string& name = "",
                                         NeuralNetwork* rootNetwork = nullptr);
  const std::string& getName() const { return subModelName_; }
 protected:
  /**
   * The constructor of NeuralNetwork.
--- a/paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp
+++ b/paddle/gserver/gradientmachines/RecurrentGradientMachine.cpp
@ -208,6 +208,7 @@ void RecurrentGradientMachine::init(
                   });
  CHECK(subModelConfig != config.sub_models().end());
  reversed_ = subModelConfig->reversed();
  generating_ = subModelConfig->has_generator();
  inFrameLines_.resize(subModelConfig->in_links_size());
  for (size_t i = 0; i < inFrameLines_.size(); ++i) {
@ -287,10 +288,6 @@ void RecurrentGradientMachine::init(
      parameterIds_.push_back(para->getID());
    }
  }
  if (subModelConfig->evaluator_names_size() > 0) {
    evaluator_.reset(frames_[0]->makeEvaluator());
  }
 }
 void RecurrentGradientMachine::resizeOrCreateFrames(int numFrames) {
@ -538,7 +535,7 @@ void RecurrentGradientMachine::forward(const std::vector<Argument>& inArgs,
     The outputs are outFramesLines_[i].agentLayer
   */
-  if (inFrameLines_.empty() && passType == PASS_TEST) {
+  if (generating_) {
    generateSequence();
    return;
  }  // else forward..
@ -561,14 +558,14 @@ void RecurrentGradientMachine::forward(const std::vector<Argument>& inArgs,
    std::vector<Argument> outArgs;
    frames_[i]->forward(inArgs, &outArgs, passType);
  }
  if (evaluator_ && passType == PASS_TEST) {
    this->eval(evaluator_.get());
  }
  reorganizeOutput(passType);
 }
 void RecurrentGradientMachine::backward(const UpdateCallback& callback) {
  if (generating_) {
    return;
  }
  REGISTER_TIMER_INFO("RecurrentBwTime", "RecurrentBwTime");
  AsyncGpuBlock asyncGpuBlock;
  for (int i = maxSequenceLength_ - 1; i >= 0; --i) {
@ -577,11 +574,6 @@ void RecurrentGradientMachine::backward(const UpdateCallback& callback) {
  for (auto& memoryFrameLine : memoryFrameLines_) {
    memoryFrameLine.bootLayer->backward(nullptr);
  }
  // call printers here so the gradient can be printed
  if (evaluator_) {
    this->eval(evaluator_.get());
  }
 }
 void RecurrentGradientMachine::forwardBackward(
@ -595,9 +587,9 @@ void RecurrentGradientMachine::forwardBackward(
 void RecurrentGradientMachine::eval(Evaluator* evaluator) const {
  // call printers frame by frame
  for (int i = 0; i < maxSequenceLength_; ++i) {
-    LOG(INFO) << "Recurrent Layer Group eval frame " << i << " begin";
+    VLOG(2) << "Recurrent Layer Group eval frame " << i << " begin";
    evaluator->eval(*(frames_[i].get()));
-    LOG(INFO) << "Recurrent Layer Group eval frame " << i << " end";
+    VLOG(2) << "Recurrent Layer Group eval frame " << i << " end";
  }
 }
@ -1093,10 +1085,6 @@ void RecurrentGradientMachine::oneWaySearch(size_t batchSize) {
    copyDataOutlinkFrame(machineCur);
    // call value printer
    if (evaluator_) {
      evaluator_->eval(*(frames_[machineCur].get()));
    }
    // check eos
    const IVectorPtr& eosVec =
        eosFrameLine_->layers[machineCur]->getOutput().ids;
@ -1321,11 +1309,10 @@ void RecurrentGradientMachine::fillGenOutputs() {
  batchMachineIdVec_.clear();
  generator_.ids.clear();
  int* starts = generator_.outArg.sequenceStartPositions->getMutableData(false);
  starts[0] = 0;
  if (numResults > 1) {
    real* probs = generator_.outArg.in->getData();
    int* starts =
        generator_.outArg.sequenceStartPositions->getMutableData(false);
    starts[0] = 0;
    for (size_t i = 0; i < finalPaths_.size(); ++i) {
      for (size_t j = 0; j < finalPaths_[i].size(); ++j) {
        Path& path = finalPaths_[i][j];
@ -1348,7 +1335,10 @@ void RecurrentGradientMachine::fillGenOutputs() {
  } else {
    for (size_t i = 0; i < finalPaths_.size(); ++i) {
      CHECK(!finalPaths_[i].empty());
-      generator_.ids = finalPaths_[i][0].ids;
+      generator_.ids.insert(generator_.ids.begin(),
                            finalPaths_[i][0].ids.begin(),
                            finalPaths_[i][0].ids.end());
      starts[i + 1] = starts[i] + finalPaths_[i][0].ids.size();
    }
  }
 }
--- a/paddle/gserver/gradientmachines/RecurrentGradientMachine.h
+++ b/paddle/gserver/gradientmachines/RecurrentGradientMachine.h
@ -414,6 +414,7 @@ protected:
    std::vector<int> ids;  // store generated sequences
    Argument outArg;       // final output argument
  };
  bool generating_;
  Generator generator_;
  std::vector<std::unique_ptr<NeuralNetwork>> frames_;
@ -428,8 +429,6 @@ protected:
  std::vector<int>
      parameterIds_;  // parameters actually used by this Layer Group
  std::unique_ptr<Evaluator> evaluator_;  // frame printers in this layer group
  // store final argument of outFrameLines_
  std::vector<Argument> dataArgs_;
  // store each frame's output argument of outFrameLines_
--- a/paddle/gserver/layers/AgentLayer.cpp
+++ b/paddle/gserver/layers/AgentLayer.cpp
@ -109,6 +109,40 @@ void GatherAgentLayer::forwardValue(PassType passType) {
  }
 }
 namespace {
 // dest[index[i]] <- src[i] for each i
 void copyElements(const IVector& srcVec,
                  const IVector& indexVec,
                  IVector& destVec) {
  const int* src = srcVec.getData();
  const int* index = indexVec.getData();
  int* dest = destVec.getData();
  int len = indexVec.getSize();
  CHECK_EQ(srcVec.getSize(), indexVec.getSize());
  for (int i = 0; i < len; ++i) {
    dest[index[i]] = src[i];
  }
 }
 }
 void GatherAgentLayer::forwardIds(PassType passType) {
  IVectorPtr realId = realLayers_[0]->getOutputLabel();
  if (!realId) return;
  IVector::resizeOrCreate(output_.ids, allIds_->getSize(), useGpu_);
  IVectorPtr outId = output_.ids;
  idsVec_.resize(idIndex_.size());
  for (size_t i = 0; i < realLayers_.size(); ++i) {
    const IVectorPtr& realId = realLayers_[i]->getOutputLabel();
    idsVec_[i] = IVector::create(allIds_->getData() + idIndex_[i],
                                 /* size */ realId->getSize(),
                                 useGpu_);
    execViaCpu(&copyElements, *realId, *idsVec_[i], *outId);
  }
 }
 void GatherAgentLayer::backward(const UpdateCallback& callback) {
  (void)callback;
  const MatrixPtr& outputGrad = getOutputGrad();
@ -136,23 +170,22 @@ void ScatterAgentLayer::forward(PassType passType) {
  CHECK_EQ(realLayer_->getDeviceId(), this->getDeviceId());
  int width = this->getSize();
-  if (realOutArg_.hasSeq()) {
+  if (selectionMode_) {
-    forwardSequence(passType);
+    forwardWithSelection(passType);
-  } else if (realOutArg_.value || realOutArg_.ids) {
+  } else {
-    output_.subArgFrom(
+    if (realOutArg_.hasSeq()) {
-        realOutArg_, /* offset */ idIndex_, idSize_, width, useGpu_);
+      output_.subArgFrom(realOutArg_,
-  } else {  // used in generation
+                         /* offset */ idIndex_,
-    if (realLayer_->getOutput().ids) {
+                         idSize_,
-      IVector::resizeOrCreate(output_.ids, ids_->getSize(), useGpu_);
+                         width,
-      output_.ids->selectFrom(*realLayer_->getOutput().ids, *ids_);
+                         useGpu_,
-    }
+                         /* trans */ false,
-    if (realLayer_->getOutput().value) {
+                         /* seqFlag */ true,
-      int height = ids_->getSize();
+                         /* seqStart */ seqStartPosIndex_,
-      resetOutput(height, width);
+                         /* seqSize */ numSequences_);
-
+    } else {
-      const MatrixPtr& outV = getOutputValue();
+      output_.subArgFrom(
-      const MatrixPtr& realV = realLayer_->getOutputValue();
+          realOutArg_, /* offset */ idIndex_, idSize_, width, useGpu_);
      outV->selectRows(*realV, *ids_);
    }
  }
 }
@ -160,6 +193,8 @@ void ScatterAgentLayer::forward(PassType passType) {
 void ScatterAgentLayer::backward(const UpdateCallback& callback) {
  (void)callback;
  CHECK(!selectionMode_);
  const MatrixPtr& outputGrad = realOutArg_.grad;
  const MatrixPtr& realGrad = realLayer_->getOutputGrad();
  if (realGrad) {
@ -174,42 +209,7 @@ void ScatterAgentLayer::backward(const UpdateCallback& callback) {
 REGISTER_LAYER(gather_agent, GatherAgentLayer);
 REGISTER_LAYER(scatter_agent, ScatterAgentLayer);
-void GatherAgentLayer::forwardIds(PassType passType) {
+void ScatterAgentLayer::forwardWithSelection(PassType passType) {
  int height = 0;
  IVectorPtr idReal = realLayers_[0]->getOutputLabel();
  if (!idReal) return;
  if (output_.subSequenceStartPositions) {
    int* starts = output_.subSequenceStartPositions->getMutableData(false);
    // Gather generator.idsVec
    // if is beam search generation result. Get first result.
    if (idReal->getData()[idReal->getSize() - 1] == -1) {
      for (size_t i = 0; i < realLayers_.size(); ++i) {
        // The first element stores first result size
        idReal = realLayers_[i]->getOutputLabel();
        idReal->subVecFrom(*idReal, 1, idReal->getData()[0]);
      }
    }
    for (size_t i = 0; i < realLayers_.size(); ++i) {
      CHECK(realLayers_[i]->getOutputLabel());
      starts[i] = height;
      height += realLayers_[i]->getOutputLabel()->getSize();
    }
    starts[realLayers_.size()] = height;
    output_.sequenceStartPositions->getMutableData(false)[1] = height;
    IVector::resizeOrCreate(output_.ids, height, false);
    for (size_t i = 0; i < realLayers_.size(); ++i) {
      output_.ids->subVec(starts[i], starts[i + 1] - starts[i])
          ->copyFrom(*realLayers_[i]->getOutputLabel());
    }
  } else {
    LOG(FATAL) << "Not implemented";
  }
 }
 void ScatterAgentLayer::forwardSequence(PassType passType) {
  Layer::forward(passType);
  CHECK_EQ(realLayer_->getDeviceId(), this->getDeviceId());
@ -220,17 +220,19 @@ void ScatterAgentLayer::forwardSequence(PassType passType) {
  AsyncGpuBlock asyncGpuBlock;
  REGISTER_TIMER_INFO("SequenceAgentLayerForward", getName().c_str());
-  if (realOutArg_.value || realOutArg_.ids) {
+  if (!input.hasSeq()) {
-    CHECK(realOutArg_.sequenceStartPositions);
+    if (realLayer_->getOutput().ids) {
-    output_.subArgFrom(realOutArg_,
+      IVector::resizeOrCreate(output_.ids, ids_->getSize(), useGpu_);
-                       /* offset */ idIndex_,
+      output_.ids->selectFrom(*realLayer_->getOutput().ids, *ids_);
-                       idSize_,
+    }
-                       width,
+    if (realLayer_->getOutput().value) {
-                       useGpu_,
+      int height = ids_->getSize();
-                       /* trans */ false,
+      resetOutput(height, width);
-                       /* seqFlag */ true,
+
-                       /* seqStart */ seqStartPosIndex_,
+      const MatrixPtr& outV = getOutputValue();
-                       /* seqSize */ numSequences_);
+      const MatrixPtr& realV = realLayer_->getOutputValue();
      outV->selectRows(*realV, *ids_);
    }
  } else {
    // Putting the generation logic here is really an ugly hack!
    // used in generation
--- a/paddle/gserver/layers/AgentLayer.h
+++ b/paddle/gserver/layers/AgentLayer.h
@ -110,6 +110,9 @@ protected:
  // of real layer.
  ICpuGpuVectorPtr inputStartPos_;
  // true for setRealLayer, false for setRealLayerAndOutput
  bool selectionMode_;
 public:
  explicit ScatterAgentLayer(const LayerConfig& config) : Layer(config) {}
@ -137,6 +140,7 @@ public:
    } else {
      cpuIds_ = ids_;
    }
    selectionMode_ = true;
  }
  // set real layer and output, [idIndex, idIndex + idSize) of *ids*
@ -153,6 +157,7 @@ public:
    idIndex_ = idIndex;
    idSize_ = idSize;
    handleBackward_ = handleBackward;
    selectionMode_ = false;
  }
  void setSequenceStartPositions(const ICpuGpuVectorPtr& sequenceStartPositions,
@ -166,7 +171,7 @@ public:
  void forward(PassType passType) override;
  void backward(const UpdateCallback& callback) override;
-  void forwardSequence(PassType passType);
+  void forwardWithSelection(PassType passType);
 };
 }  // namespace paddle
--- a/paddle/gserver/tests/test_Evaluator.cpp
+++ b/paddle/gserver/tests/test_Evaluator.cpp
@ -138,6 +138,23 @@ void testEvaluatorAll(TestConfig testConf,
  testEvaluator(testConf, testEvaluatorName, batchSize, false);
 }
 TEST(Evaluator, detection_map) {
  TestConfig config;
  config.evaluatorConfig.set_type("detection_map");
  config.evaluatorConfig.set_overlap_threshold(0.5);
  config.evaluatorConfig.set_background_id(0);
  config.evaluatorConfig.set_ap_type("Integral");
  config.evaluatorConfig.set_evaluate_difficult(0);
  config.inputDefs.push_back({INPUT_DATA, "output", 7});
  config.inputDefs.push_back({INPUT_SEQUENCE_DATA, "label", 6});
  config.evaluatorConfig.set_evaluate_difficult(false);
  testEvaluatorAll(config, "detection_map", 100);
  config.evaluatorConfig.set_evaluate_difficult(true);
  testEvaluatorAll(config, "detection_map", 100);
 }
 TEST(Evaluator, classification_error) {
  TestConfig config;
  config.evaluatorConfig.set_type("classification_error");
--- a/paddle/trainer/tests/sample_trainer_nest_rnn_gen.conf
+++ b/paddle/trainer/tests/sample_trainer_nest_rnn_gen.conf
@ -53,7 +53,7 @@ def outer_step(dummy_data):
                           bos_id=0,
                           eos_id=num_words-1,
                           beam_size=2 if beam_flag else 1,
-                           num_results_per_sample=2 if beam_flag else 1,
+                           num_results_per_sample=1,
                           max_length=10)
    return beam_gen
--- a/paddle/utils/CustomStackTrace.h
+++ b/paddle/utils/CustomStackTrace.h
@ -55,13 +55,17 @@ public:
   *        Else, just set status to popping.
   */
  void pop(const T& item) {
    pushing() = false;
    auto& s = this->stack();
    if (item == s.top()) {
      s.pop();
    }
  }
  /**
   * @brief Indicate whether we are at forward or backward stage of computation
   */
  void set_stage(bool isForward) { pushing() = isForward; }
  /**
   * @brief clear current thread stack.
   */
--- a/paddle/utils/tests/test_CustomStackTrace.cpp
+++ b/paddle/utils/tests/test_CustomStackTrace.cpp
@ -72,7 +72,6 @@ TEST(CustomStackTrace, normalTrain) {
      for (size_t i = 0; i < layerSize; ++i) {
        tracer.push("layer_" + paddle::str::to_string(i));
      }
      tracer.pop("");
      for (size_t i = 0; i < layerSize; ++i) {
        tracer.pop("layer_" + paddle::str::to_string(layerSize - 1 - i));
      }
--- a/proto/ModelConfig.proto
+++ b/proto/ModelConfig.proto
@ -489,6 +489,15 @@ message EvaluatorConfig {
  // Used by ClassificationErrorEvaluator
  // top # classification error
  optional int32 top_k = 13 [default = 1];
  // Used by DetectionMAPEvaluator
  optional double overlap_threshold = 14 [default = 0.5];
  optional int32 background_id = 15 [default = 0];
  optional bool evaluate_difficult = 16 [default = false];
  optional string ap_type = 17 [default = "11point"];
 }
 message LinkConfig {
--- a/python/paddle/trainer/config_parser.py
+++ b/python/paddle/trainer/config_parser.py
@ -1280,20 +1280,23 @@ def parse_maxout(maxout, input_layer_name, maxout_conf):
 # Define an evaluator
@config_func
-def Evaluator(
+def Evaluator(name,
-        name,
+              type,
-        type,
+              inputs,
-        inputs,
+              chunk_scheme=None,
-        chunk_scheme=None,
+              num_chunk_types=None,
-        num_chunk_types=None,
+              classification_threshold=None,
-        classification_threshold=None,
+              positive_label=None,
-        positive_label=None,
+              dict_file=None,
-        dict_file=None,
+              result_file=None,
-        result_file=None,
+              num_results=None,
-        num_results=None,
+              top_k=None,
-        top_k=None,
+              delimited=None,
-        delimited=None,
+              excluded_chunk_types=None,
-        excluded_chunk_types=None, ):
+              overlap_threshold=None,
              background_id=None,
              evaluate_difficult=None,
              ap_type=None):
    evaluator = g_config.model_config.evaluators.add()
    evaluator.type = type
    evaluator.name = MakeLayerNameInSubmodel(name)
@ -1327,6 +1330,18 @@ def Evaluator(
    if excluded_chunk_types:
        evaluator.excluded_chunk_types.extend(excluded_chunk_types)
    if overlap_threshold is not None:
        evaluator.overlap_threshold = overlap_threshold
    if background_id is not None:
        evaluator.background_id = background_id
    if evaluate_difficult is not None:
        evaluator.evaluate_difficult = evaluate_difficult
    if ap_type is not None:
        evaluator.ap_type = ap_type
 class LayerBase(object):
    def __init__(
--- a/python/paddle/trainer_config_helpers/evaluators.py
+++ b/python/paddle/trainer_config_helpers/evaluators.py
@ -21,7 +21,8 @@ __all__ = [
    "chunk_evaluator", "sum_evaluator", "column_sum_evaluator",
    "value_printer_evaluator", "gradient_printer_evaluator",
    "maxid_printer_evaluator", "maxframe_printer_evaluator",
-    "seqtext_printer_evaluator", "classification_error_printer_evaluator"
+    "seqtext_printer_evaluator", "classification_error_printer_evaluator",
    "detection_map_evaluator"
 ]
@ -31,10 +32,11 @@ class EvaluatorAttribute(object):
    FOR_RANK = 1 << 2
    FOR_PRINT = 1 << 3
    FOR_UTILS = 1 << 4
    FOR_DETECTION = 1 << 5
    KEYS = [
        "for_classification", "for_regression", "for_rank", "for_print",
-        "for_utils"
+        "for_utils", "for_detection"
    ]
    @staticmethod
@ -57,22 +59,25 @@ def evaluator(*attrs):
    return impl
-def evaluator_base(
+def evaluator_base(input,
-        input,
+                   type,
-        type,
+                   label=None,
-        label=None,
+                   weight=None,
-        weight=None,
+                   name=None,
-        name=None,
+                   chunk_scheme=None,
-        chunk_scheme=None,
+                   num_chunk_types=None,
-        num_chunk_types=None,
+                   classification_threshold=None,
-        classification_threshold=None,
+                   positive_label=None,
-        positive_label=None,
+                   dict_file=None,
-        dict_file=None,
+                   result_file=None,
-        result_file=None,
+                   num_results=None,
-        num_results=None,
+                   delimited=None,
-        delimited=None,
+                   top_k=None,
-        top_k=None,
+                   excluded_chunk_types=None,
-        excluded_chunk_types=None, ):
+                   overlap_threshold=None,
                   background_id=None,
                   evaluate_difficult=None,
                   ap_type=None):
    """
    Evaluator will evaluate the network status while training/testing.
@ -107,6 +112,14 @@ def evaluator_base(
    :type weight: LayerOutput.
    :param top_k: number k in top-k error rate
    :type top_k: int
    :param overlap_threshold: In detection tasks to filter detection results
    :type overlap_threshold: float
    :param background_id: Identifier of background class
    :type background_id: int
    :param evaluate_difficult: Whether to evaluate difficult objects
    :type evaluate_difficult: bool
    :param ap_type: How to calculate average persicion
    :type ap_type: str
    """
    # inputs type assertions.
    assert classification_threshold is None or isinstance(
@ -136,7 +149,61 @@ def evaluator_base(
        delimited=delimited,
        num_results=num_results,
        top_k=top_k,
-        excluded_chunk_types=excluded_chunk_types, )
+        excluded_chunk_types=excluded_chunk_types,
        overlap_threshold=overlap_threshold,
        background_id=background_id,
        evaluate_difficult=evaluate_difficult,
        ap_type=ap_type)
@evaluator(EvaluatorAttribute.FOR_DETECTION)
@wrap_name_default()
 def detection_map_evaluator(input,
                            label,
                            overlap_threshold=0.5,
                            background_id=0,
                            evaluate_difficult=False,
                            ap_type="11point",
                            name=None):
    """
    Detection mAP Evaluator. It will print mean Average Precision (mAP) for detection.
    The detection mAP Evaluator based on the output of detection_output layer counts
    the true positive and the false positive bbox and integral them to get the
    mAP.
    The simple usage is:
    .. code-block:: python
       eval =  detection_map_evaluator(input=det_output,label=lbl)
    :param input: Input layer.
    :type input: LayerOutput
    :param label: Label layer.
    :type label: LayerOutput
    :param overlap_threshold: The bbox overlap threshold of a true positive.
    :type overlap_threshold: float
    :param background_id: The background class index.
    :type background_id: int
    :param evaluate_difficult: Whether evaluate a difficult ground truth.
    :type evaluate_difficult: bool
    """
    if not isinstance(input, list):
        input = [input]
    if label:
        input.append(label)
    evaluator_base(
        name=name,
        type="detection_map",
        input=input,
        label=label,
        overlap_threshold=overlap_threshold,
        background_id=background_id,
        evaluate_difficult=evaluate_difficult,
        ap_type=ap_type)
@evaluator(EvaluatorAttribute.FOR_CLASSIFICATION)
--- a/python/paddle/trainer_config_helpers/layers.py
+++ b/python/paddle/trainer_config_helpers/layers.py
@ -3839,7 +3839,8 @@ def classification_cost(input,
                        weight=None,
                        name=None,
                        evaluator=classification_error_evaluator,
-                        layer_attr=None):
+                        layer_attr=None,
                        coeff=1.):
    """
    classification cost Layer.
@ -3855,6 +3856,8 @@ def classification_cost(input,
    :param evaluator: Evaluator method.
    :param layer_attr: layer's extra attribute.
    :type layer_attr: ExtraLayerAttribute
    :param coeff: The coefficient affects the gradient in the backward.
    :type coeff: float
    :return: LayerOutput object.
    :rtype: LayerOutput
    """
@ -3868,6 +3871,7 @@ def classification_cost(input,
        name=name,
        type="multi-class-cross-entropy",
        inputs=ipts,
        coeff=coeff,
        **ExtraLayerAttribute.to_kwargs(layer_attr))
    def __add_evaluator__(e):
--- a/python/paddle/v2/layer.py
+++ b/python/paddle/v2/layer.py
@ -45,12 +45,12 @@ __all__ = ['data', 'parse_network']
 def __need_to_keep__(name):
    return name in [
        'StaticInput', 'SubsequenceInput', 'GeneratedInput', 'LayerType',
-        'layer_support'
+        'layer_support', 'BaseGeneratedInput'
    ]
 def __need_to_wrap__(name):
-    return name not in ['AggregateLevel', 'ExpandLevel']
+    return name not in ['AggregateLevel', 'ExpandLevel', 'BaseGeneratedInput']
 def __convert_name__(inname):
@ -199,6 +199,15 @@ def __get_used_submodels__(layer_names):
    return submodel_names
 def __get_submodel_data_out_links__():
    data_links = set()
    for submodel in cp.g_config.model_config.sub_models:
        for link in submodel.out_links:
            if cp.g_layer_map[link.link_name].type == 'data':
                data_links.add(link.link_name)
    return data_links
 def __get_used_evaluators__(layer_names):
    evaluator_names = set()
    for e in cp.g_config.model_config.evaluators:
@ -264,6 +273,7 @@ def parse_network(output_layers, extra_layers=None):
    submodel_names = __get_used_submodels__(layer_names)
    submodel_names.add('root')
    evaluator_names = __get_used_evaluators__(layer_names)
    data_out_links = __get_submodel_data_out_links__()
    input_layer_names = set()
    output_layer_names = set()
@ -279,7 +289,7 @@ def parse_network(output_layers, extra_layers=None):
            continue
        model_config.layers.extend([l])
        if l.type == 'data':
-            if l.name in model_config.output_layer_names:
+            if l.name in data_out_links:
                """
                In text generation, the outlink to save the generated word
                indices is a data_layer defined in recurrent_group. This