你好,很感谢你的工作,不过看了你的代码,感觉有几处地方和原文有出入:1.原文中训练和推理阶段的3D bounding box是用3D detector得到的,但代码中似乎只在pre-processing中用了2D detector得到mask,并没有用3D detector得到3D bounding box的步骤 2. 原文的encoder似乎是两个独立开来的,代码中的encoder似乎只是一个。不知道这些出入是不是确实存在,会不会影响最后的效果?