Loading...

Long Range Pooling for 3D Large-Scale Scene Understanding

question:

  • 1.point cloud:
        点云(point cloud)是一组呈现三维坐标(X, Y,Z)的数据集,可以表示三维形状或对象。点云通常由3D扫描仪或摄影测量软件生成,这些软件测量周围物体的外部表面上的许多点。作为3D扫描过程的输出,点云用于许多目的,包括为制造零件创建3D计算机辅助设计(CAD)模型,用于计量和质量检查,以及用于可视化、动画、渲染和大规模定制应用程序的多种应用。

        点云(point cloud)的一个例子是,当我们利用三维激光扫描仪扫描某一建筑表面时,我们可以得到大量密集的点,这些点带有三维坐标(X,Y,Z)、激光反射强度和颜色等信息。这些点的集合就是一个点云。点云可以用于许多目的,包括为制造零件创建3D计算机辅助设计(CAD)模型,用于计量和质量检查,以及用于可视化、动画、渲染和大规模定制应用程序的多种应用。

  • 2.receptive field:
        感受野(Receptive Field)的定义:卷积神经网络每一层输出的特征图(feature map)上的像素点映射回输入图像上的区域大小。通俗点的解释是,特征图上一点,相对于原图的大小,也是卷积神经网络特征所能看到输入图像的区域

1.模型为什么好?

  • 提高了模型的质量
  • 减小了模型的计算量

2.以前的模型为什么不好?

  • 稀疏卷积在建模局部结构上有优势,但却忽视了长序列上下文。transformer用它更大的接受域和更好的交互方式去捕获全局关系。但是他们通常有二次复杂度,计算成本太大。
  • 将long rang context整合到3d像素数据学习中,去开发一个3d大核卷积,但网络参数的数量和计算量将立方的增加。
  • 目前的数据交互或聚合(卷积,平均池化)的方式用于3d像素数据,会使像素的特征太小或过于平滑,导致信息量更小。
  • 2d大核卷积计算量大,所以用小核来近似大核,但3d大核分解困难

3.编程怎么实现的?

4.哪个关键点对性能提升最大?

  • dilation max pooling
  • self-attention

5.论文和源代码匹配度是怎么样的?

6.那些数学运算是关键的?

7.整个全流程是怎么走的?

8.数据是怎么样流动的?

9.作者的灵感从何而来?

根据Vision Transformers和LargeKernelCNN设计的成功,提出这些成功的关键在于更大的感受野和更强的非线性。

10.作者的思考路线如何?

  • 1.作者首先分析了最近视觉Transformers和大卷积核设计的成功,提出这些成功的关键在于更大的感受野和更强的非线性。
  • 2.基于这个分析,作者提出了设计一个简单有效的模块去实现这两个原则 - 长程池化模块(LRP)。LRP通过膨胀最大池化获得大感受野,同时引入感受野选择让每个voxel自适应选择合适的感受野,增强了非线性。
  • 3.作者将LRP模块应用于现有的稀疏卷积网络,构建了LRPNet,在多个3D场景分割数据集上验证了其有效性。
  • 4.通过可视化和各种ablation实验,作者分析了大感受野和非线性对提升网络性能的重要性。
  • 5.最后,作者得出结论,LRP模块可以简单有效地为网络提供自适应大感受野,增强网络的建模能力。
    总体来看,作者的思考路线是:分析现有方法的优势 —> 提出实现这些优势的简单模块 —> 将模块应用于现有网络获得性能提升 —> 通过实验分析模块的有效性。这反映了作者分析问题的深度和解决问题的系统