Long Range Pooling for 3D Large-Scale Scene Understanding
question:
-
1.point cloud:
点云(point cloud)是一组呈现三维坐标(X, Y,Z)的数据集,可以表示三维形状或对象。点云通常由3D扫描仪或摄影测量软件生成,这些软件测量周围物体的外部表面上的许多点。作为3D扫描过程的输出,点云用于许多目的,包括为制造零件创建3D计算机辅助设计(CAD)模型,用于计量和质量检查,以及用于可视化、动画、渲染和大规模定制应用程序的多种应用。点云(point cloud)的一个例子是,当我们利用三维激光扫描仪扫描某一建筑表面时,我们可以得到大量密集的点,这些点带有三维坐标(X,Y,Z)、激光反射强度和颜色等信息。这些点的集合就是一个点云。点云可以用于许多目的,包括为制造零件创建3D计算机辅助设计(CAD)模型,用于计量和质量检查,以及用于可视化、动画、渲染和大规模定制应用程序的多种应用。
-
2.receptive field:
感受野(Receptive Field)的定义:卷积神经网络每一层输出的特征图(feature map)上的像素点映射回输入图像上的区域大小。通俗点的解释是,特征图上一点,相对于原图的大小,也是卷积神经网络特征所能看到输入图像的区域
1.模型为什么好?
- 提高了模型的质量
- 减小了模型的计算量
2.以前的模型为什么不好?
- 稀疏卷积在建模局部结构上有优势,但却忽视了长序列上下文。transformer用它更大的接受域和更好的交互方式去捕获全局关系。但是他们通常有二次复杂度,计算成本太大。
- 将long rang context整合到3d像素数据学习中,去开发一个3d大核卷积,但网络参数的数量和计算量将立方的增加。
- 目前的数据交互或聚合(卷积,平均池化)的方式用于3d像素数据,会使像素的特征太小或过于平滑,导致信息量更小。
- 2d大核卷积计算量大,所以用小核来近似大核,但3d大核分解困难
3.编程怎么实现的?
4.哪个关键点对性能提升最大?
- dilation max pooling
- self-attention
5.论文和源代码匹配度是怎么样的?
6.那些数学运算是关键的?
7.整个全流程是怎么走的?
8.数据是怎么样流动的?
9.作者的灵感从何而来?
根据Vision Transformers和LargeKernelCNN设计的成功,提出这些成功的关键在于更大的感受野和更强的非线性。
10.作者的思考路线如何?
- 1.作者首先分析了最近视觉Transformers和大卷积核设计的成功,提出这些成功的关键在于更大的感受野和更强的非线性。
- 2.基于这个分析,作者提出了设计一个简单有效的模块去实现这两个原则 - 长程池化模块(LRP)。LRP通过膨胀最大池化获得大感受野,同时引入感受野选择让每个voxel自适应选择合适的感受野,增强了非线性。
- 3.作者将LRP模块应用于现有的稀疏卷积网络,构建了LRPNet,在多个3D场景分割数据集上验证了其有效性。
- 4.通过可视化和各种ablation实验,作者分析了大感受野和非线性对提升网络性能的重要性。
- 5.最后,作者得出结论,LRP模块可以简单有效地为网络提供自适应大感受野,增强网络的建模能力。
总体来看,作者的思考路线是:分析现有方法的优势 —> 提出实现这些优势的简单模块 —> 将模块应用于现有网络获得性能提升 —> 通过实验分析模块的有效性。这反映了作者分析问题的深度和解决问题的系统