在复杂环境中,了解行人的姿势,动作,行为和意图对于自动驾驶汽车之类的移动机器人安全高效地运行至关重要。UM福特无人驾驶汽车中心(FCAV)于2017年在美国密歇根州安阿伯市的市中心十字路口收集了一个大型多模态数据集PedX(十字路口的行人),并使用这个数据集完成了基于3D行人姿态和步态预测的神经网络模型。
相关研究论文如下。
基于先前帧中估计的3D姿势和位置,研究人员设计了一个受生物力学启发的递归神经网络Bio-LSTM,可以预测未来帧中全局坐标系中行人的位置和3D关节式身体姿势。拟议的网络纳入了生物力学约束条件,包括人体步态的周期性,人体的镜像对称性以及人体步态循环中地面反作用力的变化。拟议中的Bio-LSTM网络在现实世界的交叉路口规模上显示了针对行人的长期姿势预测性能(>5秒)的改善,并且可以可靠地处理来自现场数据的噪声。
Bio-LSTM:A Biomechanically Inspired Recurrent Neural Network for 3-DPedestrian Pose and Gait Prediction
论文:https://arxiv.org/pdf/1809.03705.pdf
上面的网络图,修改了特定设计的网络架构。网络的输入和输出是场景中所有行人的SMPL参数的向量。生物限制是通过网络中的培训目标来实施的。对于MTP,预测不断地反馈到网络,以预测所有以后时间的步长。
上图表示地面和脚的约束。将脚和地面之间的体积模型简化为矩形立方体(粉红色阴影)和三角形棱镜(绿色阴影)的体积之和(两只脚采用上述相同的方式)。所以,总的来说,在脚和地面之间发生了一些力的转移。
上图为一个MTP预测的定性例子。绿色网格是预测姿态,红色网格是优化后的地面真值标签。这两种方法都具有较低的平移误差,且本论文中的方法保持了稳定的步态。
Stochastic Sampling Simulation forPedestrian Trajectory Prediction
论文:https://arxiv.org/pdf/1903.01860.pdf
在这篇论文中,研究人员提出了一种新的随机抽样方法来模拟真实的行人轨迹。研究人员开发了一个模型来提取行人数量和步行速度的真实数据集,并使用这些信息样本的行人轨迹。他们在采样数据集上训练了一个Social GAN,并在各种行人轨迹基准数据集上评估了预测结果。与在真实数据集上训练的预测性能相比,在大量的采样数据上训练的预测性能有了很大的提高。研究人员还对行人统计数据的影响进行了消融研究,结果表明提取的行人参数能够代表真实数据集中的行人行走方式,并使DNN能够更准确地模拟行人轨迹的真实分布。未来的方向包括扩展采样方法以合并场景几何,以及训练一个利用合成数据集上的场景信息的DNN。另一个方面是对交互作用空间的采样,例如对行人产生的结果进行采样。
PedX:Benchmark Dataset for Metric 3-D Pose Estimation of Pedestrians inComplex Urban Intersections
论文:https://arxiv.org/pdf/1809.03605.pdf
数据集:https://fcav.engin.umich.edu/projects/pedestrian-perception
代码:https://github.com/umautobots/pedx
FCAV还开发了一种新颖的3D模型拟合算法,用于自动约束3D标签,从而跨越不同的模态以及新颖的形状和时间先验条件。
本文提出了一个名为PedX的新数据集,该数据集是在复杂的城市路口大规模收集行人的多模式集合。PedX数据集包含5,000多对高分辨率(12MP)立体图像和LiDAR数据以及提供行人的2D和3D标签。研究人员也提出了一种新的三维模型拟合算法,用于在不同的模式和新的形状和时间先验条件下利用约束进行自动三维标记。所有带注释的3D行人都被定位到真实的度量空间中,生成的3D模型通过配置在受控室外环境中的mocap系统来模拟城市十字路口的行人进行验证。
图 注释可视化
上图为数据集中的代表性样本,进而说明了数据集的实用性。在各种复杂条件下,使用自动标记方法的3D模型被渲染到图像上,以显示数据集中的标签的准确性。
Ref:
https://fcav.engin.umich.edu/projects/pedestrian-perception