yolo_box

    该运算符基于YOLOv3网络的输出结果,生成YOLO检测框。

    连接 yolo_box 网络的输出形状应为[N,C,H,W],其中 H 和 W 相同,用来指定网格大小。对每个网格点预测给定的数目的框,这个数目记为 S ,由 anchor 的数量指定。 在第二维(通道维度)中,C应该等于S *(5 + class_num),class_num是源数据集中对象类别数目(例如coco数据集中的80),此外第二个(通道)维度中还有4个框位置坐标x,y,w,h,以及anchor box的one-hot key的置信度得分。

    假设4个位置坐标是

    yolo_box - 图1

    yolo_box - 图2

    ,则框的预测算法为:

    在上面的等式中, cxcx , cxcx 是当前网格的左上角顶点坐标。 pwpw , phph 由anchors指定。

    每个anchor预测框的第五通道的逻辑回归值表示每个预测框的置信度得分,并且每个anchor预测框的最后class_num通道的逻辑回归值表示分类得分。 应忽略置信度低于conf_thresh的框。另外,框最终得分是置信度得分和分类得分的乘积。

    scorepred\=scoreconf∗scoreclassscorepred\=scoreconf∗scoreclass

    1. 框的坐标,形为[N,M,4]的三维张量

    2. 框的分类得分, 形为 [N,M,class_num]的三维张量