]> git.sesse.net Git - ffmpeg/blobdiff - libavfilter/vf_xbr.c
avfilter/signalstats: add threading in compute_sat_hue_metrics
[ffmpeg] / libavfilter / vf_xbr.c
index 4f4a8f357b5e10301b660ca4d55a3e744bf3b6a5..47e4b769ca233a0489967d01428a8f8ba07730a5 100644 (file)
@@ -26,8 +26,6 @@
  *
  * @see http://www.libretro.com/forums/viewtopic.php?f=6&t=134
  * @see https://github.com/yoyofr/iFBA/blob/master/fba_src/src/intf/video/scalers/xbr.cpp
- *
- * @todo add threading
  */
 
 #include "libavutil/opt.h"
 #define RED_BLUE_MASK 0x00FF00FF
 #define GREEN_MASK    0x0000FF00
 
+typedef int (*xbrfunc_t)(AVFilterContext *ctx, void *arg, int jobnr, int nb_jobs);
+
 typedef struct {
     const AVClass *class;
     int n;
+    xbrfunc_t func;
     uint32_t rgbtoyuv[1<<24];
 } XBRContext;
 
+typedef struct ThreadData {
+    AVFrame *in, *out;
+    const uint32_t *rgbtoyuv;
+} ThreadData;
+
 #define OFFSET(x) offsetof(XBRContext, x)
+#define FLAGS AV_OPT_FLAG_FILTERING_PARAM|AV_OPT_FLAG_VIDEO_PARAM
 static const AVOption xbr_options[] = {
-    { "n", "set scale factor", OFFSET(n), AV_OPT_TYPE_INT, {.i64 = 3}, 2, 4, },
+    { "n", "set scale factor", OFFSET(n), AV_OPT_TYPE_INT, {.i64 = 3}, 2, 4, .flags = FLAGS },
     { NULL }
 };
 
@@ -93,59 +100,6 @@ static uint32_t pixel_diff(uint32_t x, uint32_t y, const uint32_t *r2y)
 #define df(A, B) pixel_diff(A, B, r2y)
 #define eq(A, B) (df(A, B) < 155)
 
-#define INIT_SRC_DST_POINTERS(level)                                                                    \
-    uint32_t *E = (uint32_t *)(output->data[0] + y * output->linesize[0] * (level));                    \
-    const uint32_t *sa2 = (uint32_t *)(input->data[0] + y * input->linesize[0] - 8); /* center */       \
-    const uint32_t *sa1 = sa2 - (input->linesize[0]>>2); /* up x1 */                                    \
-    const uint32_t *sa0 = sa1 - (input->linesize[0]>>2); /* up x2 */                                    \
-    const uint32_t *sa3 = sa2 + (input->linesize[0]>>2); /* down x1 */                                  \
-    const uint32_t *sa4 = sa3 + (input->linesize[0]>>2); /* down x2 */                                  \
-                                                                                                        \
-    if (y <= 1) {                                                                                       \
-        sa0 = sa1;                                                                                      \
-        if (y == 0) {                                                                                   \
-            sa0 = sa1 = sa2;                                                                            \
-        }                                                                                               \
-    }                                                                                                   \
-                                                                                                        \
-    if (y >= input->height - 2) {                                                                       \
-        sa4 = sa3;                                                                                      \
-        if (y == input->height - 1) {                                                                   \
-            sa4 = sa3 = sa2;                                                                            \
-        }                                                                                               \
-    }
-
-#define INIT_21_PIXELS                                      \
-    const uint32_t B1 = sa0[2];                             \
-    const uint32_t PB = sa1[2];                             \
-    const uint32_t PE = sa2[2];                             \
-    const uint32_t PH = sa3[2];                             \
-    const uint32_t H5 = sa4[2];                             \
-                                                            \
-    const int pprev = 2 - (x > 0);                          \
-    const uint32_t A1 = sa0[pprev];                         \
-    const uint32_t PA = sa1[pprev];                         \
-    const uint32_t PD = sa2[pprev];                         \
-    const uint32_t PG = sa3[pprev];                         \
-    const uint32_t G5 = sa4[pprev];                         \
-                                                            \
-    const int pprev2 = pprev - (x > 1);                     \
-    const uint32_t A0 = sa1[pprev2];                        \
-    const uint32_t D0 = sa2[pprev2];                        \
-    const uint32_t G0 = sa3[pprev2];                        \
-                                                            \
-    const int pnext = 3 - (x == input->width - 1);          \
-    const uint32_t C1 = sa0[pnext];                         \
-    const uint32_t PC = sa1[pnext];                         \
-    const uint32_t PF = sa2[pnext];                         \
-    const uint32_t PI = sa3[pnext];                         \
-    const uint32_t I5 = sa4[pnext];                         \
-                                                            \
-    const int pnext2 = pnext + 1 - (x >= input->width - 2); \
-    const uint32_t C4 = sa1[pnext2];                        \
-    const uint32_t F4 = sa2[pnext2];                        \
-    const uint32_t I4 = sa3[pnext2];
-
 #define FILT2(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1,   \
               N0, N1, N2, N3) do {                                                                  \
     if (PE != PH && PE != PF) {                                                                     \
@@ -178,35 +132,6 @@ static uint32_t pixel_diff(uint32_t x, uint32_t y, const uint32_t *r2y)
     }                                                                                               \
 } while (0)
 
-static void xbr2x(AVFrame * input, AVFrame * output, const uint32_t * r2y)
-{
-    int x, y;
-    const int nl = output->linesize[0] >> 2;
-
-    for (y = 0; y < input->height; y++) {
-        INIT_SRC_DST_POINTERS(2)
-
-        for (x = 0; x < input->width; x++) {
-            INIT_21_PIXELS
-
-            E[0] = E[1] = E[nl] = E[nl + 1] = PE; // 0, 1, 2, 3
-
-            FILT2(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1, 0, 1, nl, nl+1);
-            FILT2(PE, PC, PF, PB, PI, PA, PH, PD, PG, I4, A1, I5, H5, A0, D0, B1, C1, F4, C4, G5, G0, nl, 0, nl+1, 1);
-            FILT2(PE, PA, PB, PD, PC, PG, PF, PH, PI, C1, G0, C4, F4, G5, H5, D0, A0, B1, A1, I4, I5, nl+1, nl, 1, 0);
-            FILT2(PE, PG, PD, PH, PA, PI, PB, PF, PC, A0, I5, A1, B1, I4, F4, H5, G5, D0, G0, C1, C4, 1, nl+1, 0, nl);
-
-            sa0 += 1;
-            sa1 += 1;
-            sa2 += 1;
-            sa3 += 1;
-            sa4 += 1;
-
-            E += 2;
-        }
-    }
-}
-
 #define FILT3(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1,   \
               N0, N1, N2, N3, N4, N5, N6, N7, N8) do {                                              \
     if (PE != PH && PE != PF) {                                                                     \
@@ -247,38 +172,6 @@ static void xbr2x(AVFrame * input, AVFrame * output, const uint32_t * r2y)
     }                                                                                               \
 } while (0)
 
-static void xbr3x(AVFrame *input, AVFrame *output, const uint32_t *r2y)
-{
-    int x, y;
-    const int nl = output->linesize[0] >> 2;
-    const int nl1 = nl + nl;
-
-    for (y = 0; y < input->height; y++) {
-        INIT_SRC_DST_POINTERS(3)
-
-        for (x = 0; x < input->width; x++) {
-            INIT_21_PIXELS
-
-            E[0]   = E[1]     = E[2]     = PE;
-            E[nl]  = E[nl+1]  = E[nl+2]  = PE; // 3, 4, 5
-            E[nl1] = E[nl1+1] = E[nl1+2] = PE; // 6, 7, 8
-
-            FILT3(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1, 0, 1, 2, nl, nl+1, nl+2, nl1, nl1+1, nl1+2);
-            FILT3(PE, PC, PF, PB, PI, PA, PH, PD, PG, I4, A1, I5, H5, A0, D0, B1, C1, F4, C4, G5, G0, nl1, nl, 0, nl1+1, nl+1, 1, nl1+2, nl+2, 2);
-            FILT3(PE, PA, PB, PD, PC, PG, PF, PH, PI, C1, G0, C4, F4, G5, H5, D0, A0, B1, A1, I4, I5, nl1+2, nl1+1, nl1, nl+2, nl+1, nl, 2, 1, 0);
-            FILT3(PE, PG, PD, PH, PA, PI, PB, PF, PC, A0, I5, A1, B1, I4, F4, H5, G5, D0, G0, C1, C4, 2, nl+2, nl1+2, 1, nl+1, nl1+1, 0, nl, nl1);
-
-            sa0 += 1;
-            sa1 += 1;
-            sa2 += 1;
-            sa3 += 1;
-            sa4 += 1;
-
-            E += 3;
-        }
-    }
-}
-
 #define FILT4(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1,   \
               N15, N14, N11, N3, N7, N10, N13, N12, N9, N6, N2, N1, N5, N8, N4, N0) do {            \
     if (PE != PH && PE != PF) {                                                                     \
@@ -323,28 +216,100 @@ static void xbr3x(AVFrame *input, AVFrame *output, const uint32_t *r2y)
     }                                                                                               \
 } while (0)
 
-static void xbr4x(AVFrame *input, AVFrame *output, const uint32_t *r2y)
+static av_always_inline void xbr_filter(const ThreadData *td, int jobnr, int nb_jobs, int n)
 {
     int x, y;
+    const AVFrame *input = td->in;
+    AVFrame *output = td->out;
+    const uint32_t *r2y = td->rgbtoyuv;
+    const int slice_start = (input->height *  jobnr   ) / nb_jobs;
+    const int slice_end   = (input->height * (jobnr+1)) / nb_jobs;
     const int nl = output->linesize[0] >> 2;
     const int nl1 = nl + nl;
     const int nl2 = nl1 + nl;
 
-    for (y = 0; y < input->height; y++) {
-        INIT_SRC_DST_POINTERS(4)
+    for (y = slice_start; y < slice_end; y++) {
 
-        for (x = 0; x < input->width; x++) {
-            INIT_21_PIXELS
+        uint32_t *E = (uint32_t *)(output->data[0] + y * output->linesize[0] * n);
+        const uint32_t *sa2 = (uint32_t *)(input->data[0] + y * input->linesize[0] - 8); /* center */
+        const uint32_t *sa1 = sa2 - (input->linesize[0]>>2); /* up x1 */
+        const uint32_t *sa0 = sa1 - (input->linesize[0]>>2); /* up x2 */
+        const uint32_t *sa3 = sa2 + (input->linesize[0]>>2); /* down x1 */
+        const uint32_t *sa4 = sa3 + (input->linesize[0]>>2); /* down x2 */
 
-            E[0]   = E[1]     = E[2]     = E[3]     = PE;
-            E[nl]  = E[nl+1]  = E[nl+2]  = E[nl+3]  = PE; //  4,  5,  6,  7
-            E[nl1] = E[nl1+1] = E[nl1+2] = E[nl1+3] = PE; //  8,  9, 10, 11
-            E[nl2] = E[nl2+1] = E[nl2+2] = E[nl2+3] = PE; // 12, 13, 14, 15
+        if (y <= 1) {
+            sa0 = sa1;
+            if (y == 0) {
+                sa0 = sa1 = sa2;
+            }
+        }
 
-            FILT4(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1, nl2+3, nl2+2, nl1+3,  3,  nl+3, nl1+2, nl2+1, nl2,  nl1+1,  nl+2, 2,  1, nl+1, nl1, nl, 0);
-            FILT4(PE, PC, PF, PB, PI, PA, PH, PD, PG, I4, A1, I5, H5, A0, D0, B1, C1, F4, C4, G5, G0,  3,  nl+3,  2,  0,  1,  nl+2, nl1+3, nl2+3, nl1+2,  nl+1, nl,  nl1, nl1+1,nl2+2,nl2+1,nl2);
-            FILT4(PE, PA, PB, PD, PC, PG, PF, PH, PI, C1, G0, C4, F4, G5, H5, D0, A0, B1, A1, I4, I5,  0,  1,  nl, nl2,  nl1,  nl+1,  2,  3,  nl+2,  nl1+1, nl2+1,nl2+2,nl1+2, nl+3,nl1+3,nl2+3);
-            FILT4(PE, PG, PD, PH, PA, PI, PB, PF, PC, A0, I5, A1, B1, I4, F4, H5, G5, D0, G0, C1, C4, nl2,  nl1, nl2+1, nl2+3, nl2+2,  nl1+1,  nl,  0,  nl+1, nl1+2, nl1+3, nl+3, nl+2, 1, 2, 3);
+        if (y >= input->height - 2) {
+            sa4 = sa3;
+            if (y == input->height - 1) {
+                sa4 = sa3 = sa2;
+            }
+        }
+
+        for (x = 0; x < input->width; x++) {
+            const uint32_t B1 = sa0[2];
+            const uint32_t PB = sa1[2];
+            const uint32_t PE = sa2[2];
+            const uint32_t PH = sa3[2];
+            const uint32_t H5 = sa4[2];
+
+            const int pprev = 2 - (x > 0);
+            const uint32_t A1 = sa0[pprev];
+            const uint32_t PA = sa1[pprev];
+            const uint32_t PD = sa2[pprev];
+            const uint32_t PG = sa3[pprev];
+            const uint32_t G5 = sa4[pprev];
+
+            const int pprev2 = pprev - (x > 1);
+            const uint32_t A0 = sa1[pprev2];
+            const uint32_t D0 = sa2[pprev2];
+            const uint32_t G0 = sa3[pprev2];
+
+            const int pnext = 3 - (x == input->width - 1);
+            const uint32_t C1 = sa0[pnext];
+            const uint32_t PC = sa1[pnext];
+            const uint32_t PF = sa2[pnext];
+            const uint32_t PI = sa3[pnext];
+            const uint32_t I5 = sa4[pnext];
+
+            const int pnext2 = pnext + 1 - (x >= input->width - 2);
+            const uint32_t C4 = sa1[pnext2];
+            const uint32_t F4 = sa2[pnext2];
+            const uint32_t I4 = sa3[pnext2];
+
+            if (n == 2) {
+                E[0]  = E[1]      =     // 0, 1
+                E[nl] = E[nl + 1] = PE; // 2, 3
+
+                FILT2(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1, 0, 1, nl, nl+1);
+                FILT2(PE, PC, PF, PB, PI, PA, PH, PD, PG, I4, A1, I5, H5, A0, D0, B1, C1, F4, C4, G5, G0, nl, 0, nl+1, 1);
+                FILT2(PE, PA, PB, PD, PC, PG, PF, PH, PI, C1, G0, C4, F4, G5, H5, D0, A0, B1, A1, I4, I5, nl+1, nl, 1, 0);
+                FILT2(PE, PG, PD, PH, PA, PI, PB, PF, PC, A0, I5, A1, B1, I4, F4, H5, G5, D0, G0, C1, C4, 1, nl+1, 0, nl);
+            } else if (n == 3) {
+                E[0]   = E[1]     = E[2]     =     // 0, 1, 2
+                E[nl]  = E[nl+1]  = E[nl+2]  =     // 3, 4, 5
+                E[nl1] = E[nl1+1] = E[nl1+2] = PE; // 6, 7, 8
+
+                FILT3(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1, 0, 1, 2, nl, nl+1, nl+2, nl1, nl1+1, nl1+2);
+                FILT3(PE, PC, PF, PB, PI, PA, PH, PD, PG, I4, A1, I5, H5, A0, D0, B1, C1, F4, C4, G5, G0, nl1, nl, 0, nl1+1, nl+1, 1, nl1+2, nl+2, 2);
+                FILT3(PE, PA, PB, PD, PC, PG, PF, PH, PI, C1, G0, C4, F4, G5, H5, D0, A0, B1, A1, I4, I5, nl1+2, nl1+1, nl1, nl+2, nl+1, nl, 2, 1, 0);
+                FILT3(PE, PG, PD, PH, PA, PI, PB, PF, PC, A0, I5, A1, B1, I4, F4, H5, G5, D0, G0, C1, C4, 2, nl+2, nl1+2, 1, nl+1, nl1+1, 0, nl, nl1);
+            } else if (n == 4) {
+                E[0]   = E[1]     = E[2]     = E[3]     =     //  0,  1,  2,  3
+                E[nl]  = E[nl+1]  = E[nl+2]  = E[nl+3]  =     //  4,  5,  6,  7
+                E[nl1] = E[nl1+1] = E[nl1+2] = E[nl1+3] =     //  8,  9, 10, 11
+                E[nl2] = E[nl2+1] = E[nl2+2] = E[nl2+3] = PE; // 12, 13, 14, 15
+
+                FILT4(PE, PI, PH, PF, PG, PC, PD, PB, PA, G5, C4, G0, D0, C1, B1, F4, I4, H5, I5, A0, A1, nl2+3, nl2+2, nl1+3, 3, nl+3, nl1+2, nl2+1, nl2, nl1+1, nl+2, 2, 1, nl+1, nl1, nl, 0);
+                FILT4(PE, PC, PF, PB, PI, PA, PH, PD, PG, I4, A1, I5, H5, A0, D0, B1, C1, F4, C4, G5, G0, 3, nl+3, 2, 0, 1, nl+2, nl1+3, nl2+3, nl1+2, nl+1, nl, nl1, nl1+1, nl2+2, nl2+1, nl2);
+                FILT4(PE, PA, PB, PD, PC, PG, PF, PH, PI, C1, G0, C4, F4, G5, H5, D0, A0, B1, A1, I4, I5, 0, 1, nl, nl2, nl1, nl+1, 2, 3, nl+2, nl1+1, nl2+1, nl2+2, nl1+2, nl+3, nl1+3, nl2+3);
+                FILT4(PE, PG, PD, PH, PA, PI, PB, PF, PC, A0, I5, A1, B1, I4, F4, H5, G5, D0, G0, C1, C4, nl2, nl1, nl2+1, nl2+3, nl2+2, nl1+1, nl, 0, nl+1, nl1+2, nl1+3, nl+3, nl+2, 1, 2, 3);
+            }
 
             sa0 += 1;
             sa1 += 1;
@@ -352,11 +317,23 @@ static void xbr4x(AVFrame *input, AVFrame *output, const uint32_t *r2y)
             sa3 += 1;
             sa4 += 1;
 
-            E += 4;
+            E += n;
         }
     }
 }
 
+#define XBR_FUNC(size) \
+static int xbr##size##x(AVFilterContext *ctx, void *arg, int jobnr, int nb_jobs) \
+{ \
+    xbr_filter(arg, jobnr, nb_jobs, size); \
+    return 0; \
+}
+
+XBR_FUNC(2)
+XBR_FUNC(3)
+XBR_FUNC(4)
+
+
 static int config_output(AVFilterLink *outlink)
 {
     AVFilterContext *ctx = outlink->src;
@@ -383,7 +360,7 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
     AVFilterContext *ctx = inlink->dst;
     AVFilterLink *outlink = ctx->outputs[0];
     XBRContext *xbr = ctx->priv;
-    const uint32_t *r2y = xbr->rgbtoyuv;
+    ThreadData td;
 
     AVFrame *out = ff_get_video_buffer(outlink, outlink->w, outlink->h);
     if (!out) {
@@ -392,12 +369,11 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
     }
 
     av_frame_copy_props(out, in);
-    if (xbr->n == 4)
-        xbr4x(in, out, r2y);
-    else if (xbr->n == 3)
-        xbr3x(in, out, r2y);
-    else
-        xbr2x(in, out, r2y);
+
+    td.in = in;
+    td.out = out;
+    td.rgbtoyuv = xbr->rgbtoyuv;
+    ctx->internal->execute(ctx, xbr->func, &td, NULL, FFMIN(inlink->h, ctx->graph->nb_threads));
 
     out->width  = outlink->w;
     out->height = outlink->h;
@@ -409,6 +385,8 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
 static int init(AVFilterContext *ctx)
 {
     XBRContext *xbr = ctx->priv;
+    static const xbrfunc_t xbrfuncs[] = {xbr2x, xbr3x, xbr4x};
+
     uint32_t c;
     int bg, rg, g;
 
@@ -427,6 +405,7 @@ static int init(AVFilterContext *ctx)
         }
     }
 
+    xbr->func = xbrfuncs[xbr->n - 2];
     return 0;
 }
 
@@ -457,4 +436,5 @@ AVFilter ff_vf_xbr = {
     .priv_size     = sizeof(XBRContext),
     .priv_class    = &xbr_class,
     .init          = init,
+    .flags         = AVFILTER_FLAG_SLICE_THREADS,
 };