]> git.sesse.net Git - ffmpeg/blobdiff - libavcodec/i386/dsputil_mmx_avg.h
Add some initial optimizations for ARM VFP (floating
[ffmpeg] / libavcodec / i386 / dsputil_mmx_avg.h
index d37d3006464420d85e6c1a45b4054f87ad3e0b7a..7509b75e5827aad946b91ddb51ebf9ab5edf948d 100644 (file)
  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  */
 
+/* This header intentionally has no multiple inclusion guards. It is meant to
+ * be included multiple times and generates different code depending on the
+ * value of certain #defines. */
+
 /* XXX: we use explicit registers to avoid a gcc 2.95.2 register asm
    clobber bug - now it will work with 2.95.2 and also with -fPIC
  */
 static void DEF(put_pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "1:                             \n\t"
         "movq (%1), %%mm0               \n\t"
@@ -51,13 +55,13 @@ static void DEF(put_pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line_
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D"(block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a, "memory");
 }
 
 static void DEF(put_pixels4_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "testl $1, %0                   \n\t"
             " jz 1f                     \n\t"
         "movd   (%1), %%mm0             \n\t"
@@ -101,14 +105,14 @@ static void DEF(put_pixels4_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"S"((x86_reg)src1Stride), "D"((x86_reg)dstStride)
         :"memory");
 }
 
 
 static void DEF(put_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "testl $1, %0                   \n\t"
             " jz 1f                     \n\t"
         "movq   (%1), %%mm0             \n\t"
@@ -148,7 +152,7 @@ static void DEF(put_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"S"((x86_reg)src1Stride), "D"((x86_reg)dstStride)
         :"memory");
 //the following should be used, though better not with gcc ...
 /*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
@@ -158,7 +162,7 @@ static void DEF(put_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 
 static void DEF(put_no_rnd_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "pcmpeqb %%mm6, %%mm6           \n\t"
         "testl $1, %0                   \n\t"
             " jz 1f                     \n\t"
@@ -218,7 +222,7 @@ static void DEF(put_no_rnd_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"S"((x86_reg)src1Stride), "D"((x86_reg)dstStride)
         :"memory");
 //the following should be used, though better not with gcc ...
 /*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
@@ -228,7 +232,7 @@ static void DEF(put_no_rnd_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src
 
 static void DEF(avg_pixels4_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "testl $1, %0                   \n\t"
             " jz 1f                     \n\t"
         "movd   (%1), %%mm0             \n\t"
@@ -273,14 +277,14 @@ static void DEF(avg_pixels4_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"S"((x86_reg)src1Stride), "D"((x86_reg)dstStride)
         :"memory");
 }
 
 
 static void DEF(avg_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "testl $1, %0                   \n\t"
             " jz 1f                     \n\t"
         "movq   (%1), %%mm0             \n\t"
@@ -325,7 +329,7 @@ static void DEF(avg_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"S"((x86_reg)src1Stride), "D"((x86_reg)dstStride)
         :"memory");
 //the following should be used, though better not with gcc ...
 /*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
@@ -335,7 +339,7 @@ static void DEF(avg_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 
 static void DEF(put_pixels16_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "1:                             \n\t"
         "movq (%1), %%mm0               \n\t"
@@ -369,13 +373,13 @@ static void DEF(put_pixels16_x2)(uint8_t *block, const uint8_t *pixels, int line
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D"(block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a, "memory");
 }
 
 static void DEF(put_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "testl $1, %0                   \n\t"
             " jz 1f                     \n\t"
         "movq   (%1), %%mm0             \n\t"
@@ -413,7 +417,7 @@ static void DEF(put_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"S"((x86_reg)src1Stride), "D"((x86_reg)dstStride)
         :"memory");
 //the following should be used, though better not with gcc ...
 /*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
@@ -423,7 +427,7 @@ static void DEF(put_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 
 static void DEF(avg_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "testl $1, %0                   \n\t"
             " jz 1f                     \n\t"
         "movq   (%1), %%mm0             \n\t"
@@ -467,7 +471,7 @@ static void DEF(avg_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"S"((x86_reg)src1Stride), "D"((x86_reg)dstStride)
         :"memory");
 //the following should be used, though better not with gcc ...
 /*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
@@ -477,7 +481,7 @@ static void DEF(avg_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int
 
 static void DEF(put_no_rnd_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "pcmpeqb %%mm6, %%mm6           \n\t"
         "testl $1, %0                   \n\t"
             " jz 1f                     \n\t"
@@ -540,7 +544,7 @@ static void DEF(put_no_rnd_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *sr
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"S"((x86_reg)src1Stride), "D"((x86_reg)dstStride)
         :"memory");
 //the following should be used, though better not with gcc ...
 /*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
@@ -552,7 +556,7 @@ static void DEF(put_no_rnd_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *sr
 static void DEF(put_no_rnd_pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     MOVQ_BONE(mm6);
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "1:                             \n\t"
         "movq (%1), %%mm0               \n\t"
@@ -582,13 +586,13 @@ static void DEF(put_no_rnd_pixels8_x2)(uint8_t *block, const uint8_t *pixels, in
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D"(block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a, "memory");
 }
 
 static void DEF(put_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "movq (%1), %%mm0               \n\t"
         "sub %3, %2                     \n\t"
@@ -612,7 +616,7 @@ static void DEF(put_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D" (block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a, "memory");
 }
 
@@ -620,7 +624,7 @@ static void DEF(put_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_
 static void DEF(put_no_rnd_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     MOVQ_BONE(mm6);
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "movq (%1), %%mm0               \n\t"
         "sub %3, %2                     \n\t"
@@ -646,13 +650,13 @@ static void DEF(put_no_rnd_pixels8_y2)(uint8_t *block, const uint8_t *pixels, in
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D" (block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a, "memory");
 }
 
 static void DEF(avg_pixels8)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "1:                             \n\t"
         "movq (%2), %%mm0               \n\t"
@@ -674,13 +678,13 @@ static void DEF(avg_pixels8)(uint8_t *block, const uint8_t *pixels, int line_siz
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D"(block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a, "memory");
 }
 
 static void DEF(avg_pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "1:                             \n\t"
         "movq (%1), %%mm0               \n\t"
@@ -706,13 +710,13 @@ static void DEF(avg_pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line_
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D"(block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a, "memory");
 }
 
 static void DEF(avg_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "movq (%1), %%mm0               \n\t"
         "sub %3, %2                     \n\t"
@@ -744,7 +748,7 @@ static void DEF(avg_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D"(block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a, "memory");
 }
 
@@ -753,7 +757,7 @@ static void DEF(avg_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_
 static void DEF(avg_pixels8_xy2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     MOVQ_BONE(mm6);
-    __asm __volatile(
+    asm volatile(
         "lea (%3, %3), %%"REG_a"        \n\t"
         "movq (%1), %%mm0               \n\t"
         PAVGB" 1(%1), %%mm0             \n\t"
@@ -787,10 +791,35 @@ static void DEF(avg_pixels8_xy2)(uint8_t *block, const uint8_t *pixels, int line
         "subl $4, %0                    \n\t"
         "jnz 1b                         \n\t"
         :"+g"(h), "+S"(pixels), "+D"(block)
-        :"r" ((long)line_size)
+        :"r" ((x86_reg)line_size)
         :"%"REG_a,  "memory");
 }
 
+static void DEF(avg_pixels4)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
+{
+    do {
+        asm volatile(
+            "movd (%1), %%mm0               \n\t"
+            "movd (%1, %2), %%mm1           \n\t"
+            "movd (%1, %2, 2), %%mm2        \n\t"
+            "movd (%1, %3), %%mm3           \n\t"
+            PAVGB" (%0), %%mm0              \n\t"
+            PAVGB" (%0, %2), %%mm1          \n\t"
+            PAVGB" (%0, %2, 2), %%mm2       \n\t"
+            PAVGB" (%0, %3), %%mm3          \n\t"
+            "movd %%mm0, (%1)               \n\t"
+            "movd %%mm1, (%1, %2)           \n\t"
+            "movd %%mm2, (%1, %2, 2)        \n\t"
+            "movd %%mm3, (%1, %3)           \n\t"
+            ::"S"(pixels), "D"(block),
+             "r" ((x86_reg)line_size), "r"((x86_reg)3L*line_size)
+            :"memory");
+        block += 4*line_size;
+        pixels += 4*line_size;
+        h -= 4;
+    } while(h > 0);
+}
+
 //FIXME the following could be optimized too ...
 static void DEF(put_no_rnd_pixels16_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h){
     DEF(put_no_rnd_pixels8_x2)(block  , pixels  , line_size, h);
@@ -839,8 +868,8 @@ static void DEF(OPNAME ## 2tap_qpel16_l3)(uint8_t *dst, uint8_t *src, int stride
         "decl  %0              \n\t"\
         "jnz   1b              \n\t"\
         :"+g"(h), "+r"(src)\
-        :"r"((long)off1), "r"((long)off2),\
-         "r"((long)(dst-src)), "r"((long)stride)\
+        :"r"((x86_reg)off1), "r"((x86_reg)off2),\
+         "r"((x86_reg)(dst-src)), "r"((x86_reg)stride)\
         :"memory"\
     );\
 }\
@@ -856,8 +885,8 @@ static void DEF(OPNAME ## 2tap_qpel8_l3)(uint8_t *dst, uint8_t *src, int stride,
         "decl  %0              \n\t"\
         "jnz   1b              \n\t"\
         :"+g"(h), "+r"(src)\
-        :"r"((long)off1), "r"((long)off2),\
-         "r"((long)(dst-src)), "r"((long)stride)\
+        :"r"((x86_reg)off1), "r"((x86_reg)off2),\
+         "r"((x86_reg)(dst-src)), "r"((x86_reg)stride)\
         :"memory"\
     );\
 }