Merge remote-tracking branch 'qatar/master'

[ffmpeg] / libswscale / x86 / input.asm
diff --git a/libswscale/x86/input.asm b/libswscale/x86/input.asm

index 7404b19dc2b9402b6b1b71629b0a3157d62cca50..c5b483c766f408a35bbec25d7d6e85e9895df75f 100644 (file)
--- a/libswscale/x86/input.asm
+++ b/libswscale/x86/input.asm
@@ -36,8 +36,8 @@ SECTION_RODATA
  %define GV 0xD0E3
  %define BV 0xF6E4
  
-rgb_Yrnd:        times 4 dd 0x84000        ;  16.5 << 15
-rgb_UVrnd:       times 4 dd 0x404000       ; 128.5 << 15
+rgb_Yrnd:        times 4 dd 0x80100        ;  16.5 << 15
+rgb_UVrnd:       times 4 dd 0x400100       ; 128.5 << 15
  bgr_Ycoeff_12x4: times 2 dw BY, GY, 0, BY
  bgr_Ycoeff_3x56: times 2 dw RY, 0, GY, RY
  rgb_Ycoeff_12x4: times 2 dw RY, GY, 0, RY
@@ -70,7 +70,7 @@ SECTION .text
  ; %1 = nr. of XMM registers
  ; %2 = rgb or bgr
  %macro RGB24_TO_Y_FN 2-3
-cglobal %2 %+ 24ToY, 3, 3, %1, dst, src, w
+cglobal %2 %+ 24ToY, 6, 6, %1, dst, src, u1, u2, w, u3
  %if mmsize == 8
      mova           m5, [%2_Ycoeff_12x4]
      mova           m6, [%2_Ycoeff_3x56]
@@ -102,6 +102,7 @@ cglobal %2 %+ 24ToY, 3, 3, %1, dst, src, w
  %if ARCH_X86_64
      movsxd         wq, wd
  %endif
+    add            wq, wq
      add          dstq, wq
      neg            wq
  %if notcpuflag(ssse3)
@@ -145,12 +146,11 @@ cglobal %2 %+ 24ToY, 3, 3, %1, dst, src, w
      paddd          m2, m3                 ; (dword) { Bx*BY + Gx*GY + Rx*RY }[4-7]
      paddd          m0, m4                 ; += rgb_Yrnd, i.e. (dword) { Y[0-3] }
      paddd          m2, m4                 ; += rgb_Yrnd, i.e. (dword) { Y[4-7] }
-    psrad          m0, 15
-    psrad          m2, 15
+    psrad          m0, 9
+    psrad          m2, 9
      packssdw       m0, m2                 ; (word) { Y[0-7] }
-    packuswb       m0, m0                 ; (byte) { Y[0-7] }
-    movh    [dstq+wq], m0
-    add            wq, mmsize / 2
+    mova    [dstq+wq], m0
+    add            wq, mmsize
      jl .loop
      REP_RET
  %endif ; (ARCH_X86_64 && %0 == 3) || mmsize == 8
@@ -159,7 +159,7 @@ cglobal %2 %+ 24ToY, 3, 3, %1, dst, src, w
  ; %1 = nr. of XMM registers
  ; %2 = rgb or bgr
  %macro RGB24_TO_UV_FN 2-3
-cglobal %2 %+ 24ToUV, 3, 4, %1, dstU, dstV, src, w
+cglobal %2 %+ 24ToUV, 7, 7, %1, dstU, dstV, u1, src, u2, w, u3
  %if ARCH_X86_64
      mova           m8, [%2_Ucoeff_12x4]
      mova           m9, [%2_Ucoeff_3x56]
@@ -190,10 +190,11 @@ cglobal %2 %+ 24ToUV, 3, 4, %1, dstU, dstV, src, w
  %endif ; x86-32/64
  %endif ; cpuflag(ssse3)
  %if ARCH_X86_64
-    movsxd         wq, dword r4m
+    movsxd         wq, dword r5m
  %else ; x86-32
-    mov            wq, r4m
+    mov            wq, r5m
  %endif
+    add            wq, wq
      add         dstUq, wq
      add         dstVq, wq
      neg            wq
@@ -251,23 +252,20 @@ cglobal %2 %+ 24ToUV, 3, 4, %1, dstU, dstV, src, w
      paddd          m2, m6                 ; += rgb_UVrnd, i.e. (dword) { V[0-3] }
      paddd          m1, m6                 ; += rgb_UVrnd, i.e. (dword) { U[4-7] }
      paddd          m4, m6                 ; += rgb_UVrnd, i.e. (dword) { V[4-7] }
-    psrad          m0, 15
-    psrad          m2, 15
-    psrad          m1, 15
-    psrad          m4, 15
+    psrad          m0, 9
+    psrad          m2, 9
+    psrad          m1, 9
+    psrad          m4, 9
      packssdw       m0, m1                 ; (word) { U[0-7] }
      packssdw       m2, m4                 ; (word) { V[0-7] }
  %if mmsize == 8
-    packuswb       m0, m0                 ; (byte) { U[0-3] }
-    packuswb       m2, m2                 ; (byte) { V[0-3] }
-    movh   [dstUq+wq], m0
-    movh   [dstVq+wq], m2
+    mova   [dstUq+wq], m0
+    mova   [dstVq+wq], m2
  %else ; mmsize == 16
-    packuswb       m0, m2                 ; (byte) { U[0-7], V[0-7] }
-    movh   [dstUq+wq], m0
-    movhps [dstVq+wq], m0
+    mova   [dstUq+wq], m0
+    mova   [dstVq+wq], m2
  %endif ; mmsize == 8/16
-    add            wq, mmsize / 2
+    add            wq, mmsize
      jl .loop
      REP_RET
  %endif ; ARCH_X86_64 && %0 == 3
@@ -334,7 +332,7 @@ RGB24_TO_UV_FN 13, bgr, rgb
  ;      will be the same (i.e. YUYV+AVX), and thus we don't need to
  ;      split the loop in an aligned and unaligned case
  %macro YUYV_TO_Y_FN 2-3
-cglobal %2ToY, 3, 3, %1, dst, src, w
+cglobal %2ToY, 5, 5, %1, dst, unused0, unused1, src, w
  %if ARCH_X86_64
      movsxd         wq, wd
  %endif
@@ -404,11 +402,11 @@ cglobal %2ToY, 3, 3, %1, dst, src, w
  ;      will be the same (i.e. UYVY+AVX), and thus we don't need to
  ;      split the loop in an aligned and unaligned case
  %macro YUYV_TO_UV_FN 2-3
-cglobal %2ToUV, 3, 4, %1, dstU, dstV, src, w
+cglobal %2ToUV, 4, 5, %1, dstU, dstV, unused, src, w
  %if ARCH_X86_64
-    movsxd         wq, dword r4m
+    movsxd         wq, dword r5m
  %else ; x86-32
-    mov            wq, r4m
+    mov            wq, r5m
  %endif
      add         dstUq, wq
      add         dstVq, wq
@@ -438,8 +436,8 @@ cglobal %2ToUV, 3, 4, %1, dstU, dstV, src, w
  .loop_%1:
      mov%1          m0, [srcq+wq*2]        ; (byte) { U0, V0, U1, V1, ... }
      mov%1          m1, [srcq+wq*2+mmsize] ; (byte) { U8, V8, U9, V9, ... }
-    pand           m2, m0, m4             ; (word) { U0, U1, ..., U7 }
-    pand           m3, m1, m4             ; (word) { U8, U9, ..., U15 }
+    pand           m2, m0, m5             ; (word) { U0, U1, ..., U7 }
+    pand           m3, m1, m5             ; (word) { U8, U9, ..., U15 }
      psrlw          m0, 8                  ; (word) { V0, V1, ..., V7 }
      psrlw          m1, 8                  ; (word) { V8, V9, ..., V15 }
      packuswb       m2, m3                 ; (byte) { U0, ..., U15 }
@@ -459,11 +457,11 @@ cglobal %2ToUV, 3, 4, %1, dstU, dstV, src, w
  ; %1 = nr. of XMM registers
  ; %2 = nv12 or nv21
  %macro NVXX_TO_UV_FN 2
-cglobal %2ToUV, 3, 4, %1, dstU, dstV, src, w
+cglobal %2ToUV, 4, 5, %1, dstU, dstV, unused, src, w
  %if ARCH_X86_64
-    movsxd         wq, dword r4m
+    movsxd         wq, dword r5m
  %else ; x86-32
-    mov            wq, r4m
+    mov            wq, r5m
  %endif
      add         dstUq, wq
      add         dstVq, wq
@@ -471,8 +469,8 @@ cglobal %2ToUV, 3, 4, %1, dstU, dstV, src, w
      test         srcq, 15
  %endif
      lea          srcq, [srcq+wq*2]
-    pcmpeqb        m4, m4                 ; (byte) { 0xff } x 16
-    psrlw          m4, 8                  ; (word) { 0x00ff } x 8
+    pcmpeqb        m5, m5                 ; (byte) { 0xff } x 16
+    psrlw          m5, 8                  ; (word) { 0x00ff } x 8
  %if mmsize == 16
      jnz .loop_u_start
      neg            wq
@@ -504,6 +502,7 @@ YUYV_TO_UV_FN 3, uyvy
  NVXX_TO_UV_FN 5, nv12
  NVXX_TO_UV_FN 5, nv21
  
+%ifdef HAVE_AVX
  INIT_XMM avx
  ; in theory, we could write a yuy2-to-y using vpand (i.e. AVX), but
  ; that's not faster in practice
@@ -511,3 +510,4 @@ YUYV_TO_UV_FN 3, yuyv
  YUYV_TO_UV_FN 3, uyvy, 1
  NVXX_TO_UV_FN 5, nv12
  NVXX_TO_UV_FN 5, nv21
+%endif