x86: XOP pixel_ssd_nv12_core

author James Almer <jamrial@gmail.com>

Wed, 9 Apr 2014 06:33:05 +0000 (03:33 -0300)

committer Fiona Glaser <fiona@x264.com>

Tue, 22 Apr 2014 22:37:51 +0000 (15:37 -0700)
author James Almer <jamrial@gmail.com>
Wed, 9 Apr 2014 06:33:05 +0000 (03:33 -0300)
committer Fiona Glaser <fiona@x264.com>
Tue, 22 Apr 2014 22:37:51 +0000 (15:37 -0700)
diff --git a/common/pixel.c b/common/pixel.c

index fc275ea832ac3a1bc7726c11f2913e3a6226e5bb..78356c9d2f080b67d4e2224c092592945e5a791e 100644 (file)
--- a/common/pixel.c
+++ b/common/pixel.c
@@ -1021,6 +1021,7 @@ void x264_pixel_init( int cpu, x264_pixel_function_t *pixf )
      }
      if( cpu&X264_CPU_XOP )
      {
+        pixf->ssd_nv12_core    = x264_pixel_ssd_nv12_core_xop;
          pixf->var[PIXEL_16x16] = x264_pixel_var_16x16_xop;
          pixf->var[PIXEL_8x8]   = x264_pixel_var_8x8_xop;
          pixf->vsad = x264_pixel_vsad_xop;
@@ -1313,6 +1314,7 @@ void x264_pixel_init( int cpu, x264_pixel_function_t *pixf )
          pixf->sa8d[PIXEL_16x16]= x264_pixel_sa8d_16x16_xop;
          pixf->sa8d[PIXEL_8x8]  = x264_pixel_sa8d_8x8_xop;
          pixf->intra_satd_x3_8x16c = x264_intra_satd_x3_8x16c_xop;
+        pixf->ssd_nv12_core    = x264_pixel_ssd_nv12_core_xop;
          pixf->var[PIXEL_16x16] = x264_pixel_var_16x16_xop;
          pixf->var[PIXEL_8x16]  = x264_pixel_var_8x16_xop;
          pixf->var[PIXEL_8x8]   = x264_pixel_var_8x8_xop;
diff --git a/common/x86/pixel-a.asm b/common/x86/pixel-a.asm

index 9791e8665ea635edc8c7a93de77b774cb6ae85b3..85e7d5a45c6303f7353cc77a89b5fe0e137b36d7 100644 (file)
--- a/common/x86/pixel-a.asm
+++ b/common/x86/pixel-a.asm
@@ -561,10 +561,15 @@ cglobal pixel_ssd_nv12_core, 6,7,7
      pshufhw     m0, m0, q3120
      pshufhw     m1, m1, q3120
  %endif
+%if cpuflag(xop)
+    pmadcswd    m2, m0, m0, m2
+    pmadcswd    m3, m1, m1, m3
+%else
      pmaddwd     m0, m0
      pmaddwd     m1, m1
      paddd       m2, m0
      paddd       m3, m1
+%endif
      add         r6, 2*mmsize
      jl .loopx
  %if mmsize == 32 ; avx2 may overread by 32 bytes, that has to be handled
@@ -657,10 +662,15 @@ cglobal pixel_ssd_nv12_core, 6,7
      por     m0, m1
      psrlw   m2, m0, 8
      pand    m0, m5
+%if cpuflag(xop)
+    pmadcswd m4, m2, m2, m4
+    pmadcswd m3, m0, m0, m3
+%else
      pmaddwd m2, m2
      pmaddwd m0, m0
-    paddd   m3, m0
      paddd   m4, m2
+    paddd   m3, m0
+%endif
      add     r6, mmsize
      jl .loopx
  %if mmsize == 32 ; avx2 may overread by 16 bytes, that has to be handled
@@ -695,6 +705,8 @@ INIT_XMM sse2
  SSD_NV12
  INIT_XMM avx
  SSD_NV12
+INIT_XMM xop
+SSD_NV12
  INIT_YMM avx2
  SSD_NV12
  
diff --git a/common/x86/pixel.h b/common/x86/pixel.h

index 362bc30c943ae281507ba9e760b82bbbd32048bc..0ff68bab74e83d3c656c4caef04a8389210ad438 100644 (file)
--- a/common/x86/pixel.h
+++ b/common/x86/pixel.h
@@ -153,6 +153,9 @@ void x264_pixel_ssd_nv12_core_sse2( pixel *pixuv1, intptr_t stride1,
  void x264_pixel_ssd_nv12_core_avx ( pixel *pixuv1, intptr_t stride1,
                                      pixel *pixuv2, intptr_t stride2, int width,
                                      int height, uint64_t *ssd_u, uint64_t *ssd_v );
+void x264_pixel_ssd_nv12_core_xop ( pixel *pixuv1, intptr_t stride1,
+                                    pixel *pixuv2, intptr_t stride2, int width,
+                                    int height, uint64_t *ssd_u, uint64_t *ssd_v );
  void x264_pixel_ssd_nv12_core_avx2( pixel *pixuv1, intptr_t stride1,
                                      pixel *pixuv2, intptr_t stride2, int width,
                                      int height, uint64_t *ssd_u, uint64_t *ssd_v );
author	James Almer <jamrial@gmail.com>
	Wed, 9 Apr 2014 06:33:05 +0000 (03:33 -0300)
committer	Fiona Glaser <fiona@x264.com>
	Tue, 22 Apr 2014 22:37:51 +0000 (15:37 -0700)
common/pixel.c		patch \| blob \| history
common/x86/pixel-a.asm		patch \| blob \| history
common/x86/pixel.h		patch \| blob \| history