Fix some store forwarding stalls

author Fiona Glaser <fiona@x264.com>

Thu, 7 Feb 2013 00:55:39 +0000 (16:55 -0800)

committer Fiona Glaser <fiona@x264.com>

Tue, 26 Feb 2013 07:22:55 +0000 (23:22 -0800)
author Fiona Glaser <fiona@x264.com>
Thu, 7 Feb 2013 00:55:39 +0000 (16:55 -0800)
committer Fiona Glaser <fiona@x264.com>
Tue, 26 Feb 2013 07:22:55 +0000 (23:22 -0800)
diff --git a/common/x86/pixel-a.asm b/common/x86/pixel-a.asm

index df446b1a4e758714e2668d0b48d26e9a61567d96..e34fec0efdcec138be0153df651038af241b8f75 100644 (file)
--- a/common/x86/pixel-a.asm
+++ b/common/x86/pixel-a.asm
@@ -4410,8 +4410,8 @@ cglobal pixel_ads4, 5,7,12
      punpckhqdq xmm5, xmm5
      punpckhqdq xmm4, xmm4
  %if ARCH_X86_64
-    pshuflw xmm8, r6m, 0
-    punpcklqdq xmm8, xmm8
+    movd    xmm8, r6m
+    SPLATW  xmm8, xmm8
      ADS_START
      movdqu  xmm10, [r1]
      movdqu  xmm11, [r1+r2]
diff --git a/encoder/slicetype.c b/encoder/slicetype.c

index 0ecd91e242ba68aff870490e40f55e31cfa67a67..d57748a30cccb6640d9b42baa9778528748bca98 100644 (file)
--- a/encoder/slicetype.c
+++ b/encoder/slicetype.c
@@ -633,15 +633,16 @@ lowres_intra_mb:
      if( !fenc->b_intra_calculated )
      {
          ALIGNED_ARRAY_16( pixel, edge,[36] );
-        pixel *pix = &pix1[8+FDEC_STRIDE - 1];
-        pixel *src = &fenc->lowres[0][i_pel_offset - 1];
+        pixel *pix = &pix1[8+FDEC_STRIDE];
+        pixel *src = &fenc->lowres[0][i_pel_offset];
          const int intra_penalty = 5 * a->i_lambda;
          int satds[3];
+        int pixoff = 4 / sizeof(pixel);
  
-        memcpy( pix-FDEC_STRIDE, src-i_stride, 17 * sizeof(pixel) );
-        for( int i = 0; i < 8; i++ )
-            pix[i*FDEC_STRIDE] = src[i*i_stride];
-        pix++;
+        /* Avoid store forwarding stalls by writing larger chunks */
+        memcpy( pix-FDEC_STRIDE, src-i_stride, 16 * sizeof(pixel) );
+        for( int i = -1; i < 8; i++ )
+            M32( &pix[i*FDEC_STRIDE-pixoff] ) = M32( &src[i*i_stride-pixoff] );
  
          h->pixf.intra_mbcmp_x3_8x8c( h->mb.pic.p_fenc[0], pix, satds );
          int i_icost = X264_MIN3( satds[0], satds[1], satds[2] );
author	Fiona Glaser <fiona@x264.com>
	Thu, 7 Feb 2013 00:55:39 +0000 (16:55 -0800)
committer	Fiona Glaser <fiona@x264.com>
	Tue, 26 Feb 2013 07:22:55 +0000 (23:22 -0800)
common/x86/pixel-a.asm		patch \| blob \| history
encoder/slicetype.c		patch \| blob \| history