git.sesse.net Git - x264/blob - common/x86/dct-a.asm

   1 ;*****************************************************************************
   2 ;* dct-a.asm: h264 encoder library
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2003-2008 x264 project
   5 ;*
   6 ;* Authors: Laurent Aimar <fenrir@via.ecp.fr>
   7 ;*          Min Chen <chenm001.163.com>
   8 ;*          Loren Merritt <lorenm@u.washington.edu>
   9 ;*
  10 ;* This program is free software; you can redistribute it and/or modify
  11 ;* it under the terms of the GNU General Public License as published by
  12 ;* the Free Software Foundation; either version 2 of the License, or
  13 ;* (at your option) any later version.
  14 ;*
  15 ;* This program is distributed in the hope that it will be useful,
  16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  18 ;* GNU General Public License for more details.
  19 ;*
  20 ;* You should have received a copy of the GNU General Public License
  21 ;* along with this program; if not, write to the Free Software
  22 ;* Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA  02111, USA.
  23 ;*****************************************************************************
  24
  25 %include "x86inc.asm"
  26
  27 SECTION_RODATA
  28 pw_1:  times 8 dw 1
  29 pw_32: times 8 dw 32
  30 pb_zigzag4: db 0,1,4,8,5,2,3,6,9,12,13,10,7,11,14,15
  31
  32 SECTION .text
  33
  34 %macro LOAD_DIFF_4P 5
  35     movd        %1, %4
  36     punpcklbw   %1, %3
  37     movd        %2, %5
  38     punpcklbw   %2, %3
  39     psubw       %1, %2
  40 %endmacro
  41
  42 %macro SUMSUB_BA 2
  43     paddw   %1, %2
  44     paddw   %2, %2
  45     psubw   %2, %1
  46 %endmacro
  47
  48 %macro SUMSUB_BADC 4
  49     paddw   %1, %2
  50     paddw   %3, %4
  51     paddw   %2, %2
  52     paddw   %4, %4
  53     psubw   %2, %1
  54     psubw   %4, %3
  55 %endmacro
  56
  57 %macro SUMSUB2_AB 3
  58     movq    %3, %1
  59     paddw   %1, %1
  60     paddw   %1, %2
  61     psubw   %3, %2
  62     psubw   %3, %2
  63 %endmacro
  64
  65 %macro SUMSUBD2_AB 4
  66     movq    %4, %1
  67     movq    %3, %2
  68     psraw   %2, 1
  69     psraw   %4, 1
  70     paddw   %1, %2
  71     psubw   %4, %3
  72 %endmacro
  73
  74 %macro SBUTTERFLY 4
  75     mova       m%4, m%2
  76     punpckl%1  m%2, m%3
  77     punpckh%1  m%4, m%3
  78     SWAP %3, %4
  79 %endmacro
  80
  81 %macro TRANSPOSE4x4W 5
  82     SBUTTERFLY wd, %1, %2, %5
  83     SBUTTERFLY wd, %3, %4, %5
  84     SBUTTERFLY dq, %1, %3, %5
  85     SBUTTERFLY dq, %2, %4, %5
  86     SWAP %2, %3
  87 %endmacro
  88
  89 %macro STORE_DIFF_4P 5
  90     paddw       %1, %3
  91     psraw       %1, 6
  92     movd        %2, %5
  93     punpcklbw   %2, %4
  94     paddsw      %1, %2
  95     packuswb    %1, %1
  96     movd        %5, %1
  97 %endmacro
  98
  99 %macro HADAMARD4_1D 4
 100     SUMSUB_BADC m%2, m%1, m%4, m%3
 101     SUMSUB_BADC m%4, m%2, m%3, m%1
 102     SWAP %1, %4, %3
 103 %endmacro
 104
 105 ;-----------------------------------------------------------------------------
 106 ; void x264_dct4x4dc_mmx( int16_t d[4][4] )
 107 ;-----------------------------------------------------------------------------
 108 cglobal x264_dct4x4dc_mmx, 1,1,1
 109     movq   m0, [r0+ 0]
 110     movq   m1, [r0+ 8]
 111     movq   m2, [r0+16]
 112     movq   m3, [r0+24]
 113     HADAMARD4_1D  0,1,2,3
 114     TRANSPOSE4x4W 0,1,2,3,4
 115     HADAMARD4_1D  0,1,2,3
 116     movq   m6, [pw_1 GLOBAL]
 117     paddw  m0, m6
 118     paddw  m1, m6
 119     paddw  m2, m6
 120     paddw  m3, m6
 121     psraw  m0, 1
 122     psraw  m1, 1
 123     psraw  m2, 1
 124     psraw  m3, 1
 125     movq  [r0+0], m0
 126     movq  [r0+8], m1
 127     movq [r0+16], m2
 128     movq [r0+24], m3
 129     RET
 130
 131 ;-----------------------------------------------------------------------------
 132 ; void x264_idct4x4dc_mmx( int16_t d[4][4] )
 133 ;-----------------------------------------------------------------------------
 134 cglobal x264_idct4x4dc_mmx, 1,1
 135     movq  m0, [r0+ 0]
 136     movq  m1, [r0+ 8]
 137     movq  m2, [r0+16]
 138     movq  m3, [r0+24]
 139     HADAMARD4_1D  0,1,2,3
 140     TRANSPOSE4x4W 0,1,2,3,4
 141     HADAMARD4_1D  0,1,2,3
 142     movq  [r0+ 0], m0
 143     movq  [r0+ 8], m1
 144     movq  [r0+16], m2
 145     movq  [r0+24], m3
 146     RET
 147
 148 %macro DCT4_1D 5
 149     SUMSUB_BADC m%4, m%1, m%3, m%2
 150     SUMSUB_BA   m%3, m%4
 151     SUMSUB2_AB  m%1, m%2, m%5
 152     SWAP %1, %3, %4, %5, %2
 153 %endmacro
 154
 155 %macro IDCT4_1D 6
 156     SUMSUB_BA   m%3, m%1
 157     SUMSUBD2_AB m%2, m%4, m%6, m%5
 158     SUMSUB_BADC m%2, m%3, m%5, m%1
 159     SWAP %1, %2, %5, %4, %3
 160 %endmacro
 161
 162 ;-----------------------------------------------------------------------------
 163 ; void x264_sub4x4_dct_mmx( int16_t dct[4][4], uint8_t *pix1, uint8_t *pix2 )
 164 ;-----------------------------------------------------------------------------
 165 cglobal x264_sub4x4_dct_mmx, 3,3
 166 .skip_prologue:
 167     LOAD_DIFF_4P  m0, m6, m7, [r1+0*FENC_STRIDE], [r2+0*FDEC_STRIDE]
 168     LOAD_DIFF_4P  m1, m6, m7, [r1+1*FENC_STRIDE], [r2+1*FDEC_STRIDE]
 169     LOAD_DIFF_4P  m2, m6, m7, [r1+2*FENC_STRIDE], [r2+2*FDEC_STRIDE]
 170     LOAD_DIFF_4P  m3, m6, m7, [r1+3*FENC_STRIDE], [r2+3*FDEC_STRIDE]
 171     DCT4_1D 0,1,2,3,4
 172     TRANSPOSE4x4W 0,1,2,3,4
 173     DCT4_1D 0,1,2,3,4
 174     movq  [r0+ 0], m0
 175     movq  [r0+ 8], m1
 176     movq  [r0+16], m2
 177     movq  [r0+24], m3
 178     RET
 179
 180 ;-----------------------------------------------------------------------------
 181 ; void x264_add4x4_idct_mmx( uint8_t *p_dst, int16_t dct[4][4] )
 182 ;-----------------------------------------------------------------------------
 183 cglobal x264_add4x4_idct_mmx, 2,2,1
 184 .skip_prologue:
 185     movq  m0, [r1+ 0]
 186     movq  m1, [r1+ 8]
 187     movq  m2, [r1+16]
 188     movq  m3, [r1+24]
 189     IDCT4_1D 0,1,2,3,4,5
 190     TRANSPOSE4x4W 0,1,2,3,4
 191     IDCT4_1D 0,1,2,3,4,5
 192     pxor  m7, m7
 193     movq  m6, [pw_32 GLOBAL]
 194     STORE_DIFF_4P  m0, m4, m6, m7, [r0+0*FDEC_STRIDE]
 195     STORE_DIFF_4P  m1, m4, m6, m7, [r0+1*FDEC_STRIDE]
 196     STORE_DIFF_4P  m2, m4, m6, m7, [r0+2*FDEC_STRIDE]
 197     STORE_DIFF_4P  m3, m4, m6, m7, [r0+3*FDEC_STRIDE]
 198     RET
 199
 200
 201
 202 ;-----------------------------------------------------------------------------
 203 ; void x264_sub8x8_dct_mmx( int16_t dct[4][4][4], uint8_t *pix1, uint8_t *pix2 )
 204 ;-----------------------------------------------------------------------------
 205 %macro SUB_NxN_DCT 6
 206 cglobal %1, 3,3
 207 .skip_prologue:
 208     call %2
 209     add  r0, %3
 210     add  r1, %4-%5*FENC_STRIDE
 211     add  r2, %4-%5*FDEC_STRIDE
 212     call %2
 213     add  r0, %3
 214     add  r1, %4*FENC_STRIDE-%6
 215     add  r2, %4*FDEC_STRIDE-%6
 216     call %2
 217     add  r0, %3
 218     add  r1, %4-%5*FENC_STRIDE
 219     add  r2, %4-%5*FDEC_STRIDE
 220     jmp  %2
 221 %endmacro
 222
 223 ;-----------------------------------------------------------------------------
 224 ; void x264_add8x8_idct_mmx( uint8_t *pix, int16_t dct[4][4][4] )
 225 ;-----------------------------------------------------------------------------
 226 %macro ADD_NxN_IDCT 6
 227 cglobal %1, 2,2,1
 228 .skip_prologue:
 229     call %2
 230     add  r0, %4-%5*FDEC_STRIDE
 231     add  r1, %3
 232     call %2
 233     add  r0, %4*FDEC_STRIDE-%6
 234     add  r1, %3
 235     call %2
 236     add  r0, %4-%5*FDEC_STRIDE
 237     add  r1, %3
 238     jmp  %2
 239 %endmacro
 240
 241 SUB_NxN_DCT  x264_sub8x8_dct_mmx,    x264_sub4x4_dct_mmx  %+ .skip_prologue, 32, 4, 0,  4
 242 ADD_NxN_IDCT x264_add8x8_idct_mmx,   x264_add4x4_idct_mmx %+ .skip_prologue, 32, 4, 0,  4
 243
 244 SUB_NxN_DCT  x264_sub16x16_dct_mmx,  x264_sub8x8_dct_mmx  %+ .skip_prologue, 32, 4, 4, 12
 245 ADD_NxN_IDCT x264_add16x16_idct_mmx, x264_add8x8_idct_mmx %+ .skip_prologue, 32, 4, 4, 12
 246
 247 %ifdef ARCH_X86_64
 248 cextern x264_sub8x8_dct8_sse2
 249 cextern x264_add8x8_idct8_sse2
 250 SUB_NxN_DCT  x264_sub16x16_dct8_sse2,  x264_sub8x8_dct8_sse2,  128, 8, 0,  8
 251 ADD_NxN_IDCT x264_add16x16_idct8_sse2, x264_add8x8_idct8_sse2, 128, 8, 0,  8
 252 %endif
 253
 254
 255
 256 ;-----------------------------------------------------------------------------
 257 ; void x264_zigzag_scan_4x4_field_mmxext( int16_t level[16], int16_t dct[4][4] )
 258 ;-----------------------------------------------------------------------------
 259 ; sse2 is only 1 cycle faster, and ssse3/pshufb is slower on core2
 260 cglobal x264_zigzag_scan_4x4_field_mmxext, 2,3
 261     pshufw     mm0, [r1+4], 0xd2
 262     movq       mm1, [r1+16]
 263     movq       mm2, [r1+24]
 264     movq    [r0+4], mm0
 265     movq   [r0+16], mm1
 266     movq   [r0+24], mm2
 267     mov        r2d, [r1]
 268     mov       [r0], r2d
 269     mov        r2d, [r1+12]
 270     mov    [r0+12], r2d
 271     RET
 272
 273 %ifdef HAVE_SSE3
 274 ;-----------------------------------------------------------------------------
 275 ; void x264_zigzag_sub_4x4_frame_ssse3( int16_t level[16], const uint8_t *src, uint8_t *dst )
 276 ;-----------------------------------------------------------------------------
 277 cglobal x264_zigzag_sub_4x4_frame_ssse3, 3,3
 278     movd      xmm0, [r1+0*FENC_STRIDE]
 279     movd      xmm1, [r1+1*FENC_STRIDE]
 280     movd      xmm2, [r1+2*FENC_STRIDE]
 281     movd      xmm3, [r1+3*FENC_STRIDE]
 282     movd      xmm4, [r2+0*FDEC_STRIDE]
 283     movd      xmm5, [r2+1*FDEC_STRIDE]
 284     movd      xmm6, [r2+2*FDEC_STRIDE]
 285     movd      xmm7, [r2+3*FDEC_STRIDE]
 286     movd      [r2+0*FDEC_STRIDE], xmm0
 287     movd      [r2+1*FDEC_STRIDE], xmm1
 288     movd      [r2+2*FDEC_STRIDE], xmm2
 289     movd      [r2+3*FDEC_STRIDE], xmm3
 290     picgetgot r1
 291     punpckldq xmm0, xmm1
 292     punpckldq xmm2, xmm3
 293     punpckldq xmm4, xmm5
 294     punpckldq xmm6, xmm7
 295     movlhps   xmm0, xmm2
 296     movlhps   xmm4, xmm6
 297     movdqa    xmm7, [pb_zigzag4 GLOBAL]
 298     pshufb    xmm0, xmm7
 299     pshufb    xmm4, xmm7
 300     pxor      xmm6, xmm6
 301     movdqa    xmm1, xmm0
 302     movdqa    xmm5, xmm4
 303     punpcklbw xmm0, xmm6
 304     punpckhbw xmm1, xmm6
 305     punpcklbw xmm4, xmm6
 306     punpckhbw xmm5, xmm6
 307     psubw     xmm0, xmm4
 308     psubw     xmm1, xmm5
 309     movdqa    [r0], xmm0
 310     movdqa [r0+16], xmm1
 311     RET
 312 %endif