git.sesse.net Git - ffmpeg/blob - libavcodec/x86/dwt_yasm.asm

   1 ;******************************************************************************
   2 ;* MMX optimized discrete wavelet trasnform
   3 ;* Copyright (c) 2010 David Conrad
   4 ;*
   5 ;* This file is part of FFmpeg.
   6 ;*
   7 ;* FFmpeg is free software; you can redistribute it and/or
   8 ;* modify it under the terms of the GNU Lesser General Public
   9 ;* License as published by the Free Software Foundation; either
  10 ;* version 2.1 of the License, or (at your option) any later version.
  11 ;*
  12 ;* FFmpeg is distributed in the hope that it will be useful,
  13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15 ;* Lesser General Public License for more details.
  16 ;*
  17 ;* You should have received a copy of the GNU Lesser General Public
  18 ;* License along with FFmpeg; if not, write to the Free Software
  19 ;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20 ;******************************************************************************
  21
  22 %include "x86inc.asm"
  23
  24 SECTION_RODATA
  25 pw_1: times 8 dw 1
  26 pw_2: times 8 dw 2
  27 pw_8: times 8 dw 8
  28 pw_16: times 8 dw 16
  29 pw_1991: times 4 dw 9,-1
  30
  31 section .text
  32
  33 ; %1 -= (%2 + %3 + 2)>>2     %4 is pw_2
  34 %macro COMPOSE_53iL0 4
  35     paddw   %2, %3
  36     paddw   %2, %4
  37     psraw   %2, 2
  38     psubw   %1, %2
  39 %endm
  40
  41 ; m1 = %1 + (-m0 + 9*m1 + 9*%2 -%3 + 8)>>4
  42 ; if %4 is supplied, %1 is loaded unaligned from there
  43 ; m2: clobbered  m3: pw_8  m4: pw_1991
  44 %macro COMPOSE_DD97iH0 3-4
  45     paddw   m0, %3
  46     paddw   m1, %2
  47     psubw   m0, m3
  48     mova    m2, m1
  49     punpcklwd m1, m0
  50     punpckhwd m2, m0
  51     pmaddwd m1, m4
  52     pmaddwd m2, m4
  53 %if %0 > 3
  54     movu    %1, %4
  55 %endif
  56     psrad   m1, 4
  57     psrad   m2, 4
  58     packssdw m1, m2
  59     paddw   m1, %1
  60 %endm
  61
  62 %macro COMPOSE_VERTICAL 1
  63 ; void vertical_compose53iL0(IDWTELEM *b0, IDWTELEM *b1, IDWTELEM *b2,
  64 ;                                  int width)
  65 cglobal vertical_compose53iL0_%1, 4,4,1, b0, b1, b2, width
  66     mova    m2, [pw_2]
  67 .loop:
  68     sub     widthd, mmsize/2
  69     mova    m1, [b0q+2*widthq]
  70     mova    m0, [b1q+2*widthq]
  71     COMPOSE_53iL0 m0, m1, [b2q+2*widthq], m2
  72     mova    [b1q+2*widthq], m0
  73     jg      .loop
  74     REP_RET
  75
  76 ; void vertical_compose_dirac53iH0(IDWTELEM *b0, IDWTELEM *b1, IDWTELEM *b2,
  77 ;                                  int width)
  78 cglobal vertical_compose_dirac53iH0_%1, 4,4,1, b0, b1, b2, width
  79     mova    m1, [pw_1]
  80 .loop:
  81     sub     widthd, mmsize/2
  82     mova    m0, [b0q+2*widthq]
  83     paddw   m0, [b2q+2*widthq]
  84     paddw   m0, m1
  85     psraw   m0, 1
  86     paddw   m0, [b1q+2*widthq]
  87     mova    [b1q+2*widthq], m0
  88     jg      .loop
  89     REP_RET
  90
  91 ; void vertical_compose_dd97iH0(IDWTELEM *b0, IDWTELEM *b1, IDWTELEM *b2,
  92 ;                               IDWTELEM *b3, IDWTELEM *b4, int width)
  93 cglobal vertical_compose_dd97iH0_%1, 6,6,5, b0, b1, b2, b3, b4, width
  94     mova    m3, [pw_8]
  95     mova    m4, [pw_1991]
  96 .loop:
  97     sub     widthd, mmsize/2
  98     mova    m0, [b0q+2*widthq]
  99     mova    m1, [b1q+2*widthq]
 100     COMPOSE_DD97iH0 [b2q+2*widthq], [b3q+2*widthq], [b4q+2*widthq]
 101     mova    [b2q+2*widthq], m1
 102     jg      .loop
 103     REP_RET
 104
 105 ; void vertical_compose_dd137iL0(IDWTELEM *b0, IDWTELEM *b1, IDWTELEM *b2,
 106 ;                                IDWTELEM *b3, IDWTELEM *b4, int width)
 107 cglobal vertical_compose_dd137iL0_%1, 6,6,6, b0, b1, b2, b3, b4, width
 108     mova    m3, [pw_16]
 109     mova    m4, [pw_1991]
 110 .loop:
 111     sub     widthd, mmsize/2
 112     mova    m0, [b0q+2*widthq]
 113     mova    m1, [b1q+2*widthq]
 114     mova    m5, [b2q+2*widthq]
 115     paddw   m0, [b4q+2*widthq]
 116     paddw   m1, [b3q+2*widthq]
 117     psubw   m0, m3
 118     mova    m2, m1
 119     punpcklwd m1, m0
 120     punpckhwd m2, m0
 121     pmaddwd m1, m4
 122     pmaddwd m2, m4
 123     psrad   m1, 5
 124     psrad   m2, 5
 125     packssdw m1, m2
 126     psubw   m5, m1
 127     mova    [b2q+2*widthq], m5
 128     jg      .loop
 129     REP_RET
 130
 131 ; void vertical_compose_haar(IDWTELEM *b0, IDWTELEM *b1, int width)
 132 cglobal vertical_compose_haar_%1, 3,4,3, b0, b1, width
 133     mova    m3, [pw_1]
 134 .loop:
 135     sub     widthd, mmsize/2
 136     mova    m1, [b1q+2*widthq]
 137     mova    m0, [b0q+2*widthq]
 138     mova    m2, m1
 139     paddw   m1, m3
 140     psraw   m1, 1
 141     psubw   m0, m1
 142     mova    [b0q+2*widthq], m0
 143     paddw   m2, m0
 144     mova    [b1q+2*widthq], m2
 145     jg      .loop
 146     REP_RET
 147 %endmacro
 148
 149 ; extend the left and right edges of the tmp array by %1 and %2 respectively
 150 %macro EDGE_EXTENSION 3
 151     mov     %3, [tmpq]
 152 %assign %%i 1
 153 %rep %1
 154     mov     [tmpq-2*%%i], %3
 155     %assign %%i %%i+1
 156 %endrep
 157     mov     %3, [tmpq+2*w2q-2]
 158 %assign %%i 0
 159 %rep %2
 160     mov     [tmpq+2*w2q+2*%%i], %3
 161     %assign %%i %%i+1
 162 %endrep
 163 %endmacro
 164
 165
 166 %macro HAAR_HORIZONTAL 2
 167 ; void horizontal_compose_haari(IDWTELEM *b, IDWTELEM *tmp, int width)
 168 cglobal horizontal_compose_haar%2i_%1, 3,6,4, b, tmp, w, x, w2, b_w2
 169     mov    w2d, wd
 170     xor     xq, xq
 171     shr    w2d, 1
 172     lea  b_w2q, [bq+wq]
 173     mova    m3, [pw_1]
 174 .lowpass_loop:
 175     movu    m1, [b_w2q + 2*xq]
 176     mova    m0, [bq    + 2*xq]
 177     paddw   m1, m3
 178     psraw   m1, 1
 179     psubw   m0, m1
 180     mova    [tmpq + 2*xq], m0
 181     add     xq, mmsize/2
 182     cmp     xq, w2q
 183     jl      .lowpass_loop
 184
 185     xor     xq, xq
 186     and    w2q, ~(mmsize/2 - 1)
 187     cmp    w2q, mmsize/2
 188     jl      .end
 189
 190 .highpass_loop:
 191     movu    m1, [b_w2q + 2*xq]
 192     mova    m0, [tmpq  + 2*xq]
 193     paddw   m1, m0
 194
 195     ; shift and interleave
 196 %if %2 == 1
 197     paddw   m0, m3
 198     paddw   m1, m3
 199     psraw   m0, 1
 200     psraw   m1, 1
 201 %endif
 202     mova    m2, m0
 203     punpcklwd m0, m1
 204     punpckhwd m2, m1
 205     mova    [bq+4*xq], m0
 206     mova    [bq+4*xq+mmsize], m2
 207
 208     add     xq, mmsize/2
 209     cmp     xq, w2q
 210     jl      .highpass_loop
 211 .end:
 212     REP_RET
 213 %endmacro
 214
 215
 216 INIT_XMM
 217 ; void horizontal_compose_dd97i(IDWTELEM *b, IDWTELEM *tmp, int width)
 218 cglobal horizontal_compose_dd97i_ssse3, 3,6,8, b, tmp, w, x, w2, b_w2
 219     mov    w2d, wd
 220     xor     xd, xd
 221     shr    w2d, 1
 222     lea  b_w2q, [bq+wq]
 223     movu    m4, [bq+wq]
 224     mova    m7, [pw_2]
 225     pslldq  m4, 14
 226 .lowpass_loop:
 227     movu    m1, [b_w2q + 2*xq]
 228     mova    m0, [bq    + 2*xq]
 229     mova    m2, m1
 230     palignr m1, m4, 14
 231     mova    m4, m2
 232     COMPOSE_53iL0 m0, m1, m2, m7
 233     mova    [tmpq + 2*xq], m0
 234     add     xd, mmsize/2
 235     cmp     xd, w2d
 236     jl      .lowpass_loop
 237
 238     EDGE_EXTENSION 1, 2, xw
 239     ; leave the last up to 7 (sse) or 3 (mmx) values for C
 240     xor     xd, xd
 241     and    w2d, ~(mmsize/2 - 1)
 242     cmp    w2d, mmsize/2
 243     jl      .end
 244
 245     mova    m7, [tmpq-mmsize]
 246     mova    m0, [tmpq]
 247     mova    m5, [pw_1]
 248     mova    m3, [pw_8]
 249     mova    m4, [pw_1991]
 250 .highpass_loop:
 251     mova    m6, m0
 252     palignr m0, m7, 14
 253     mova    m7, [tmpq + 2*xq + 16]
 254     mova    m1, m7
 255     mova    m2, m7
 256     palignr m1, m6, 2
 257     palignr m2, m6, 4
 258     COMPOSE_DD97iH0 m0, m6, m2, [b_w2q + 2*xq]
 259     mova    m0, m7
 260     mova    m7, m6
 261
 262     ; shift and interleave
 263     paddw   m6, m5
 264     paddw   m1, m5
 265     psraw   m6, 1
 266     psraw   m1, 1
 267     mova    m2, m6
 268     punpcklwd m6, m1
 269     punpckhwd m2, m1
 270     mova    [bq+4*xq], m6
 271     mova    [bq+4*xq+mmsize], m2
 272
 273     add     xd, mmsize/2
 274     cmp     xd, w2d
 275     jl      .highpass_loop
 276 .end:
 277     REP_RET
 278
 279
 280 %ifndef ARCH_X86_64
 281 INIT_MMX
 282 COMPOSE_VERTICAL mmx
 283 HAAR_HORIZONTAL mmx, 0
 284 HAAR_HORIZONTAL mmx, 1
 285 %endif
 286
 287 ;;INIT_XMM
 288 INIT_XMM
 289 COMPOSE_VERTICAL sse2
 290 HAAR_HORIZONTAL sse2, 0
 291 HAAR_HORIZONTAL sse2, 1