git.sesse.net Git - ffmpeg/blob - libavcodec/arm/h264dsp_neon.S

   1 /*
   2  * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
   3  *
   4  * This file is part of Libav.
   5  *
   6  * Libav is free software; you can redistribute it and/or
   7  * modify it under the terms of the GNU Lesser General Public
   8  * License as published by the Free Software Foundation; either
   9  * version 2.1 of the License, or (at your option) any later version.
  10  *
  11  * Libav is distributed in the hope that it will be useful,
  12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14  * Lesser General Public License for more details.
  15  *
  16  * You should have received a copy of the GNU Lesser General Public
  17  * License along with Libav; if not, write to the Free Software
  18  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  19  */
  20
  21 #include "libavutil/arm/asm.S"
  22 #include "neon.S"
  23
  24         /* H.264 loop filter */
  25
  26 .macro  h264_loop_filter_start
  27         ldr             r12, [sp]
  28         tst             r2,  r2
  29         ldr             r12, [r12]
  30         it              ne
  31         tstne           r3,  r3
  32         vmov.32         d24[0], r12
  33         and             r12, r12, r12, lsl #16
  34         it              eq
  35         bxeq            lr
  36         ands            r12, r12, r12, lsl #8
  37         it              lt
  38         bxlt            lr
  39 .endm
  40
  41 .macro  h264_loop_filter_luma
  42         vdup.8          q11, r2         @ alpha
  43         vmovl.u8        q12, d24
  44         vabd.u8         q6,  q8,  q0    @ abs(p0 - q0)
  45         vmovl.u16       q12, d24
  46         vabd.u8         q14, q9,  q8    @ abs(p1 - p0)
  47         vsli.16         q12, q12, #8
  48         vabd.u8         q15, q1,  q0    @ abs(q1 - q0)
  49         vsli.32         q12, q12, #16
  50         vclt.u8         q6,  q6,  q11   @ < alpha
  51         vdup.8          q11, r3         @ beta
  52         vclt.s8         q7,  q12, #0
  53         vclt.u8         q14, q14, q11   @ < beta
  54         vclt.u8         q15, q15, q11   @ < beta
  55         vbic            q6,  q6,  q7
  56         vabd.u8         q4,  q10, q8    @ abs(p2 - p0)
  57         vand            q6,  q6,  q14
  58         vabd.u8         q5,  q2,  q0    @ abs(q2 - q0)
  59         vclt.u8         q4,  q4,  q11   @ < beta
  60         vand            q6,  q6,  q15
  61         vclt.u8         q5,  q5,  q11   @ < beta
  62         vand            q4,  q4,  q6
  63         vand            q5,  q5,  q6
  64         vand            q12, q12, q6
  65         vrhadd.u8       q14, q8,  q0
  66         vsub.i8         q6,  q12, q4
  67         vqadd.u8        q7,  q9,  q12
  68         vhadd.u8        q10, q10, q14
  69         vsub.i8         q6,  q6,  q5
  70         vhadd.u8        q14, q2,  q14
  71         vmin.u8         q7,  q7,  q10
  72         vqsub.u8        q11, q9,  q12
  73         vqadd.u8        q2,  q1,  q12
  74         vmax.u8         q7,  q7,  q11
  75         vqsub.u8        q11, q1,  q12
  76         vmin.u8         q14, q2,  q14
  77         vmovl.u8        q2,  d0
  78         vmax.u8         q14, q14, q11
  79         vmovl.u8        q10, d1
  80         vsubw.u8        q2,  q2,  d16
  81         vsubw.u8        q10, q10, d17
  82         vshl.i16        q2,  q2,  #2
  83         vshl.i16        q10, q10, #2
  84         vaddw.u8        q2,  q2,  d18
  85         vaddw.u8        q10, q10, d19
  86         vsubw.u8        q2,  q2,  d2
  87         vsubw.u8        q10, q10, d3
  88         vrshrn.i16      d4,  q2,  #3
  89         vrshrn.i16      d5,  q10, #3
  90         vbsl            q4,  q7,  q9
  91         vbsl            q5,  q14, q1
  92         vneg.s8         q7,  q6
  93         vmovl.u8        q14, d16
  94         vmin.s8         q2,  q2,  q6
  95         vmovl.u8        q6,  d17
  96         vmax.s8         q2,  q2,  q7
  97         vmovl.u8        q11, d0
  98         vmovl.u8        q12, d1
  99         vaddw.s8        q14, q14, d4
 100         vaddw.s8        q6,  q6,  d5
 101         vsubw.s8        q11, q11, d4
 102         vsubw.s8        q12, q12, d5
 103         vqmovun.s16     d16, q14
 104         vqmovun.s16     d17, q6
 105         vqmovun.s16     d0,  q11
 106         vqmovun.s16     d1,  q12
 107 .endm
 108
 109 function ff_h264_v_loop_filter_luma_neon, export=1
 110         h264_loop_filter_start
 111
 112         vld1.8          {d0, d1},  [r0,:128], r1
 113         vld1.8          {d2, d3},  [r0,:128], r1
 114         vld1.8          {d4, d5},  [r0,:128], r1
 115         sub             r0,  r0,  r1, lsl #2
 116         sub             r0,  r0,  r1, lsl #1
 117         vld1.8          {d20,d21}, [r0,:128], r1
 118         vld1.8          {d18,d19}, [r0,:128], r1
 119         vld1.8          {d16,d17}, [r0,:128], r1
 120
 121         vpush           {d8-d15}
 122
 123         h264_loop_filter_luma
 124
 125         sub             r0,  r0,  r1, lsl #1
 126         vst1.8          {d8, d9},  [r0,:128], r1
 127         vst1.8          {d16,d17}, [r0,:128], r1
 128         vst1.8          {d0, d1},  [r0,:128], r1
 129         vst1.8          {d10,d11}, [r0,:128]
 130
 131         vpop            {d8-d15}
 132         bx              lr
 133 endfunc
 134
 135 function ff_h264_h_loop_filter_luma_neon, export=1
 136         h264_loop_filter_start
 137
 138         sub             r0,  r0,  #4
 139         vld1.8          {d6},  [r0], r1
 140         vld1.8          {d20}, [r0], r1
 141         vld1.8          {d18}, [r0], r1
 142         vld1.8          {d16}, [r0], r1
 143         vld1.8          {d0},  [r0], r1
 144         vld1.8          {d2},  [r0], r1
 145         vld1.8          {d4},  [r0], r1
 146         vld1.8          {d26}, [r0], r1
 147         vld1.8          {d7},  [r0], r1
 148         vld1.8          {d21}, [r0], r1
 149         vld1.8          {d19}, [r0], r1
 150         vld1.8          {d17}, [r0], r1
 151         vld1.8          {d1},  [r0], r1
 152         vld1.8          {d3},  [r0], r1
 153         vld1.8          {d5},  [r0], r1
 154         vld1.8          {d27}, [r0], r1
 155
 156         transpose_8x8   q3, q10, q9, q8, q0, q1, q2, q13
 157
 158         vpush           {d8-d15}
 159
 160         h264_loop_filter_luma
 161
 162         transpose_4x4   q4, q8, q0, q5
 163
 164         sub             r0,  r0,  r1, lsl #4
 165         add             r0,  r0,  #2
 166         vst1.32         {d8[0]},  [r0], r1
 167         vst1.32         {d16[0]}, [r0], r1
 168         vst1.32         {d0[0]},  [r0], r1
 169         vst1.32         {d10[0]}, [r0], r1
 170         vst1.32         {d8[1]},  [r0], r1
 171         vst1.32         {d16[1]}, [r0], r1
 172         vst1.32         {d0[1]},  [r0], r1
 173         vst1.32         {d10[1]}, [r0], r1
 174         vst1.32         {d9[0]},  [r0], r1
 175         vst1.32         {d17[0]}, [r0], r1
 176         vst1.32         {d1[0]},  [r0], r1
 177         vst1.32         {d11[0]}, [r0], r1
 178         vst1.32         {d9[1]},  [r0], r1
 179         vst1.32         {d17[1]}, [r0], r1
 180         vst1.32         {d1[1]},  [r0], r1
 181         vst1.32         {d11[1]}, [r0], r1
 182
 183         vpop            {d8-d15}
 184         bx              lr
 185 endfunc
 186
 187 .macro  h264_loop_filter_chroma
 188         vdup.8          d22, r2         @ alpha
 189         vmovl.u8        q12, d24
 190         vabd.u8         d26, d16, d0    @ abs(p0 - q0)
 191         vmovl.u8        q2,  d0
 192         vabd.u8         d28, d18, d16   @ abs(p1 - p0)
 193         vsubw.u8        q2,  q2,  d16
 194         vsli.16         d24, d24, #8
 195         vshl.i16        q2,  q2,  #2
 196         vabd.u8         d30, d2,  d0    @ abs(q1 - q0)
 197         vaddw.u8        q2,  q2,  d18
 198         vclt.u8         d26, d26, d22   @ < alpha
 199         vsubw.u8        q2,  q2,  d2
 200         vdup.8          d22, r3         @ beta
 201         vrshrn.i16      d4,  q2,  #3
 202         vclt.u8         d28, d28, d22   @ < beta
 203         vclt.u8         d30, d30, d22   @ < beta
 204         vmin.s8         d4,  d4,  d24
 205         vneg.s8         d25, d24
 206         vand            d26, d26, d28
 207         vmax.s8         d4,  d4,  d25
 208         vand            d26, d26, d30
 209         vmovl.u8        q11, d0
 210         vand            d4,  d4,  d26
 211         vmovl.u8        q14, d16
 212         vaddw.s8        q14, q14, d4
 213         vsubw.s8        q11, q11, d4
 214         vqmovun.s16     d16, q14
 215         vqmovun.s16     d0,  q11
 216 .endm
 217
 218 function ff_h264_v_loop_filter_chroma_neon, export=1
 219         h264_loop_filter_start
 220
 221         sub             r0,  r0,  r1, lsl #1
 222         vld1.8          {d18}, [r0,:64], r1
 223         vld1.8          {d16}, [r0,:64], r1
 224         vld1.8          {d0},  [r0,:64], r1
 225         vld1.8          {d2},  [r0,:64]
 226
 227         h264_loop_filter_chroma
 228
 229         sub             r0,  r0,  r1, lsl #1
 230         vst1.8          {d16}, [r0,:64], r1
 231         vst1.8          {d0},  [r0,:64], r1
 232
 233         bx              lr
 234 endfunc
 235
 236 function ff_h264_h_loop_filter_chroma_neon, export=1
 237         h264_loop_filter_start
 238
 239         sub             r0,  r0,  #2
 240         vld1.32         {d18[0]}, [r0], r1
 241         vld1.32         {d16[0]}, [r0], r1
 242         vld1.32         {d0[0]},  [r0], r1
 243         vld1.32         {d2[0]},  [r0], r1
 244         vld1.32         {d18[1]}, [r0], r1
 245         vld1.32         {d16[1]}, [r0], r1
 246         vld1.32         {d0[1]},  [r0], r1
 247         vld1.32         {d2[1]},  [r0], r1
 248
 249         vtrn.16         d18, d0
 250         vtrn.16         d16, d2
 251         vtrn.8          d18, d16
 252         vtrn.8          d0,  d2
 253
 254         h264_loop_filter_chroma
 255
 256         vtrn.16         d18, d0
 257         vtrn.16         d16, d2
 258         vtrn.8          d18, d16
 259         vtrn.8          d0,  d2
 260
 261         sub             r0,  r0,  r1, lsl #3
 262         vst1.32         {d18[0]}, [r0], r1
 263         vst1.32         {d16[0]}, [r0], r1
 264         vst1.32         {d0[0]},  [r0], r1
 265         vst1.32         {d2[0]},  [r0], r1
 266         vst1.32         {d18[1]}, [r0], r1
 267         vst1.32         {d16[1]}, [r0], r1
 268         vst1.32         {d0[1]},  [r0], r1
 269         vst1.32         {d2[1]},  [r0], r1
 270
 271         bx              lr
 272 endfunc
 273
 274 @ Biweighted prediction
 275
 276 .macro  biweight_16     macs, macd
 277         vdup.8          d0,  r4
 278         vdup.8          d1,  r5
 279         vmov            q2,  q8
 280         vmov            q3,  q8
 281 1:      subs            r3,  r3,  #2
 282         vld1.8          {d20-d21},[r0,:128], r2
 283         \macd           q2,  d0,  d20
 284         pld             [r0]
 285         \macd           q3,  d0,  d21
 286         vld1.8          {d22-d23},[r1,:128], r2
 287         \macs           q2,  d1,  d22
 288         pld             [r1]
 289         \macs           q3,  d1,  d23
 290         vmov            q12, q8
 291         vld1.8          {d28-d29},[r0,:128], r2
 292         vmov            q13, q8
 293         \macd           q12, d0,  d28
 294         pld             [r0]
 295         \macd           q13, d0,  d29
 296         vld1.8          {d30-d31},[r1,:128], r2
 297         \macs           q12, d1,  d30
 298         pld             [r1]
 299         \macs           q13, d1,  d31
 300         vshl.s16        q2,  q2,  q9
 301         vshl.s16        q3,  q3,  q9
 302         vqmovun.s16     d4,  q2
 303         vqmovun.s16     d5,  q3
 304         vshl.s16        q12, q12, q9
 305         vshl.s16        q13, q13, q9
 306         vqmovun.s16     d24, q12
 307         vqmovun.s16     d25, q13
 308         vmov            q3,  q8
 309         vst1.8          {d4- d5}, [r6,:128], r2
 310         vmov            q2,  q8
 311         vst1.8          {d24-d25},[r6,:128], r2
 312         bne             1b
 313         pop             {r4-r6, pc}
 314 .endm
 315
 316 .macro  biweight_8      macs, macd
 317         vdup.8          d0,  r4
 318         vdup.8          d1,  r5
 319         vmov            q1,  q8
 320         vmov            q10, q8
 321 1:      subs            r3,  r3,  #2
 322         vld1.8          {d4},[r0,:64], r2
 323         \macd           q1,  d0,  d4
 324         pld             [r0]
 325         vld1.8          {d5},[r1,:64], r2
 326         \macs           q1,  d1,  d5
 327         pld             [r1]
 328         vld1.8          {d6},[r0,:64], r2
 329         \macd           q10, d0,  d6
 330         pld             [r0]
 331         vld1.8          {d7},[r1,:64], r2
 332         \macs           q10, d1,  d7
 333         pld             [r1]
 334         vshl.s16        q1,  q1,  q9
 335         vqmovun.s16     d2,  q1
 336         vshl.s16        q10, q10, q9
 337         vqmovun.s16     d4,  q10
 338         vmov            q10, q8
 339         vst1.8          {d2},[r6,:64], r2
 340         vmov            q1,  q8
 341         vst1.8          {d4},[r6,:64], r2
 342         bne             1b
 343         pop             {r4-r6, pc}
 344 .endm
 345
 346 .macro  biweight_4      macs, macd
 347         vdup.8          d0,  r4
 348         vdup.8          d1,  r5
 349         vmov            q1,  q8
 350         vmov            q10, q8
 351 1:      subs            r3,  r3,  #4
 352         vld1.32         {d4[0]},[r0,:32], r2
 353         vld1.32         {d4[1]},[r0,:32], r2
 354         \macd           q1,  d0,  d4
 355         pld             [r0]
 356         vld1.32         {d5[0]},[r1,:32], r2
 357         vld1.32         {d5[1]},[r1,:32], r2
 358         \macs           q1,  d1,  d5
 359         pld             [r1]
 360         blt             2f
 361         vld1.32         {d6[0]},[r0,:32], r2
 362         vld1.32         {d6[1]},[r0,:32], r2
 363         \macd           q10, d0,  d6
 364         pld             [r0]
 365         vld1.32         {d7[0]},[r1,:32], r2
 366         vld1.32         {d7[1]},[r1,:32], r2
 367         \macs           q10, d1,  d7
 368         pld             [r1]
 369         vshl.s16        q1,  q1,  q9
 370         vqmovun.s16     d2,  q1
 371         vshl.s16        q10, q10, q9
 372         vqmovun.s16     d4,  q10
 373         vmov            q10, q8
 374         vst1.32         {d2[0]},[r6,:32], r2
 375         vst1.32         {d2[1]},[r6,:32], r2
 376         vmov            q1,  q8
 377         vst1.32         {d4[0]},[r6,:32], r2
 378         vst1.32         {d4[1]},[r6,:32], r2
 379         bne             1b
 380         pop             {r4-r6, pc}
 381 2:      vshl.s16        q1,  q1,  q9
 382         vqmovun.s16     d2,  q1
 383         vst1.32         {d2[0]},[r6,:32], r2
 384         vst1.32         {d2[1]},[r6,:32], r2
 385         pop             {r4-r6, pc}
 386 .endm
 387
 388 .macro  biweight_func   w
 389 function ff_biweight_h264_pixels_\w\()_neon, export=1
 390         push            {r4-r6, lr}
 391         ldr             r12, [sp, #16]
 392         add             r4,  sp,  #20
 393         ldm             r4,  {r4-r6}
 394         lsr             lr,  r4,  #31
 395         add             r6,  r6,  #1
 396         eors            lr,  lr,  r5,  lsr #30
 397         orr             r6,  r6,  #1
 398         vdup.16         q9,  r12
 399         lsl             r6,  r6,  r12
 400         vmvn            q9,  q9
 401         vdup.16         q8,  r6
 402         mov             r6,  r0
 403         beq             10f
 404         subs            lr,  lr,  #1
 405         beq             20f
 406         subs            lr,  lr,  #1
 407         beq             30f
 408         b               40f
 409 10:     biweight_\w     vmlal.u8, vmlal.u8
 410 20:     rsb             r4,  r4,  #0
 411         biweight_\w     vmlal.u8, vmlsl.u8
 412 30:     rsb             r4,  r4,  #0
 413         rsb             r5,  r5,  #0
 414         biweight_\w     vmlsl.u8, vmlsl.u8
 415 40:     rsb             r5,  r5,  #0
 416         biweight_\w     vmlsl.u8, vmlal.u8
 417 endfunc
 418 .endm
 419
 420         biweight_func   16
 421         biweight_func   8
 422         biweight_func   4
 423
 424 @ Weighted prediction
 425
 426 .macro  weight_16       add
 427         vdup.8          d0,  r12
 428 1:      subs            r2,  r2,  #2
 429         vld1.8          {d20-d21},[r0,:128], r1
 430         vmull.u8        q2,  d0,  d20
 431         pld             [r0]
 432         vmull.u8        q3,  d0,  d21
 433         vld1.8          {d28-d29},[r0,:128], r1
 434         vmull.u8        q12, d0,  d28
 435         pld             [r0]
 436         vmull.u8        q13, d0,  d29
 437         \add            q2,  q8,  q2
 438         vrshl.s16       q2,  q2,  q9
 439         \add            q3,  q8,  q3
 440         vrshl.s16       q3,  q3,  q9
 441         vqmovun.s16     d4,  q2
 442         vqmovun.s16     d5,  q3
 443         \add            q12, q8,  q12
 444         vrshl.s16       q12, q12, q9
 445         \add            q13, q8,  q13
 446         vrshl.s16       q13, q13, q9
 447         vqmovun.s16     d24, q12
 448         vqmovun.s16     d25, q13
 449         vst1.8          {d4- d5}, [r4,:128], r1
 450         vst1.8          {d24-d25},[r4,:128], r1
 451         bne             1b
 452         pop             {r4, pc}
 453 .endm
 454
 455 .macro  weight_8        add
 456         vdup.8          d0,  r12
 457 1:      subs            r2,  r2,  #2
 458         vld1.8          {d4},[r0,:64], r1
 459         vmull.u8        q1,  d0,  d4
 460         pld             [r0]
 461         vld1.8          {d6},[r0,:64], r1
 462         vmull.u8        q10, d0,  d6
 463         \add            q1,  q8,  q1
 464         pld             [r0]
 465         vrshl.s16       q1,  q1,  q9
 466         vqmovun.s16     d2,  q1
 467         \add            q10, q8,  q10
 468         vrshl.s16       q10, q10, q9
 469         vqmovun.s16     d4,  q10
 470         vst1.8          {d2},[r4,:64], r1
 471         vst1.8          {d4},[r4,:64], r1
 472         bne             1b
 473         pop             {r4, pc}
 474 .endm
 475
 476 .macro  weight_4        add
 477         vdup.8          d0,  r12
 478         vmov            q1,  q8
 479         vmov            q10, q8
 480 1:      subs            r2,  r2,  #4
 481         vld1.32         {d4[0]},[r0,:32], r1
 482         vld1.32         {d4[1]},[r0,:32], r1
 483         vmull.u8        q1,  d0,  d4
 484         pld             [r0]
 485         blt             2f
 486         vld1.32         {d6[0]},[r0,:32], r1
 487         vld1.32         {d6[1]},[r0,:32], r1
 488         vmull.u8        q10, d0,  d6
 489         pld             [r0]
 490         \add            q1,  q8,  q1
 491         vrshl.s16       q1,  q1,  q9
 492         vqmovun.s16     d2,  q1
 493         \add            q10, q8,  q10
 494         vrshl.s16       q10, q10, q9
 495         vqmovun.s16     d4,  q10
 496         vmov            q10, q8
 497         vst1.32         {d2[0]},[r4,:32], r1
 498         vst1.32         {d2[1]},[r4,:32], r1
 499         vmov            q1,  q8
 500         vst1.32         {d4[0]},[r4,:32], r1
 501         vst1.32         {d4[1]},[r4,:32], r1
 502         bne             1b
 503         pop             {r4, pc}
 504 2:      \add            q1,  q8,  q1
 505         vrshl.s16       q1,  q1,  q9
 506         vqmovun.s16     d2,  q1
 507         vst1.32         {d2[0]},[r4,:32], r1
 508         vst1.32         {d2[1]},[r4,:32], r1
 509         pop             {r4, pc}
 510 .endm
 511
 512 .macro  weight_func     w
 513 function ff_weight_h264_pixels_\w\()_neon, export=1
 514         push            {r4, lr}
 515         ldr             r12, [sp, #8]
 516         ldr             r4,  [sp, #12]
 517         cmp             r3,  #1
 518         lsl             r4,  r4,  r3
 519         vdup.16         q8,  r4
 520         mov             r4,  r0
 521         ble             20f
 522         rsb             lr,  r3,  #1
 523         vdup.16         q9,  lr
 524         cmp             r12, #0
 525         blt             10f
 526         weight_\w       vhadd.s16
 527 10:     rsb             r12, r12, #0
 528         weight_\w       vhsub.s16
 529 20:     rsb             lr,  r3,  #0
 530         vdup.16         q9,  lr
 531         cmp             r12, #0
 532         blt             10f
 533         weight_\w       vadd.s16
 534 10:     rsb             r12, r12, #0
 535         weight_\w       vsub.s16
 536 endfunc
 537 .endm
 538
 539         weight_func     16
 540         weight_func     8
 541         weight_func     4