]> git.sesse.net Git - ffmpeg/blob - libswscale/x86/output.asm
Merge remote-tracking branch 'qatar/master'
[ffmpeg] / libswscale / x86 / output.asm
1 ;******************************************************************************
2 ;* x86-optimized vertical line scaling functions
3 ;* Copyright (c) 2011 Ronald S. Bultje <rsbultje@gmail.com>
4 ;*                    Kieran Kunhya <kieran@kunhya.com>
5 ;*
6 ;* This file is part of Libav.
7 ;*
8 ;* Libav is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* Libav is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with Libav; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "x86inc.asm"
24 %include "x86util.asm"
25
26 SECTION_RODATA
27
28 minshort:      times 8 dw 0x8000
29 yuv2yuvX_16_start:  times 4 dd 0x4000 - 0x40000000
30 yuv2yuvX_10_start:  times 4 dd 0x10000
31 yuv2yuvX_9_start:   times 4 dd 0x20000
32 yuv2yuvX_10_upper:  times 8 dw 0x3ff
33 yuv2yuvX_9_upper:   times 8 dw 0x1ff
34 pd_4:          times 4 dd 4
35 pd_4min0x40000:times 4 dd 4 - (0x40000)
36 pw_16:         times 8 dw 16
37 pw_32:         times 8 dw 32
38 pw_512:        times 8 dw 512
39 pw_1024:       times 8 dw 1024
40
41 SECTION .text
42
43 ;-----------------------------------------------------------------------------
44 ; vertical line scaling
45 ;
46 ; void yuv2plane1_<output_size>_<opt>(const int16_t *src, uint8_t *dst, int dstW,
47 ;                                     const uint8_t *dither, int offset)
48 ; and
49 ; void yuv2planeX_<output_size>_<opt>(const int16_t *filter, int filterSize,
50 ;                                     const int16_t **src, uint8_t *dst, int dstW,
51 ;                                     const uint8_t *dither, int offset)
52 ;
53 ; Scale one or $filterSize lines of source data to generate one line of output
54 ; data. The input is 15-bit in int16_t if $output_size is [8,10] and 19-bit in
55 ; int32_t if $output_size is 16. $filter is 12-bits. $filterSize is a multiple
56 ; of 2. $offset is either 0 or 3. $dither holds 8 values.
57 ;-----------------------------------------------------------------------------
58
59 %macro yuv2planeX_fn 3
60
61 %if ARCH_X86_32
62 %define cntr_reg fltsizeq
63 %define movsx mov
64 %else
65 %define cntr_reg r7
66 %define movsx movsxd
67 %endif
68
69 cglobal yuv2planeX_%1, %3, 8, %2, filter, fltsize, src, dst, w, dither, offset
70 %if %1 == 8 || %1 == 9 || %1 == 10
71     pxor            m6,  m6
72 %endif ; %1 == 8/9/10
73
74 %if %1 == 8
75 %if ARCH_X86_32
76 %assign pad 0x2c - (stack_offset & 15)
77     SUB             rsp, pad
78 %define m_dith m7
79 %else ; x86-64
80 %define m_dith m9
81 %endif ; x86-32
82
83     ; create registers holding dither
84     movq        m_dith, [ditherq]        ; dither
85     test        offsetd, offsetd
86     jz              .no_rot
87 %if mmsize == 16
88     punpcklqdq  m_dith,  m_dith
89 %endif ; mmsize == 16
90     PALIGNR     m_dith,  m_dith,  3,  m0
91 .no_rot:
92 %if mmsize == 16
93     punpcklbw   m_dith,  m6
94 %if ARCH_X86_64
95     punpcklwd       m8,  m_dith,  m6
96     pslld           m8,  12
97 %else ; x86-32
98     punpcklwd       m5,  m_dith,  m6
99     pslld           m5,  12
100 %endif ; x86-32/64
101     punpckhwd   m_dith,  m6
102     pslld       m_dith,  12
103 %if ARCH_X86_32
104     mova      [rsp+ 0],  m5
105     mova      [rsp+16],  m_dith
106 %endif
107 %else ; mmsize == 8
108     punpcklbw       m5,  m_dith,  m6
109     punpckhbw   m_dith,  m6
110     punpcklwd       m4,  m5,  m6
111     punpckhwd       m5,  m6
112     punpcklwd       m3,  m_dith,  m6
113     punpckhwd   m_dith,  m6
114     pslld           m4,  12
115     pslld           m5,  12
116     pslld           m3,  12
117     pslld       m_dith,  12
118     mova      [rsp+ 0],  m4
119     mova      [rsp+ 8],  m5
120     mova      [rsp+16],  m3
121     mova      [rsp+24],  m_dith
122 %endif ; mmsize == 8/16
123 %endif ; %1 == 8
124
125     xor             r5,  r5
126
127 .pixelloop:
128 %assign %%i 0
129     ; the rep here is for the 8bit output mmx case, where dither covers
130     ; 8 pixels but we can only handle 2 pixels per register, and thus 4
131     ; pixels per iteration. In order to not have to keep track of where
132     ; we are w.r.t. dithering, we unroll the mmx/8bit loop x2.
133 %if %1 == 8
134 %assign %%repcnt 16/mmsize
135 %else
136 %assign %%repcnt 1
137 %endif
138
139 %rep %%repcnt
140
141 %if %1 == 8
142 %if ARCH_X86_32
143     mova            m2, [rsp+mmsize*(0+%%i)]
144     mova            m1, [rsp+mmsize*(1+%%i)]
145 %else ; x86-64
146     mova            m2,  m8
147     mova            m1,  m_dith
148 %endif ; x86-32/64
149 %else ; %1 == 9/10/16
150     mova            m1, [yuv2yuvX_%1_start]
151     mova            m2,  m1
152 %endif ; %1 == 8/9/10/16
153     movsx     cntr_reg,  fltsizem
154 .filterloop_ %+ %%i:
155     ; input pixels
156     mov             r6, [srcq+gprsize*cntr_reg-2*gprsize]
157 %if %1 == 16
158     mova            m3, [r6+r5*4]
159     mova            m5, [r6+r5*4+mmsize]
160 %else ; %1 == 8/9/10
161     mova            m3, [r6+r5*2]
162 %endif ; %1 == 8/9/10/16
163     mov             r6, [srcq+gprsize*cntr_reg-gprsize]
164 %if %1 == 16
165     mova            m4, [r6+r5*4]
166     mova            m6, [r6+r5*4+mmsize]
167 %else ; %1 == 8/9/10
168     mova            m4, [r6+r5*2]
169 %endif ; %1 == 8/9/10/16
170
171     ; coefficients
172     movd            m0, [filterq+2*cntr_reg-4] ; coeff[0], coeff[1]
173 %if %1 == 16
174     pshuflw         m7,  m0,  0          ; coeff[0]
175     pshuflw         m0,  m0,  0x55       ; coeff[1]
176     pmovsxwd        m7,  m7              ; word -> dword
177     pmovsxwd        m0,  m0              ; word -> dword
178
179     pmulld          m3,  m7
180     pmulld          m5,  m7
181     pmulld          m4,  m0
182     pmulld          m6,  m0
183
184     paddd           m2,  m3
185     paddd           m1,  m5
186     paddd           m2,  m4
187     paddd           m1,  m6
188 %else ; %1 == 10/9/8
189     punpcklwd       m5,  m3,  m4
190     punpckhwd       m3,  m4
191     SPLATD          m0,  m0
192
193     pmaddwd         m5,  m0
194     pmaddwd         m3,  m0
195
196     paddd           m2,  m5
197     paddd           m1,  m3
198 %endif ; %1 == 8/9/10/16
199
200     sub       cntr_reg,  2
201     jg .filterloop_ %+ %%i
202
203 %if %1 == 16
204     psrad           m2,  31 - %1
205     psrad           m1,  31 - %1
206 %else ; %1 == 10/9/8
207     psrad           m2,  27 - %1
208     psrad           m1,  27 - %1
209 %endif ; %1 == 8/9/10/16
210
211 %if %1 == 8
212     packssdw        m2,  m1
213     packuswb        m2,  m2
214     movh   [dstq+r5*1],  m2
215 %else ; %1 == 9/10/16
216 %if %1 == 16
217     packssdw        m2,  m1
218     paddw           m2, [minshort]
219 %else ; %1 == 9/10
220 %if cpuflag(sse4)
221     packusdw        m2,  m1
222 %else ; mmx2/sse2
223     packssdw        m2,  m1
224     pmaxsw          m2,  m6
225 %endif ; mmx2/sse2/sse4/avx
226     pminsw          m2, [yuv2yuvX_%1_upper]
227 %endif ; %1 == 9/10/16
228     mova   [dstq+r5*2],  m2
229 %endif ; %1 == 8/9/10/16
230
231     add             r5,  mmsize/2
232     sub             wd,  mmsize/2
233
234 %assign %%i %%i+2
235 %endrep
236     jg .pixelloop
237
238 %if %1 == 8
239 %if ARCH_X86_32
240     ADD             rsp, pad
241     RET
242 %else ; x86-64
243     REP_RET
244 %endif ; x86-32/64
245 %else ; %1 == 9/10/16
246     REP_RET
247 %endif ; %1 == 8/9/10/16
248 %endmacro
249
250 %define PALIGNR PALIGNR_MMX
251 %if ARCH_X86_32
252 INIT_MMX mmx2
253 yuv2planeX_fn  8,  0, 7
254 yuv2planeX_fn  9,  0, 5
255 yuv2planeX_fn 10,  0, 5
256 %endif
257
258 INIT_XMM sse2
259 yuv2planeX_fn  8, 10, 7
260 yuv2planeX_fn  9,  7, 5
261 yuv2planeX_fn 10,  7, 5
262
263 %define PALIGNR PALIGNR_SSSE3
264 INIT_XMM sse4
265 yuv2planeX_fn  8, 10, 7
266 yuv2planeX_fn  9,  7, 5
267 yuv2planeX_fn 10,  7, 5
268 yuv2planeX_fn 16,  8, 5
269
270 %if HAVE_AVX
271 INIT_XMM avx
272 yuv2planeX_fn  8, 10, 7
273 yuv2planeX_fn  9,  7, 5
274 yuv2planeX_fn 10,  7, 5
275 %endif
276
277 ; %1=outout-bpc, %2=alignment (u/a)
278 %macro yuv2plane1_mainloop 2
279 .loop_%2:
280 %if %1 == 8
281     paddsw          m0, m2, [srcq+wq*2+mmsize*0]
282     paddsw          m1, m3, [srcq+wq*2+mmsize*1]
283     psraw           m0, 7
284     psraw           m1, 7
285     packuswb        m0, m1
286     mov%2    [dstq+wq], m0
287 %elif %1 == 16
288     paddd           m0, m4, [srcq+wq*4+mmsize*0]
289     paddd           m1, m4, [srcq+wq*4+mmsize*1]
290     paddd           m2, m4, [srcq+wq*4+mmsize*2]
291     paddd           m3, m4, [srcq+wq*4+mmsize*3]
292     psrad           m0, 3
293     psrad           m1, 3
294     psrad           m2, 3
295     psrad           m3, 3
296 %if cpuflag(sse4) ; avx/sse4
297     packusdw        m0, m1
298     packusdw        m2, m3
299 %else ; mmx/sse2
300     packssdw        m0, m1
301     packssdw        m2, m3
302     paddw           m0, m5
303     paddw           m2, m5
304 %endif ; mmx/sse2/sse4/avx
305     mov%2    [dstq+wq*2+mmsize*0], m0
306     mov%2    [dstq+wq*2+mmsize*1], m2
307 %else ; %1 == 9/10
308     paddsw          m0, m2, [srcq+wq*2+mmsize*0]
309     paddsw          m1, m2, [srcq+wq*2+mmsize*1]
310     psraw           m0, 15 - %1
311     psraw           m1, 15 - %1
312     pmaxsw          m0, m4
313     pmaxsw          m1, m4
314     pminsw          m0, m3
315     pminsw          m1, m3
316     mov%2    [dstq+wq*2+mmsize*0], m0
317     mov%2    [dstq+wq*2+mmsize*1], m1
318 %endif
319     add             wq, mmsize
320     jl .loop_%2
321 %endmacro
322
323 %macro yuv2plane1_fn 3
324 cglobal yuv2plane1_%1, %3, %3, %2, src, dst, w, dither, offset
325     movsxdifnidn    wq, wd
326     add             wq, mmsize - 1
327     and             wq, ~(mmsize - 1)
328 %if %1 == 8
329     add           dstq, wq
330 %else ; %1 != 8
331     lea           dstq, [dstq+wq*2]
332 %endif ; %1 == 8
333 %if %1 == 16
334     lea           srcq, [srcq+wq*4]
335 %else ; %1 != 16
336     lea           srcq, [srcq+wq*2]
337 %endif ; %1 == 16
338     neg             wq
339
340 %if %1 == 8
341     pxor            m4, m4               ; zero
342
343     ; create registers holding dither
344     movq            m3, [ditherq]        ; dither
345     test       offsetd, offsetd
346     jz              .no_rot
347 %if mmsize == 16
348     punpcklqdq      m3, m3
349 %endif ; mmsize == 16
350     PALIGNR_MMX     m3, m3, 3, m2
351 .no_rot:
352 %if mmsize == 8
353     mova            m2, m3
354     punpckhbw       m3, m4               ; byte->word
355     punpcklbw       m2, m4               ; byte->word
356 %else
357     punpcklbw       m3, m4
358     mova            m2, m3
359 %endif
360 %elif %1 == 9
361     pxor            m4, m4
362     mova            m3, [pw_512]
363     mova            m2, [pw_32]
364 %elif %1 == 10
365     pxor            m4, m4
366     mova            m3, [pw_1024]
367     mova            m2, [pw_16]
368 %else ; %1 == 16
369 %if cpuflag(sse4) ; sse4/avx
370     mova            m4, [pd_4]
371 %else ; mmx/sse2
372     mova            m4, [pd_4min0x40000]
373     mova            m5, [minshort]
374 %endif ; mmx/sse2/sse4/avx
375 %endif ; %1 == ..
376
377     ; actual pixel scaling
378 %if mmsize == 8
379     yuv2plane1_mainloop %1, a
380 %else ; mmsize == 16
381     test          dstq, 15
382     jnz .unaligned
383     yuv2plane1_mainloop %1, a
384     REP_RET
385 .unaligned:
386     yuv2plane1_mainloop %1, u
387 %endif ; mmsize == 8/16
388     REP_RET
389 %endmacro
390
391 %if ARCH_X86_32
392 INIT_MMX mmx
393 yuv2plane1_fn  8, 0, 5
394 yuv2plane1_fn 16, 0, 3
395
396 INIT_MMX mmx2
397 yuv2plane1_fn  9, 0, 3
398 yuv2plane1_fn 10, 0, 3
399 %endif
400
401 INIT_XMM sse2
402 yuv2plane1_fn  8, 5, 5
403 yuv2plane1_fn  9, 5, 3
404 yuv2plane1_fn 10, 5, 3
405 yuv2plane1_fn 16, 6, 3
406
407 INIT_XMM sse4
408 yuv2plane1_fn 16, 5, 3
409
410 %if HAVE_AVX
411 INIT_XMM avx
412 yuv2plane1_fn  8, 5, 5
413 yuv2plane1_fn  9, 5, 3
414 yuv2plane1_fn 10, 5, 3
415 yuv2plane1_fn 16, 5, 3
416 %endif