]> git.sesse.net Git - ffmpeg/blob - libswscale/x86/output.asm
mpegvideo: initialize dummy reference frames.
[ffmpeg] / libswscale / x86 / output.asm
1 ;******************************************************************************
2 ;* x86-optimized vertical line scaling functions
3 ;* Copyright (c) 2011 Ronald S. Bultje <rsbultje@gmail.com>
4 ;*                    Kieran Kunhya <kieran@kunhya.com>
5 ;*
6 ;* This file is part of Libav.
7 ;*
8 ;* Libav is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* Libav is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with Libav; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "libavutil/x86/x86util.asm"
24
25 SECTION_RODATA
26
27 minshort:      times 8 dw 0x8000
28 yuv2yuvX_16_start:  times 4 dd 0x4000 - 0x40000000
29 yuv2yuvX_10_start:  times 4 dd 0x10000
30 yuv2yuvX_9_start:   times 4 dd 0x20000
31 yuv2yuvX_10_upper:  times 8 dw 0x3ff
32 yuv2yuvX_9_upper:   times 8 dw 0x1ff
33 pd_4:          times 4 dd 4
34 pd_4min0x40000:times 4 dd 4 - (0x40000)
35 pw_16:         times 8 dw 16
36 pw_32:         times 8 dw 32
37 pw_512:        times 8 dw 512
38 pw_1024:       times 8 dw 1024
39
40 SECTION .text
41
42 ;-----------------------------------------------------------------------------
43 ; vertical line scaling
44 ;
45 ; void yuv2plane1_<output_size>_<opt>(const int16_t *src, uint8_t *dst, int dstW,
46 ;                                     const uint8_t *dither, int offset)
47 ; and
48 ; void yuv2planeX_<output_size>_<opt>(const int16_t *filter, int filterSize,
49 ;                                     const int16_t **src, uint8_t *dst, int dstW,
50 ;                                     const uint8_t *dither, int offset)
51 ;
52 ; Scale one or $filterSize lines of source data to generate one line of output
53 ; data. The input is 15-bit in int16_t if $output_size is [8,10] and 19-bit in
54 ; int32_t if $output_size is 16. $filter is 12-bits. $filterSize is a multiple
55 ; of 2. $offset is either 0 or 3. $dither holds 8 values.
56 ;-----------------------------------------------------------------------------
57
58 %macro yuv2planeX_fn 3
59
60 %if ARCH_X86_32
61 %define cntr_reg fltsizeq
62 %define movsx mov
63 %else
64 %define cntr_reg r7
65 %define movsx movsxd
66 %endif
67
68 cglobal yuv2planeX_%1, %3, 8, %2, filter, fltsize, src, dst, w, dither, offset
69 %if %1 == 8 || %1 == 9 || %1 == 10
70     pxor            m6,  m6
71 %endif ; %1 == 8/9/10
72
73 %if %1 == 8
74 %if ARCH_X86_32
75 %assign pad 0x2c - (stack_offset & 15)
76     SUB             rsp, pad
77 %define m_dith m7
78 %else ; x86-64
79 %define m_dith m9
80 %endif ; x86-32
81
82     ; create registers holding dither
83     movq        m_dith, [ditherq]        ; dither
84     test        offsetd, offsetd
85     jz              .no_rot
86 %if mmsize == 16
87     punpcklqdq  m_dith,  m_dith
88 %endif ; mmsize == 16
89     PALIGNR     m_dith,  m_dith,  3,  m0
90 .no_rot:
91 %if mmsize == 16
92     punpcklbw   m_dith,  m6
93 %if ARCH_X86_64
94     punpcklwd       m8,  m_dith,  m6
95     pslld           m8,  12
96 %else ; x86-32
97     punpcklwd       m5,  m_dith,  m6
98     pslld           m5,  12
99 %endif ; x86-32/64
100     punpckhwd   m_dith,  m6
101     pslld       m_dith,  12
102 %if ARCH_X86_32
103     mova      [rsp+ 0],  m5
104     mova      [rsp+16],  m_dith
105 %endif
106 %else ; mmsize == 8
107     punpcklbw       m5,  m_dith,  m6
108     punpckhbw   m_dith,  m6
109     punpcklwd       m4,  m5,  m6
110     punpckhwd       m5,  m6
111     punpcklwd       m3,  m_dith,  m6
112     punpckhwd   m_dith,  m6
113     pslld           m4,  12
114     pslld           m5,  12
115     pslld           m3,  12
116     pslld       m_dith,  12
117     mova      [rsp+ 0],  m4
118     mova      [rsp+ 8],  m5
119     mova      [rsp+16],  m3
120     mova      [rsp+24],  m_dith
121 %endif ; mmsize == 8/16
122 %endif ; %1 == 8
123
124     xor             r5,  r5
125
126 .pixelloop:
127 %assign %%i 0
128     ; the rep here is for the 8bit output mmx case, where dither covers
129     ; 8 pixels but we can only handle 2 pixels per register, and thus 4
130     ; pixels per iteration. In order to not have to keep track of where
131     ; we are w.r.t. dithering, we unroll the mmx/8bit loop x2.
132 %if %1 == 8
133 %assign %%repcnt 16/mmsize
134 %else
135 %assign %%repcnt 1
136 %endif
137
138 %rep %%repcnt
139
140 %if %1 == 8
141 %if ARCH_X86_32
142     mova            m2, [rsp+mmsize*(0+%%i)]
143     mova            m1, [rsp+mmsize*(1+%%i)]
144 %else ; x86-64
145     mova            m2,  m8
146     mova            m1,  m_dith
147 %endif ; x86-32/64
148 %else ; %1 == 9/10/16
149     mova            m1, [yuv2yuvX_%1_start]
150     mova            m2,  m1
151 %endif ; %1 == 8/9/10/16
152     movsx     cntr_reg,  fltsizem
153 .filterloop_ %+ %%i:
154     ; input pixels
155     mov             r6, [srcq+gprsize*cntr_reg-2*gprsize]
156 %if %1 == 16
157     mova            m3, [r6+r5*4]
158     mova            m5, [r6+r5*4+mmsize]
159 %else ; %1 == 8/9/10
160     mova            m3, [r6+r5*2]
161 %endif ; %1 == 8/9/10/16
162     mov             r6, [srcq+gprsize*cntr_reg-gprsize]
163 %if %1 == 16
164     mova            m4, [r6+r5*4]
165     mova            m6, [r6+r5*4+mmsize]
166 %else ; %1 == 8/9/10
167     mova            m4, [r6+r5*2]
168 %endif ; %1 == 8/9/10/16
169
170     ; coefficients
171     movd            m0, [filterq+2*cntr_reg-4] ; coeff[0], coeff[1]
172 %if %1 == 16
173     pshuflw         m7,  m0,  0          ; coeff[0]
174     pshuflw         m0,  m0,  0x55       ; coeff[1]
175     pmovsxwd        m7,  m7              ; word -> dword
176     pmovsxwd        m0,  m0              ; word -> dword
177
178     pmulld          m3,  m7
179     pmulld          m5,  m7
180     pmulld          m4,  m0
181     pmulld          m6,  m0
182
183     paddd           m2,  m3
184     paddd           m1,  m5
185     paddd           m2,  m4
186     paddd           m1,  m6
187 %else ; %1 == 10/9/8
188     punpcklwd       m5,  m3,  m4
189     punpckhwd       m3,  m4
190     SPLATD          m0
191
192     pmaddwd         m5,  m0
193     pmaddwd         m3,  m0
194
195     paddd           m2,  m5
196     paddd           m1,  m3
197 %endif ; %1 == 8/9/10/16
198
199     sub       cntr_reg,  2
200     jg .filterloop_ %+ %%i
201
202 %if %1 == 16
203     psrad           m2,  31 - %1
204     psrad           m1,  31 - %1
205 %else ; %1 == 10/9/8
206     psrad           m2,  27 - %1
207     psrad           m1,  27 - %1
208 %endif ; %1 == 8/9/10/16
209
210 %if %1 == 8
211     packssdw        m2,  m1
212     packuswb        m2,  m2
213     movh   [dstq+r5*1],  m2
214 %else ; %1 == 9/10/16
215 %if %1 == 16
216     packssdw        m2,  m1
217     paddw           m2, [minshort]
218 %else ; %1 == 9/10
219 %if cpuflag(sse4)
220     packusdw        m2,  m1
221 %else ; mmxext/sse2
222     packssdw        m2,  m1
223     pmaxsw          m2,  m6
224 %endif ; mmxext/sse2/sse4/avx
225     pminsw          m2, [yuv2yuvX_%1_upper]
226 %endif ; %1 == 9/10/16
227     mova   [dstq+r5*2],  m2
228 %endif ; %1 == 8/9/10/16
229
230     add             r5,  mmsize/2
231     sub             wd,  mmsize/2
232
233 %assign %%i %%i+2
234 %endrep
235     jg .pixelloop
236
237 %if %1 == 8
238 %if ARCH_X86_32
239     ADD             rsp, pad
240     RET
241 %else ; x86-64
242     REP_RET
243 %endif ; x86-32/64
244 %else ; %1 == 9/10/16
245     REP_RET
246 %endif ; %1 == 8/9/10/16
247 %endmacro
248
249 %if ARCH_X86_32
250 INIT_MMX mmxext
251 yuv2planeX_fn  8,  0, 7
252 yuv2planeX_fn  9,  0, 5
253 yuv2planeX_fn 10,  0, 5
254 %endif
255
256 INIT_XMM sse2
257 yuv2planeX_fn  8, 10, 7
258 yuv2planeX_fn  9,  7, 5
259 yuv2planeX_fn 10,  7, 5
260
261 INIT_XMM sse4
262 yuv2planeX_fn  8, 10, 7
263 yuv2planeX_fn  9,  7, 5
264 yuv2planeX_fn 10,  7, 5
265 yuv2planeX_fn 16,  8, 5
266
267 INIT_XMM avx
268 yuv2planeX_fn  8, 10, 7
269 yuv2planeX_fn  9,  7, 5
270 yuv2planeX_fn 10,  7, 5
271
272 ; %1=outout-bpc, %2=alignment (u/a)
273 %macro yuv2plane1_mainloop 2
274 .loop_%2:
275 %if %1 == 8
276     paddsw          m0, m2, [srcq+wq*2+mmsize*0]
277     paddsw          m1, m3, [srcq+wq*2+mmsize*1]
278     psraw           m0, 7
279     psraw           m1, 7
280     packuswb        m0, m1
281     mov%2    [dstq+wq], m0
282 %elif %1 == 16
283     paddd           m0, m4, [srcq+wq*4+mmsize*0]
284     paddd           m1, m4, [srcq+wq*4+mmsize*1]
285     paddd           m2, m4, [srcq+wq*4+mmsize*2]
286     paddd           m3, m4, [srcq+wq*4+mmsize*3]
287     psrad           m0, 3
288     psrad           m1, 3
289     psrad           m2, 3
290     psrad           m3, 3
291 %if cpuflag(sse4) ; avx/sse4
292     packusdw        m0, m1
293     packusdw        m2, m3
294 %else ; mmx/sse2
295     packssdw        m0, m1
296     packssdw        m2, m3
297     paddw           m0, m5
298     paddw           m2, m5
299 %endif ; mmx/sse2/sse4/avx
300     mov%2    [dstq+wq*2+mmsize*0], m0
301     mov%2    [dstq+wq*2+mmsize*1], m2
302 %else ; %1 == 9/10
303     paddsw          m0, m2, [srcq+wq*2+mmsize*0]
304     paddsw          m1, m2, [srcq+wq*2+mmsize*1]
305     psraw           m0, 15 - %1
306     psraw           m1, 15 - %1
307     pmaxsw          m0, m4
308     pmaxsw          m1, m4
309     pminsw          m0, m3
310     pminsw          m1, m3
311     mov%2    [dstq+wq*2+mmsize*0], m0
312     mov%2    [dstq+wq*2+mmsize*1], m1
313 %endif
314     add             wq, mmsize
315     jl .loop_%2
316 %endmacro
317
318 %macro yuv2plane1_fn 3
319 cglobal yuv2plane1_%1, %3, %3, %2, src, dst, w, dither, offset
320     movsxdifnidn    wq, wd
321     add             wq, mmsize - 1
322     and             wq, ~(mmsize - 1)
323 %if %1 == 8
324     add           dstq, wq
325 %else ; %1 != 8
326     lea           dstq, [dstq+wq*2]
327 %endif ; %1 == 8
328 %if %1 == 16
329     lea           srcq, [srcq+wq*4]
330 %else ; %1 != 16
331     lea           srcq, [srcq+wq*2]
332 %endif ; %1 == 16
333     neg             wq
334
335 %if %1 == 8
336     pxor            m4, m4               ; zero
337
338     ; create registers holding dither
339     movq            m3, [ditherq]        ; dither
340     test       offsetd, offsetd
341     jz              .no_rot
342 %if mmsize == 16
343     punpcklqdq      m3, m3
344 %endif ; mmsize == 16
345     PALIGNR         m3, m3, 3, m2
346 .no_rot:
347 %if mmsize == 8
348     mova            m2, m3
349     punpckhbw       m3, m4               ; byte->word
350     punpcklbw       m2, m4               ; byte->word
351 %else
352     punpcklbw       m3, m4
353     mova            m2, m3
354 %endif
355 %elif %1 == 9
356     pxor            m4, m4
357     mova            m3, [pw_512]
358     mova            m2, [pw_32]
359 %elif %1 == 10
360     pxor            m4, m4
361     mova            m3, [pw_1024]
362     mova            m2, [pw_16]
363 %else ; %1 == 16
364 %if cpuflag(sse4) ; sse4/avx
365     mova            m4, [pd_4]
366 %else ; mmx/sse2
367     mova            m4, [pd_4min0x40000]
368     mova            m5, [minshort]
369 %endif ; mmx/sse2/sse4/avx
370 %endif ; %1 == ..
371
372     ; actual pixel scaling
373 %if mmsize == 8
374     yuv2plane1_mainloop %1, a
375 %else ; mmsize == 16
376     test          dstq, 15
377     jnz .unaligned
378     yuv2plane1_mainloop %1, a
379     REP_RET
380 .unaligned:
381     yuv2plane1_mainloop %1, u
382 %endif ; mmsize == 8/16
383     REP_RET
384 %endmacro
385
386 %if ARCH_X86_32
387 INIT_MMX mmx
388 yuv2plane1_fn  8, 0, 5
389 yuv2plane1_fn 16, 0, 3
390
391 INIT_MMX mmxext
392 yuv2plane1_fn  9, 0, 3
393 yuv2plane1_fn 10, 0, 3
394 %endif
395
396 INIT_XMM sse2
397 yuv2plane1_fn  8, 5, 5
398 yuv2plane1_fn  9, 5, 3
399 yuv2plane1_fn 10, 5, 3
400 yuv2plane1_fn 16, 6, 3
401
402 INIT_XMM sse4
403 yuv2plane1_fn 16, 5, 3
404
405 INIT_XMM avx
406 yuv2plane1_fn  8, 5, 5
407 yuv2plane1_fn  9, 5, 3
408 yuv2plane1_fn 10, 5, 3
409 yuv2plane1_fn 16, 5, 3