third_party/libdav1d/src/arm/32/loopfilter.S - cobalt - Git at Google

 /*
  * Copyright © 2018, VideoLAN and dav1d authors
  * Copyright © 2019, Martin Storsjo
  * All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without
  * modification, are permitted provided that the following conditions are met:
  *
  * 1. Redistributions of source code must retain the above copyright notice, this
  *    list of conditions and the following disclaimer.
  *
  * 2. Redistributions in binary form must reproduce the above copyright notice,
  *    this list of conditions and the following disclaimer in the documentation
  *    and/or other materials provided with the distribution.
  *
  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
  * WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
  * DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR
  * ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
  * (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
  * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  */

 #include "src/arm/asm.S"
 #include "util.S"

 .macro loop_filter wd
 function lpf_8_wd\wd\()_neon
         vabd.u8         d0,  d22, d23 // abs(p1 - p0)
         vabd.u8         d1,  d25, d24 // abs(q1 - q0)
         vabd.u8         d2,  d23, d24 // abs(p0 - q0)
         vabd.u8         d3,  d22, d25 // abs(p1 - q1)
 .if \wd >= 6
         vabd.u8         d4,  d21, d22 // abs(p2 - p1)
         vabd.u8         d5,  d26, d25 // abs(q2 - q1)
 .endif
 .if \wd >= 8
         vabd.u8         d6,  d20, d21 // abs(p3 - p2)
         vabd.u8         d7,  d27, d26 // abs(q3 - q3)
 .endif
 .if \wd >= 6
         vmax.u8         d4,  d4,  d5
 .endif
         vqadd.u8        d2,  d2,  d2  // abs(p0 - q0) * 2
 .if \wd >= 8
         vmax.u8         d6,  d6,  d7
 .endif
         vshr.u8         d3,  d3,  #1
 .if \wd >= 8
         vmax.u8         d4,  d4,  d6
 .endif
 .if \wd >= 6
         vand            d4,  d4,  d14
 .endif
         vmax.u8         d0,  d0,  d1  // max(abs(p1 - p0), abs(q1 - q0))
         vqadd.u8        d2,  d2,  d3  // abs(p0 - q0) * 2 + abs(p1 - q1) >> 1
 .if \wd >= 6
         vmax.u8         d4,  d0,  d4
         vcge.u8         d1,  d11, d4  // max(abs(p1 - p0), abs(q1 - q0), abs(), abs(), ...) <= I
 .else
         vcge.u8         d1,  d11, d0  // max(abs(p1 - p0), abs(q1 - q0)) <= I
 .endif
         vcge.u8         d2,  d10, d2  // abs(p0 - q0) * 2 + abs(p1 - q1) >> 1 <= E
         vand            d1,  d1,  d2  // fm
         vand            d1,  d1,  d13 // fm && wd >= 4
 .if \wd >= 6
         vand            d14, d14, d1  // fm && wd > 4
 .endif
 .if \wd >= 16
         vand            d15, d15, d1  // fm && wd == 16
 .endif

         vmov            r10, r11, d1
         orrs            r10, r10, r11
         beq             9f            // if (!fm || wd < 4) return;

 .if \wd >= 6
         vmov.i8         d10, #1
         vabd.u8         d2,  d21, d23 // abs(p2 - p0)
         vabd.u8         d3,  d22, d23 // abs(p1 - p0)
         vabd.u8         d4,  d25, d24 // abs(q1 - q0)
         vabd.u8         d5,  d26, d24 // abs(q2 - q0)
 .if \wd >= 8
         vabd.u8         d6,  d20, d23 // abs(p3 - p0)
         vabd.u8         d7,  d27, d24 // abs(q3 - q0)
 .endif
         vmax.u8         d2,  d2,  d3
         vmax.u8         d4,  d4,  d5
 .if \wd >= 8
         vmax.u8         d6,  d6,  d7
 .endif
         vmax.u8         d2,  d2,  d4
 .if \wd >= 8
         vmax.u8         d2,  d2,  d6
 .endif

 .if \wd == 16
         vabd.u8         d3,  d17, d23 // abs(p6 - p0)
         vabd.u8         d4,  d18, d23 // abs(p5 - p0)
         vabd.u8         d5,  d19, d23 // abs(p4 - p0)
 .endif
         vcge.u8         d2,  d10, d2  // flat8in
 .if \wd == 16
         vabd.u8         d6,  d28, d24 // abs(q4 - q0)
         vabd.u8         d7,  d29, d24 // abs(q5 - q0)
         vabd.u8         d8,  d30, d24 // abs(q6 - q0)
 .endif
         vand            d14, d2,  d14 // flat8in && fm && wd > 4
         vbic            d1,  d1,  d14 // fm && wd >= 4 && !flat8in
 .if \wd == 16
         vmax.u8         d3,  d3,  d4
         vmax.u8         d5,  d5,  d6
 .endif
         vmov            r10, r11, d1
 .if \wd == 16
         vmax.u8         d7,  d7,  d8
         vmax.u8         d3,  d3,  d5
         vmax.u8         d3,  d3,  d7
         vcge.u8         d3,  d10, d3  // flat8out
 .endif
         orrs            r10, r10, r11
 .if \wd == 16
         vand            d15, d15, d3  // flat8out && fm && wd == 16
         vand            d15, d15, d14 // flat8out && flat8in && fm && wd == 16
         vbic            d14, d14, d15 // flat8in && fm && wd >= 4 && !flat8out
 .endif
         beq             1f            // skip wd == 4 case
 .endif

         vsubl.u8        q1,  d22, d25 // p1 - q1
         vcgt.u8         d0,  d0,  d12 // hev
         vqmovn.s16      d2,  q1
         vand            d4,  d2,  d0  // if (hev) iclip_diff(p1 - q1)
         vbic            d0,  d1,  d0  // (fm && wd >= 4 && !hev)
         vsubl.u8        q1,  d24, d23
         vmov.i16        q3,  #3
         vmul.i16        q1,  q1,  q3
         vmov.i8         d6,  #4
         vaddw.s8        q1,  q1,  d4
         vmov.i8         d7,  #3
         vqmovn.s16      d2,  q1       // f
         vqadd.s8        d4,  d6,  d2  // imin(f + 4, 128)
         vqadd.s8        d5,  d7,  d2  // imin(f + 3, 128)
         vshr.s8         d4,  d4,  #3  // f1
         vshr.s8         d5,  d5,  #3  // f2
         vmovl.u8        q1,  d23      // p0
         vmovl.u8        q3,  d24      // q0
         vaddw.s8        q1,  q1,  d5
         vsubw.s8        q3,  q3,  d4
         vrshr.s8        d4,  d4,  #1  // (f1 + 1) >> 1
         vqmovun.s16     d2,  q1       // out p0
         vqmovun.s16     d6,  q3       // out q0
         vbit            d23, d2,  d1  // if (fm && wd >= 4)
         vmovl.u8        q1,  d22      // p1
         vbit            d24, d6,  d1  // if (fm && wd >= 4)
         vmovl.u8        q3,  d25      // q1
         vaddw.s8        q1,  q1,  d4
         vsubw.s8        q3,  q3,  d4
         vqmovun.s16     d2,  q1       // out p1
         vqmovun.s16     d6,  q3       // out q1
         vbit            d22, d2,  d0  // if (fm && wd >= 4 && !hev)
         vbit            d25, d6,  d0  // if (fm && wd >= 4 && !hev)
 1:

 .if \wd == 6
         vmov            r10, r11, d14
         orrs            r10, r10, r11
         beq             2f            // skip if there's no flat8in

         vaddl.u8        q0,  d21, d21 // p2 * 2
         vaddl.u8        q1,  d21, d22 // p2 + p1
         vaddl.u8        q2,  d22, d23 // p1 + p0
         vaddl.u8        q3,  d23, d24 // p0 + q0
         vadd.i16        q4,  q0,  q1
         vadd.i16        q5,  q2,  q3
         vaddl.u8        q6,  d24, d25 // q0 + q1
         vadd.i16        q4,  q4,  q5
         vsub.i16        q6,  q6,  q0
         vaddl.u8        q5,  d25, d26 // q1 + q2
         vrshrn.i16      d0,  q4,  #3  // out p1

         vadd.i16        q4,  q4,  q6
         vsub.i16        q5,  q5,  q1
         vaddl.u8        q6,  d26, d26 // q2 + q2
         vrshrn.i16      d1,  q4,  #3  // out p0

         vadd.i16        q4,  q4,  q5
         vsub.i16        q6,  q6,  q2
         vrshrn.i16      d2,  q4,  #3  // out q0

         vbit            d22, d0,  d14 // p1 if (flat8in)
         vadd.i16        q4,  q4,  q6
         vbit            d23, d1,  d14 // p0 if (flat8in)
         vrshrn.i16      d3,  q4,  #3  // out q1
         vbit            d24, d2,  d14 // q0 if (flat8in)
         vbit            d25, d3,  d14 // q1 if (flat8in)
 .elseif \wd >= 8
         vmov            r10, r11, d14
         orrs            r10, r10, r11
 .if \wd == 8
         beq             8f            // skip if there's no flat8in
 .else
         beq             2f            // skip if there's no flat8in
 .endif

         vaddl.u8        q0,  d20, d21 // p3 + p2
         vaddl.u8        q1,  d22, d25 // p1 + q1
         vaddl.u8        q2,  d20, d22 // p3 + p1
         vaddl.u8        q3,  d23, d26 // p0 + q2
         vadd.i16        q4,  q0,  q0  // 2 * (p3 + p2)
         vaddw.u8        q4,  q4,  d23 // + p0
         vaddw.u8        q4,  q4,  d24 // + q0
         vadd.i16        q4,  q4,  q2  // + p3 + p1
         vsub.i16        q1,  q1,  q0  // p1 + q1 - p3 - p2
         vsub.i16        q3,  q3,  q2  // p0 + q2 - p3 - p1
         vrshrn.i16      d10, q4,  #3  // out p2

         vadd.i16        q4,  q4,  q1
         vaddl.u8        q0,  d20, d23 // p3 + p0
         vaddl.u8        q1,  d24, d27 // q0 + q3
         vrshrn.i16      d11, q4,  #3  // out p1

         vadd.i16        q4,  q4,  q3
         vsub.i16        q1,  q1,  q0  // q0 + q3 - p3 - p0
         vaddl.u8        q2,  d21, d24 // p2 + q0
         vaddl.u8        q3,  d25, d27 // q1 + q3
         vrshrn.i16      d12, q4,  #3  // out p0

         vadd.i16        q4,  q4,  q1
         vsub.i16        q3,  q3,  q2  // q1 + q3 - p2 - q0
         vaddl.u8        q0,  d22, d25 // p1 + q1
         vaddl.u8        q1,  d26, d27 // q2 + q3
         vrshrn.i16      d13, q4,  #3  // out q0

         vadd.i16        q4,  q4,  q3
         vsub.i16        q1,  q1,  q0  // q2 + q3 - p1 - q1
         vrshrn.i16      d0,  q4,  #3  // out q1

         vadd.i16        q4,  q4,  q1

         vbit            d21, d10, d14
         vbit            d22, d11, d14
         vbit            d23, d12, d14
         vrshrn.i16      d1,  q4,  #3  // out q2
         vbit            d24, d13, d14
         vbit            d25, d0,  d14
         vbit            d26, d1,  d14
 .endif
 2:
 .if \wd == 16
         vmov            r10, r11, d15
         orrs            r10, r10, r11
         bne             1f            // check if flat8out is needed
         vmov            r10, r11, d14
         orrs            r10, r10, r11
         beq             8f            // if there was no flat8in, just write the inner 4 pixels
         b               7f            // if flat8in was used, write the inner 6 pixels
 1:

         vaddl.u8        q1,  d17, d17 // p6 + p6
         vaddl.u8        q2,  d17, d18 // p6 + p5
         vaddl.u8        q3,  d17, d19 // p6 + p4
         vaddl.u8        q4,  d17, d20 // p6 + p3
         vadd.i16        q6,  q1,  q2
         vadd.i16        q5,  q3,  q4
         vaddl.u8        q3,  d17, d21 // p6 + p2
         vadd.i16        q6,  q6,  q5
         vaddl.u8        q4,  d17, d22 // p6 + p1
         vaddl.u8        q5,  d18, d23 // p5 + p0
         vadd.i16        q3,  q3,  q4
         vaddl.u8        q4,  d19, d24 // p4 + q0
         vadd.i16        q6,  q6,  q3
         vadd.i16        q5,  q5,  q4
         vaddl.u8        q3,  d20, d25 // p3 + q1
         vadd.i16        q6,  q6,  q5
         vsub.i16        q3,  q3,  q1
         vaddl.u8        q1,  d21, d26 // p2 + q2
         vrshrn.i16      d0,  q6,  #4  // out p5
         vadd.i16        q6,  q6,  q3  // - (p6 + p6) + (p3 + q1)
         vsub.i16        q1,  q1,  q2
         vaddl.u8        q2,  d22, d27 // p1 + q3
         vaddl.u8        q3,  d17, d19 // p6 + p4
         vrshrn.i16      d1,  q6,  #4  // out p4
         vadd.i16        q6,  q6,  q1  // - (p6 + p5) + (p2 + q2)
         vsub.i16        q2,  q2,  q3
         vaddl.u8        q3,  d23, d28 // p0 + q4
         vaddl.u8        q4,  d17, d20 // p6 + p3
         vrshrn.i16      d2,  q6,  #4  // out p3
         vadd.i16        q6,  q6,  q2  // - (p6 + p4) + (p1 + q3)
         vsub.i16        q3,  q3,  q4
         vaddl.u8        q4,  d24, d29 // q0 + q5
         vaddl.u8        q2,  d17, d21 // p6 + p2
         vrshrn.i16      d3,  q6,  #4  // out p2
         vadd.i16        q6,  q6,  q3  // - (p6 + p3) + (p0 + q4)
         vsub.i16        q4,  q4,  q2
         vaddl.u8        q3,  d25, d30 // q1 + q6
         vaddl.u8        q5,  d17, d22 // p6 + p1
         vrshrn.i16      d4,  q6,  #4  // out p1
         vadd.i16        q6,  q6,  q4  // - (p6 + p2) + (q0 + q5)
         vsub.i16        q3,  q3,  q5
         vaddl.u8        q4,  d26, d30 // q2 + q6
         vbif            d0,  d18, d15 // out p5
         vaddl.u8        q5,  d18, d23 // p5 + p0
         vrshrn.i16      d5,  q6,  #4  // out p0
         vadd.i16        q6,  q6,  q3  // - (p6 + p1) + (q1 + q6)
         vsub.i16        q4,  q4,  q5
         vaddl.u8        q5,  d27, d30 // q3 + q6
         vbif            d1,  d19, d15 // out p4
         vaddl.u8        q9,  d19, d24 // p4 + q0
         vrshrn.i16      d6,  q6,  #4  // out q0
         vadd.i16        q6,  q6,  q4  // - (p5 + p0) + (q2 + q6)
         vsub.i16        q5,  q5,  q9
         vaddl.u8        q4,  d28, d30 // q4 + q6
         vbif            d2,  d20, d15 // out p3
         vaddl.u8        q9,  d20, d25 // p3 + q1
         vrshrn.i16      d7,  q6,  #4  // out q1
         vadd.i16        q6,  q6,  q5  // - (p4 + q0) + (q3 + q6)
         vsub.i16        q9,  q4,  q9
         vaddl.u8        q5,  d29, d30 // q5 + q6
         vbif            d3,  d21, d15 // out p2
         vaddl.u8        q10, d21, d26 // p2 + q2
         vrshrn.i16      d8,  q6,  #4  // out q2
         vadd.i16        q6,  q6,  q9  // - (p3 + q1) + (q4 + q6)
         vsub.i16        q5,  q5,  q10
         vaddl.u8        q9,  d30, d30 // q6 + q6
         vbif            d4,  d22, d15 // out p1
         vaddl.u8        q10, d22, d27 // p1 + q3
         vrshrn.i16      d9,  q6,  #4  // out q3
         vadd.i16        q6,  q6,  q5  // - (p2 + q2) + (q5 + q6)
         vsub.i16        q9,  q9,  q10
         vbif            d5,  d23, d15 // out p0
         vrshrn.i16      d10, q6,  #4  // out q4
         vadd.i16        q6,  q6,  q9  // - (p1 + q3) + (q6 + q6)
         vrshrn.i16      d11, q6,  #4  // out q5
         vbif            d6,  d24, d15 // out q0
         vbif            d7,  d25, d15 // out q1
         vbif            d8,  d26, d15 // out q2
         vbif            d9,  d27, d15 // out q3
         vbif            d10, d28, d15 // out q4
         vbif            d11, d29, d15 // out q5
 .endif

         bx              lr
 .if \wd == 16
 7:
         // Return to a shorter epilogue, writing only the inner 6 pixels
         bx              r8
 .endif
 .if \wd >= 8
 8:
         // Return to a shorter epilogue, writing only the inner 4 pixels
         bx              r9
 .endif
 9:
         // Return directly without writing back any pixels
         bx              r12
 endfunc
 .endm

 loop_filter 16
 loop_filter 8
 loop_filter 6
 loop_filter 4

 .macro lpf_8_wd16
         adr             r8,  7f + CONFIG_THUMB
         adr             r9,  8f + CONFIG_THUMB
         bl              lpf_8_wd16_neon
 .endm

 .macro lpf_8_wd8
         adr             r9,  8f + CONFIG_THUMB
         bl              lpf_8_wd8_neon
 .endm

 .macro lpf_8_wd6
         bl              lpf_8_wd6_neon
 .endm

 .macro lpf_8_wd4
         bl              lpf_8_wd4_neon
 .endm

 function lpf_v_4_8_neon
         mov             r12, lr
         sub             r10, r0,  r1, lsl #1
         vld1.8          {d22}, [r10, :64], r1 // p1
         vld1.8          {d24}, [r0,  :64], r1 // q0
         vld1.8          {d23}, [r10, :64], r1 // p0
         vld1.8          {d25}, [r0,  :64], r1 // q1
         sub             r0,  r0,  r1, lsl #1

         lpf_8_wd4

         sub             r10, r0,  r1, lsl #1
         vst1.8          {d22}, [r10, :64], r1 // p1
         vst1.8          {d24}, [r0,  :64], r1 // q0
         vst1.8          {d23}, [r10, :64], r1 // p0
         vst1.8          {d25}, [r0,  :64], r1 // q1
         sub             r0,  r0,  r1, lsl #1
         bx              r12
 endfunc

 function lpf_h_4_8_neon
         mov             r12, lr
         sub             r10, r0,  #2
         add             r0,  r10, r1, lsl #2
         vld1.32         {d22[0]}, [r10], r1
         vld1.32         {d22[1]}, [r0],  r1
         vld1.32         {d23[0]}, [r10], r1
         vld1.32         {d23[1]}, [r0],  r1
         vld1.32         {d24[0]}, [r10], r1
         vld1.32         {d24[1]}, [r0],  r1
         vld1.32         {d25[0]}, [r10], r1
         vld1.32         {d25[1]}, [r0],  r1
         add             r0,  r0,  #2

         transpose_4x8b  q11, q12, d22, d23, d24, d25

         lpf_8_wd4

         sub             r10, r0,  r1, lsl #3
         sub             r10, r10, #2
         transpose_4x8b  q11, q12, d22, d23, d24, d25
         add             r0,  r10, r1, lsl #2

         vst1.32         {d22[0]}, [r10], r1
         vst1.32         {d22[1]}, [r0],  r1
         vst1.32         {d23[0]}, [r10], r1
         vst1.32         {d23[1]}, [r0],  r1
         vst1.32         {d24[0]}, [r10], r1
         vst1.32         {d24[1]}, [r0],  r1
         vst1.32         {d25[0]}, [r10], r1
         vst1.32         {d25[1]}, [r0],  r1
         add             r0,  r0,  #2
         bx              r12
 endfunc

 function lpf_v_6_8_neon
         mov             r12, lr
         sub             r10, r0,  r1, lsl #1
         sub             r10, r10, r1
         vld1.8          {d21}, [r10, :64], r1 // p2
         vld1.8          {d24}, [r0,  :64], r1 // q0
         vld1.8          {d22}, [r10, :64], r1 // p1
         vld1.8          {d25}, [r0,  :64], r1 // q1
         vld1.8          {d23}, [r10, :64], r1 // p0
         vld1.8          {d26}, [r0,  :64], r1 // q2
         sub             r0,  r0,  r1, lsl #1
         sub             r0,  r0,  r1

         lpf_8_wd6

         sub             r10, r0,  r1, lsl #1
         vst1.8          {d22}, [r10, :64], r1 // p1
         vst1.8          {d24}, [r0,  :64], r1 // q0
         vst1.8          {d23}, [r10, :64], r1 // p0
         vst1.8          {d25}, [r0,  :64], r1 // q1
         sub             r0,  r0,  r1, lsl #1
         bx              r12
 endfunc

 function lpf_h_6_8_neon
         mov             r12, lr
         sub             r10, r0,  #4
         add             r0,  r10, r1, lsl #2
         vld1.8          {d20}, [r10], r1
         vld1.8          {d24}, [r0],  r1
         vld1.8          {d21}, [r10], r1
         vld1.8          {d25}, [r0],  r1
         vld1.8          {d22}, [r10], r1
         vld1.8          {d26}, [r0],  r1
         vld1.8          {d23}, [r10], r1
         vld1.8          {d27}, [r0],  r1
         add             r0,  r0,  #4

         transpose_8x8b  q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27

         lpf_8_wd6

         sub             r10, r0,  r1, lsl #3
         sub             r10, r10, #2
         transpose_4x8b  q11, q12, d22, d23, d24, d25
         add             r0,  r10, r1, lsl #2

         vst1.32         {d22[0]}, [r10], r1
         vst1.32         {d22[1]}, [r0],  r1
         vst1.32         {d23[0]}, [r10], r1
         vst1.32         {d23[1]}, [r0],  r1
         vst1.32         {d24[0]}, [r10], r1
         vst1.32         {d24[1]}, [r0],  r1
         vst1.32         {d25[0]}, [r10], r1
         vst1.32         {d25[1]}, [r0],  r1
         add             r0,  r0,  #2
         bx              r12
 endfunc

 function lpf_v_8_8_neon
         mov             r12, lr
         sub             r10, r0,  r1, lsl #2
         vld1.8          {d20}, [r10, :64], r1 // p3
         vld1.8          {d24}, [r0,  :64], r1 // q0
         vld1.8          {d21}, [r10, :64], r1 // p2
         vld1.8          {d25}, [r0,  :64], r1 // q1
         vld1.8          {d22}, [r10, :64], r1 // p1
         vld1.8          {d26}, [r0,  :64], r1 // q2
         vld1.8          {d23}, [r10, :64], r1 // p0
         vld1.8          {d27}, [r0,  :64], r1 // q3
         sub             r0,  r0,  r1, lsl #2

         lpf_8_wd8

         sub             r10, r0,  r1, lsl #1
         sub             r10, r10,  r1
         vst1.8          {d21}, [r10, :64], r1 // p2
         vst1.8          {d24}, [r0,  :64], r1 // q0
         vst1.8          {d22}, [r10, :64], r1 // p1
         vst1.8          {d25}, [r0,  :64], r1 // q1
         vst1.8          {d23}, [r10, :64], r1 // p0
         vst1.8          {d26}, [r0,  :64], r1 // q2
         sub             r0,  r0,  r1, lsl #1
         sub             r0,  r0,  r1
         bx              r12

 8:
         sub             r10, r0,  r1, lsl #1
         vst1.8          {d22}, [r10, :64], r1 // p1
         vst1.8          {d24}, [r0,  :64], r1 // q0
         vst1.8          {d23}, [r10, :64], r1 // p0
         vst1.8          {d25}, [r0,  :64], r1 // q1
         sub             r0,  r0,  r1, lsl #1
         bx              r12
 endfunc

 function lpf_h_8_8_neon
         mov             r12, lr
         sub             r10, r0,  #4
         add             r0,  r10, r1, lsl #2
         vld1.8          {d20}, [r10], r1
         vld1.8          {d24}, [r0],  r1
         vld1.8          {d21}, [r10], r1
         vld1.8          {d25}, [r0],  r1
         vld1.8          {d22}, [r10], r1
         vld1.8          {d26}, [r0],  r1
         vld1.8          {d23}, [r10], r1
         vld1.8          {d27}, [r0],  r1
         add             r0,  r0,  #4

         transpose_8x8b  q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27

         lpf_8_wd8

         sub             r10, r0,  r1, lsl #3
         sub             r10, r10, #4
         transpose_8x8b  q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27
         add             r0,  r10, r1, lsl #2

         vst1.8          {d20}, [r10], r1
         vst1.8          {d24}, [r0],  r1
         vst1.8          {d21}, [r10], r1
         vst1.8          {d25}, [r0],  r1
         vst1.8          {d22}, [r10], r1
         vst1.8          {d26}, [r0],  r1
         vst1.8          {d23}, [r10], r1
         vst1.8          {d27}, [r0],  r1
         add             r0,  r0,  #4
         bx              r12
 8:
         sub             r10, r0,  r1, lsl #3
         sub             r10, r10, #2
         transpose_4x8b  q11, q12, d22, d23, d24, d25
         add             r0,  r10, r1, lsl #2

         vst1.32         {d22[0]}, [r10], r1
         vst1.32         {d22[1]}, [r0],  r1
         vst1.32         {d23[0]}, [r10], r1
         vst1.32         {d23[1]}, [r0],  r1
         vst1.32         {d24[0]}, [r10], r1
         vst1.32         {d24[1]}, [r0],  r1
         vst1.32         {d25[0]}, [r10], r1
         vst1.32         {d25[1]}, [r0],  r1
         add             r0,  r0,  #2
         bx              r12
 endfunc

 function lpf_v_16_8_neon
         mov             r12, lr

         sub             r10, r0,  r1, lsl #3
         add             r10, r10, r1
         vld1.8          {d17}, [r10, :64], r1 // p6
         vld1.8          {d24}, [r0,  :64], r1 // q0
         vld1.8          {d18}, [r10, :64], r1 // p5
         vld1.8          {d25}, [r0,  :64], r1 // q1
         vld1.8          {d19}, [r10, :64], r1 // p4
         vld1.8          {d26}, [r0,  :64], r1 // q2
         vld1.8          {d20}, [r10, :64], r1 // p3
         vld1.8          {d27}, [r0,  :64], r1 // q3
         vld1.8          {d21}, [r10, :64], r1 // p2
         vld1.8          {d28}, [r0,  :64], r1 // q4
         vld1.8          {d22}, [r10, :64], r1 // p1
         vld1.8          {d29}, [r0,  :64], r1 // q5
         vld1.8          {d23}, [r10, :64], r1 // p0
         vld1.8          {d30}, [r0,  :64], r1 // q6
         sub             r0,  r0,  r1, lsl #3
         add             r0,  r0,  r1

         lpf_8_wd16

         sub             r10, r0,  r1, lsl #2
         sub             r10, r10, r1, lsl #1
         vst1.8          {d0},  [r10, :64], r1 // p5
         vst1.8          {d6},  [r0,  :64], r1 // q0
         vst1.8          {d1},  [r10, :64], r1 // p4
         vst1.8          {d7},  [r0,  :64], r1 // q1
         vst1.8          {d2},  [r10, :64], r1 // p3
         vst1.8          {d8},  [r0,  :64], r1 // q2
         vst1.8          {d3},  [r10, :64], r1 // p2
         vst1.8          {d9},  [r0,  :64], r1 // q3
         vst1.8          {d4},  [r10, :64], r1 // p1
         vst1.8          {d10}, [r0,  :64], r1 // q4
         vst1.8          {d5},  [r10, :64], r1 // p0
         vst1.8          {d11}, [r0,  :64], r1 // q5
         sub             r0,  r0,  r1, lsl #2
         sub             r0,  r0,  r1, lsl #1
         bx              r12
 7:
         sub             r10, r0,  r1
         sub             r10, r10, r1, lsl #1
         vst1.8          {d21}, [r10, :64], r1 // p2
         vst1.8          {d24}, [r0,  :64], r1 // q0
         vst1.8          {d22}, [r10, :64], r1 // p1
         vst1.8          {d25}, [r0,  :64], r1 // q1
         vst1.8          {d23}, [r10, :64], r1 // p0
         vst1.8          {d26}, [r0,  :64], r1 // q2
         sub             r0,  r0,  r1, lsl #1
         sub             r0,  r0,  r1
         bx              r12

 8:
         sub             r10, r0,  r1, lsl #1
         vst1.8          {d22}, [r10, :64], r1 // p1
         vst1.8          {d24}, [r0,  :64], r1 // q0
         vst1.8          {d23}, [r10, :64], r1 // p0
         vst1.8          {d25}, [r0,  :64], r1 // q1
         sub             r0,  r0,  r1, lsl #1
         bx              r12
 endfunc

 function lpf_h_16_8_neon
         mov             r12, lr
         sub             r10, r0,  #8
         vld1.8          {d16}, [r10, :64], r1
         vld1.8          {d24}, [r0,  :64], r1
         vld1.8          {d17}, [r10, :64], r1
         vld1.8          {d25}, [r0,  :64], r1
         vld1.8          {d18}, [r10, :64], r1
         vld1.8          {d26}, [r0,  :64], r1
         vld1.8          {d19}, [r10, :64], r1
         vld1.8          {d27}, [r0,  :64], r1
         vld1.8          {d20}, [r10, :64], r1
         vld1.8          {d28}, [r0,  :64], r1
         vld1.8          {d21}, [r10, :64], r1
         vld1.8          {d29}, [r0,  :64], r1
         vld1.8          {d22}, [r10, :64], r1
         vld1.8          {d30}, [r0,  :64], r1
         vld1.8          {d23}, [r10, :64], r1
         vld1.8          {d31}, [r0,  :64], r1

         transpose_8x8b  q8,  q9,  q10, q11, d16, d17, d18, d19, d20, d21, d22, d23
         transpose_8x8b  q12, q13, q14, q15, d24, d25, d26, d27, d28, d29, d30, d31

         lpf_8_wd16

         sub             r0,  r0,  r1, lsl #3
         sub             r10, r0,  #8

         transpose_8x8b  q8,  q0,  q1,  q2,  d16, d17, d0,  d1,  d2,  d3,  d4,  d5
         transpose_8x8b  q3,  q4,  q5,  q15, d6,  d7,  d8,  d9,  d10, d11, d30, d31

         vst1.8          {d16}, [r10, :64], r1
         vst1.8          {d6},  [r0,  :64], r1
         vst1.8          {d17}, [r10, :64], r1
         vst1.8          {d7},  [r0,  :64], r1
         vst1.8          {d0},  [r10, :64], r1
         vst1.8          {d8},  [r0,  :64], r1
         vst1.8          {d1},  [r10, :64], r1
         vst1.8          {d9},  [r0,  :64], r1
         vst1.8          {d2},  [r10, :64], r1
         vst1.8          {d10}, [r0,  :64], r1
         vst1.8          {d3},  [r10, :64], r1
         vst1.8          {d11}, [r0,  :64], r1
         vst1.8          {d4},  [r10, :64], r1
         vst1.8          {d30}, [r0,  :64], r1
         vst1.8          {d5},  [r10, :64], r1
         vst1.8          {d31}, [r0,  :64], r1
         bx              r12

 7:
         sub             r10, r0,  r1, lsl #3
         sub             r10, r10, #4
         transpose_8x8b  q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27
         add             r0,  r10, r1, lsl #2

         vst1.8          {d20}, [r10], r1
         vst1.8          {d24}, [r0],  r1
         vst1.8          {d21}, [r10], r1
         vst1.8          {d25}, [r0],  r1
         vst1.8          {d22}, [r10], r1
         vst1.8          {d26}, [r0],  r1
         vst1.8          {d23}, [r10], r1
         vst1.8          {d27}, [r0],  r1
         add             r0,  r0,  #4
         bx              r12
 8:
         sub             r10, r0,  r1, lsl #3
         sub             r10, r10, #2
         transpose_4x8b  q11, q12, d22, d23, d24, d25
         add             r0,  r10, r1, lsl #2

         vst1.32         {d22[0]}, [r10], r1
         vst1.32         {d22[1]}, [r0],  r1
         vst1.32         {d23[0]}, [r10], r1
         vst1.32         {d23[1]}, [r0],  r1
         vst1.32         {d24[0]}, [r10], r1
         vst1.32         {d24[1]}, [r0],  r1
         vst1.32         {d25[0]}, [r10], r1
         vst1.32         {d25[1]}, [r0],  r1
         add             r0,  r0,  #2
         bx              r12
 endfunc

 // void dav1d_lpf_v_sb_y_neon(pixel *dst, const ptrdiff_t stride,
 //                            const uint32_t *const vmask,
 //                            const uint8_t (*l)[4], ptrdiff_t b4_stride,
 //                            const Av1FilterLUT *lut, const int w)

 .macro lpf_func dir, type
 function lpf_\dir\()_sb_\type\()_neon, export=1
         push            {r4-r11,lr}
         vpush           {q4-q7}
         ldrd            r4,  r5,  [sp, #100]
         ldrd            r6,  r7,  [r2] // vmask[0], vmask[1]
 .ifc \type, y
         ldr             r2,  [r2, #8]  // vmask[2]
 .endif
         add             r5,  r5,  #128 // Move to sharp part of lut
 .ifc \type, y
         orr             r7,  r7,  r2   // vmask[1] |= vmask[2]
 .endif
 .ifc \dir, v
         sub             r4,  r3,  r4, lsl #2
 .else
         sub             r3,  r3,  #4
         lsl             r4,  r4,  #2
 .endif
         orr             r6,  r6,  r7   // vmask[0] |= vmask[1]

 1:
         tst             r6,  #0x03
 .ifc \dir, v
         vld1.8          {d0}, [r4]!
         vld1.8          {d1}, [r3]!
 .else
         vld2.32         {d0[0], d1[0]}, [r3], r4
         vld2.32         {d0[1], d1[1]}, [r3], r4
 .endif
         beq             7f             // if (!(vm & bits)) continue;

         vld1.8          {d5[]}, [r5]   // sharp[0]
         add             r5,  r5,  #8
         vmov.i32        d2,  #0xff
         vdup.32         d13, r6        // vmask[0]

         vand            d0,  d0,  d2   // Keep only lowest byte in each 32 bit word
         vand            d1,  d1,  d2
         vtst.8          d3,  d1,  d2   // Check for nonzero values in l[0][0]
         vmov.i8         d4,  #1
         vld1.8          {d6[]}, [r5]   // sharp[1]
         sub             r5,  r5,  #8
         vbif            d1,  d0,  d3   // if (!l[0][0]) L = l[offset][0]
         vmul.i32        d1,  d1,  d4   // L
 .ifc \type, y
         vdup.32         d15, r2        // vmask[2]
 .endif
         vtst.32         d2,  d1,  d2   // L != 0
         vdup.32         d14, r7        // vmask[1]
         vmov            r10, r11, d2
         orrs            r10, r10, r11
         beq             7f             // if (!L) continue;
         vneg.s8         d5,  d5        // -sharp[0]
         movrel_local    r10, word_12
         vshr.u8         d12, d1,  #4   // H
         vld1.32         {d16}, [r10, :64]
         vshl.s8         d3,  d1,  d5   // L >> sharp[0]
 .ifc \type, y
         vtst.32         d15, d15, d16  // if (vmask[2] & bits)
 .endif
         vmov.i8         d7,  #2
         vmin.u8         d3,  d3,  d6   // imin(L >> sharp[0], sharp[1])
         vadd.i8         d0,  d1,  d7   // L + 2
         vmax.u8         d11, d3,  d4   // imax(imin(), 1) = limit = I
         vadd.u8         d0,  d0,  d0   // 2*(L + 2)
         vtst.32         d14, d14, d16  // if (vmask[1] & bits)
         vadd.i8         d10, d0,  d11  // 2*(L + 2) + limit = E
         vtst.32         d13, d13, d16  // if (vmask[0] & bits)
         vand            d13, d13, d2   // vmask[0] &= L != 0

 .ifc \type, y
         tst             r2,  #0x03
         beq             2f
         // wd16
         bl              lpf_\dir\()_16_8_neon
         b               8f
 2:
 .endif
         tst             r7,  #0x03
         beq             3f
 .ifc \type, y
         // wd8
         bl              lpf_\dir\()_8_8_neon
 .else
         // wd6
         bl              lpf_\dir\()_6_8_neon
 .endif
         b               8f
 3:
         // wd4
         bl              lpf_\dir\()_4_8_neon
 .ifc \dir, h
         b               8f
 7:
         // For dir h, the functions above increment r0.
         // If the whole function is skipped, increment it here instead.
         add             r0,  r0,  r1,  lsl #3
 .else
 7:
 .endif
 8:
         lsrs            r6,  r6,  #2   // vmask[0] >>= 2
         lsr             r7,  r7,  #2   // vmask[1] >>= 2
 .ifc \type, y
         lsr             r2,  r2,  #2   // vmask[2] >>= 2
 .endif
 .ifc \dir, v
         add             r0,  r0,  #8
 .else
         // For dir h, r0 is returned incremented
 .endif
         bne             1b

         vpop            {q4-q7}
         pop             {r4-r11,pc}
 endfunc
 .endm

 lpf_func v, y
 lpf_func h, y
 lpf_func v, uv
 lpf_func h, uv

 const word_12, align=4
         .word 1, 2
 endconst
	/*
	* Copyright © 2018, VideoLAN and dav1d authors
	* Copyright © 2019, Martin Storsjo
	* All rights reserved.
	*
	* Redistribution and use in source and binary forms, with or without
	* modification, are permitted provided that the following conditions are met:
	*
	* 1. Redistributions of source code must retain the above copyright notice, this
	* list of conditions and the following disclaimer.
	*
	* 2. Redistributions in binary form must reproduce the above copyright notice,
	* this list of conditions and the following disclaimer in the documentation
	* and/or other materials provided with the distribution.
	*
	* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
	* ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
	* WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
	* DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR
	* ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
	* (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
	* LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
	* ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
	* (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
	* SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
	*/

	#include "src/arm/asm.S"
	#include "util.S"

	.macro loop_filter wd
	function lpf_8_wd\wd\()_neon
	vabd.u8 d0, d22, d23 // abs(p1 - p0)
	vabd.u8 d1, d25, d24 // abs(q1 - q0)
	vabd.u8 d2, d23, d24 // abs(p0 - q0)
	vabd.u8 d3, d22, d25 // abs(p1 - q1)
	.if \wd >= 6
	vabd.u8 d4, d21, d22 // abs(p2 - p1)
	vabd.u8 d5, d26, d25 // abs(q2 - q1)
	.endif
	.if \wd >= 8
	vabd.u8 d6, d20, d21 // abs(p3 - p2)
	vabd.u8 d7, d27, d26 // abs(q3 - q3)
	.endif
	.if \wd >= 6
	vmax.u8 d4, d4, d5
	.endif
	vqadd.u8 d2, d2, d2 // abs(p0 - q0) * 2
	.if \wd >= 8
	vmax.u8 d6, d6, d7
	.endif
	vshr.u8 d3, d3, #1
	.if \wd >= 8
	vmax.u8 d4, d4, d6
	.endif
	.if \wd >= 6
	vand d4, d4, d14
	.endif
	vmax.u8 d0, d0, d1 // max(abs(p1 - p0), abs(q1 - q0))
	vqadd.u8 d2, d2, d3 // abs(p0 - q0) * 2 + abs(p1 - q1) >> 1
	.if \wd >= 6
	vmax.u8 d4, d0, d4
	vcge.u8 d1, d11, d4 // max(abs(p1 - p0), abs(q1 - q0), abs(), abs(), ...) <= I
	.else
	vcge.u8 d1, d11, d0 // max(abs(p1 - p0), abs(q1 - q0)) <= I
	.endif
	vcge.u8 d2, d10, d2 // abs(p0 - q0) * 2 + abs(p1 - q1) >> 1 <= E
	vand d1, d1, d2 // fm
	vand d1, d1, d13 // fm && wd >= 4
	.if \wd >= 6
	vand d14, d14, d1 // fm && wd > 4
	.endif
	.if \wd >= 16
	vand d15, d15, d1 // fm && wd == 16
	.endif

	vmov r10, r11, d1
	orrs r10, r10, r11
	beq 9f // if (!fm \|\| wd < 4) return;

	.if \wd >= 6
	vmov.i8 d10, #1
	vabd.u8 d2, d21, d23 // abs(p2 - p0)
	vabd.u8 d3, d22, d23 // abs(p1 - p0)
	vabd.u8 d4, d25, d24 // abs(q1 - q0)
	vabd.u8 d5, d26, d24 // abs(q2 - q0)
	.if \wd >= 8
	vabd.u8 d6, d20, d23 // abs(p3 - p0)
	vabd.u8 d7, d27, d24 // abs(q3 - q0)
	.endif
	vmax.u8 d2, d2, d3
	vmax.u8 d4, d4, d5
	.if \wd >= 8
	vmax.u8 d6, d6, d7
	.endif
	vmax.u8 d2, d2, d4
	.if \wd >= 8
	vmax.u8 d2, d2, d6
	.endif

	.if \wd == 16
	vabd.u8 d3, d17, d23 // abs(p6 - p0)
	vabd.u8 d4, d18, d23 // abs(p5 - p0)
	vabd.u8 d5, d19, d23 // abs(p4 - p0)
	.endif
	vcge.u8 d2, d10, d2 // flat8in
	.if \wd == 16
	vabd.u8 d6, d28, d24 // abs(q4 - q0)
	vabd.u8 d7, d29, d24 // abs(q5 - q0)
	vabd.u8 d8, d30, d24 // abs(q6 - q0)
	.endif
	vand d14, d2, d14 // flat8in && fm && wd > 4
	vbic d1, d1, d14 // fm && wd >= 4 && !flat8in
	.if \wd == 16
	vmax.u8 d3, d3, d4
	vmax.u8 d5, d5, d6
	.endif
	vmov r10, r11, d1
	.if \wd == 16
	vmax.u8 d7, d7, d8
	vmax.u8 d3, d3, d5
	vmax.u8 d3, d3, d7
	vcge.u8 d3, d10, d3 // flat8out
	.endif
	orrs r10, r10, r11
	.if \wd == 16
	vand d15, d15, d3 // flat8out && fm && wd == 16
	vand d15, d15, d14 // flat8out && flat8in && fm && wd == 16
	vbic d14, d14, d15 // flat8in && fm && wd >= 4 && !flat8out
	.endif
	beq 1f // skip wd == 4 case
	.endif

	vsubl.u8 q1, d22, d25 // p1 - q1
	vcgt.u8 d0, d0, d12 // hev
	vqmovn.s16 d2, q1
	vand d4, d2, d0 // if (hev) iclip_diff(p1 - q1)
	vbic d0, d1, d0 // (fm && wd >= 4 && !hev)
	vsubl.u8 q1, d24, d23
	vmov.i16 q3, #3
	vmul.i16 q1, q1, q3
	vmov.i8 d6, #4
	vaddw.s8 q1, q1, d4
	vmov.i8 d7, #3
	vqmovn.s16 d2, q1 // f
	vqadd.s8 d4, d6, d2 // imin(f + 4, 128)
	vqadd.s8 d5, d7, d2 // imin(f + 3, 128)
	vshr.s8 d4, d4, #3 // f1
	vshr.s8 d5, d5, #3 // f2
	vmovl.u8 q1, d23 // p0
	vmovl.u8 q3, d24 // q0
	vaddw.s8 q1, q1, d5
	vsubw.s8 q3, q3, d4
	vrshr.s8 d4, d4, #1 // (f1 + 1) >> 1
	vqmovun.s16 d2, q1 // out p0
	vqmovun.s16 d6, q3 // out q0
	vbit d23, d2, d1 // if (fm && wd >= 4)
	vmovl.u8 q1, d22 // p1
	vbit d24, d6, d1 // if (fm && wd >= 4)
	vmovl.u8 q3, d25 // q1
	vaddw.s8 q1, q1, d4
	vsubw.s8 q3, q3, d4
	vqmovun.s16 d2, q1 // out p1
	vqmovun.s16 d6, q3 // out q1
	vbit d22, d2, d0 // if (fm && wd >= 4 && !hev)
	vbit d25, d6, d0 // if (fm && wd >= 4 && !hev)
	1:

	.if \wd == 6
	vmov r10, r11, d14
	orrs r10, r10, r11
	beq 2f // skip if there's no flat8in

	vaddl.u8 q0, d21, d21 // p2 * 2
	vaddl.u8 q1, d21, d22 // p2 + p1
	vaddl.u8 q2, d22, d23 // p1 + p0
	vaddl.u8 q3, d23, d24 // p0 + q0
	vadd.i16 q4, q0, q1
	vadd.i16 q5, q2, q3
	vaddl.u8 q6, d24, d25 // q0 + q1
	vadd.i16 q4, q4, q5
	vsub.i16 q6, q6, q0
	vaddl.u8 q5, d25, d26 // q1 + q2
	vrshrn.i16 d0, q4, #3 // out p1

	vadd.i16 q4, q4, q6
	vsub.i16 q5, q5, q1
	vaddl.u8 q6, d26, d26 // q2 + q2
	vrshrn.i16 d1, q4, #3 // out p0

	vadd.i16 q4, q4, q5
	vsub.i16 q6, q6, q2
	vrshrn.i16 d2, q4, #3 // out q0

	vbit d22, d0, d14 // p1 if (flat8in)
	vadd.i16 q4, q4, q6
	vbit d23, d1, d14 // p0 if (flat8in)
	vrshrn.i16 d3, q4, #3 // out q1
	vbit d24, d2, d14 // q0 if (flat8in)
	vbit d25, d3, d14 // q1 if (flat8in)
	.elseif \wd >= 8
	vmov r10, r11, d14
	orrs r10, r10, r11
	.if \wd == 8
	beq 8f // skip if there's no flat8in
	.else
	beq 2f // skip if there's no flat8in
	.endif

	vaddl.u8 q0, d20, d21 // p3 + p2
	vaddl.u8 q1, d22, d25 // p1 + q1
	vaddl.u8 q2, d20, d22 // p3 + p1
	vaddl.u8 q3, d23, d26 // p0 + q2
	vadd.i16 q4, q0, q0 // 2 * (p3 + p2)
	vaddw.u8 q4, q4, d23 // + p0
	vaddw.u8 q4, q4, d24 // + q0
	vadd.i16 q4, q4, q2 // + p3 + p1
	vsub.i16 q1, q1, q0 // p1 + q1 - p3 - p2
	vsub.i16 q3, q3, q2 // p0 + q2 - p3 - p1
	vrshrn.i16 d10, q4, #3 // out p2

	vadd.i16 q4, q4, q1
	vaddl.u8 q0, d20, d23 // p3 + p0
	vaddl.u8 q1, d24, d27 // q0 + q3
	vrshrn.i16 d11, q4, #3 // out p1

	vadd.i16 q4, q4, q3
	vsub.i16 q1, q1, q0 // q0 + q3 - p3 - p0
	vaddl.u8 q2, d21, d24 // p2 + q0
	vaddl.u8 q3, d25, d27 // q1 + q3
	vrshrn.i16 d12, q4, #3 // out p0

	vadd.i16 q4, q4, q1
	vsub.i16 q3, q3, q2 // q1 + q3 - p2 - q0
	vaddl.u8 q0, d22, d25 // p1 + q1
	vaddl.u8 q1, d26, d27 // q2 + q3
	vrshrn.i16 d13, q4, #3 // out q0

	vadd.i16 q4, q4, q3
	vsub.i16 q1, q1, q0 // q2 + q3 - p1 - q1
	vrshrn.i16 d0, q4, #3 // out q1

	vadd.i16 q4, q4, q1

	vbit d21, d10, d14
	vbit d22, d11, d14
	vbit d23, d12, d14
	vrshrn.i16 d1, q4, #3 // out q2
	vbit d24, d13, d14
	vbit d25, d0, d14
	vbit d26, d1, d14
	.endif
	2:
	.if \wd == 16
	vmov r10, r11, d15
	orrs r10, r10, r11
	bne 1f // check if flat8out is needed
	vmov r10, r11, d14
	orrs r10, r10, r11
	beq 8f // if there was no flat8in, just write the inner 4 pixels
	b 7f // if flat8in was used, write the inner 6 pixels
	1:

	vaddl.u8 q1, d17, d17 // p6 + p6
	vaddl.u8 q2, d17, d18 // p6 + p5
	vaddl.u8 q3, d17, d19 // p6 + p4
	vaddl.u8 q4, d17, d20 // p6 + p3
	vadd.i16 q6, q1, q2
	vadd.i16 q5, q3, q4
	vaddl.u8 q3, d17, d21 // p6 + p2
	vadd.i16 q6, q6, q5
	vaddl.u8 q4, d17, d22 // p6 + p1
	vaddl.u8 q5, d18, d23 // p5 + p0
	vadd.i16 q3, q3, q4
	vaddl.u8 q4, d19, d24 // p4 + q0
	vadd.i16 q6, q6, q3
	vadd.i16 q5, q5, q4
	vaddl.u8 q3, d20, d25 // p3 + q1
	vadd.i16 q6, q6, q5
	vsub.i16 q3, q3, q1
	vaddl.u8 q1, d21, d26 // p2 + q2
	vrshrn.i16 d0, q6, #4 // out p5
	vadd.i16 q6, q6, q3 // - (p6 + p6) + (p3 + q1)
	vsub.i16 q1, q1, q2
	vaddl.u8 q2, d22, d27 // p1 + q3
	vaddl.u8 q3, d17, d19 // p6 + p4
	vrshrn.i16 d1, q6, #4 // out p4
	vadd.i16 q6, q6, q1 // - (p6 + p5) + (p2 + q2)
	vsub.i16 q2, q2, q3
	vaddl.u8 q3, d23, d28 // p0 + q4
	vaddl.u8 q4, d17, d20 // p6 + p3
	vrshrn.i16 d2, q6, #4 // out p3
	vadd.i16 q6, q6, q2 // - (p6 + p4) + (p1 + q3)
	vsub.i16 q3, q3, q4
	vaddl.u8 q4, d24, d29 // q0 + q5
	vaddl.u8 q2, d17, d21 // p6 + p2
	vrshrn.i16 d3, q6, #4 // out p2
	vadd.i16 q6, q6, q3 // - (p6 + p3) + (p0 + q4)
	vsub.i16 q4, q4, q2
	vaddl.u8 q3, d25, d30 // q1 + q6
	vaddl.u8 q5, d17, d22 // p6 + p1
	vrshrn.i16 d4, q6, #4 // out p1
	vadd.i16 q6, q6, q4 // - (p6 + p2) + (q0 + q5)
	vsub.i16 q3, q3, q5
	vaddl.u8 q4, d26, d30 // q2 + q6
	vbif d0, d18, d15 // out p5
	vaddl.u8 q5, d18, d23 // p5 + p0
	vrshrn.i16 d5, q6, #4 // out p0
	vadd.i16 q6, q6, q3 // - (p6 + p1) + (q1 + q6)
	vsub.i16 q4, q4, q5
	vaddl.u8 q5, d27, d30 // q3 + q6
	vbif d1, d19, d15 // out p4
	vaddl.u8 q9, d19, d24 // p4 + q0
	vrshrn.i16 d6, q6, #4 // out q0
	vadd.i16 q6, q6, q4 // - (p5 + p0) + (q2 + q6)
	vsub.i16 q5, q5, q9
	vaddl.u8 q4, d28, d30 // q4 + q6
	vbif d2, d20, d15 // out p3
	vaddl.u8 q9, d20, d25 // p3 + q1
	vrshrn.i16 d7, q6, #4 // out q1
	vadd.i16 q6, q6, q5 // - (p4 + q0) + (q3 + q6)
	vsub.i16 q9, q4, q9
	vaddl.u8 q5, d29, d30 // q5 + q6
	vbif d3, d21, d15 // out p2
	vaddl.u8 q10, d21, d26 // p2 + q2
	vrshrn.i16 d8, q6, #4 // out q2
	vadd.i16 q6, q6, q9 // - (p3 + q1) + (q4 + q6)
	vsub.i16 q5, q5, q10
	vaddl.u8 q9, d30, d30 // q6 + q6
	vbif d4, d22, d15 // out p1
	vaddl.u8 q10, d22, d27 // p1 + q3
	vrshrn.i16 d9, q6, #4 // out q3
	vadd.i16 q6, q6, q5 // - (p2 + q2) + (q5 + q6)
	vsub.i16 q9, q9, q10
	vbif d5, d23, d15 // out p0
	vrshrn.i16 d10, q6, #4 // out q4
	vadd.i16 q6, q6, q9 // - (p1 + q3) + (q6 + q6)
	vrshrn.i16 d11, q6, #4 // out q5
	vbif d6, d24, d15 // out q0
	vbif d7, d25, d15 // out q1
	vbif d8, d26, d15 // out q2
	vbif d9, d27, d15 // out q3
	vbif d10, d28, d15 // out q4
	vbif d11, d29, d15 // out q5
	.endif

	bx lr
	.if \wd == 16
	7:
	// Return to a shorter epilogue, writing only the inner 6 pixels
	bx r8
	.endif
	.if \wd >= 8
	8:
	// Return to a shorter epilogue, writing only the inner 4 pixels
	bx r9
	.endif
	9:
	// Return directly without writing back any pixels
	bx r12
	endfunc
	.endm

	loop_filter 16
	loop_filter 8
	loop_filter 6
	loop_filter 4

	.macro lpf_8_wd16
	adr r8, 7f + CONFIG_THUMB
	adr r9, 8f + CONFIG_THUMB
	bl lpf_8_wd16_neon
	.endm

	.macro lpf_8_wd8
	adr r9, 8f + CONFIG_THUMB
	bl lpf_8_wd8_neon
	.endm

	.macro lpf_8_wd6
	bl lpf_8_wd6_neon
	.endm

	.macro lpf_8_wd4
	bl lpf_8_wd4_neon
	.endm

	function lpf_v_4_8_neon
	mov r12, lr
	sub r10, r0, r1, lsl #1
	vld1.8 {d22}, [r10, :64], r1 // p1
	vld1.8 {d24}, [r0, :64], r1 // q0
	vld1.8 {d23}, [r10, :64], r1 // p0
	vld1.8 {d25}, [r0, :64], r1 // q1
	sub r0, r0, r1, lsl #1

	lpf_8_wd4

	sub r10, r0, r1, lsl #1
	vst1.8 {d22}, [r10, :64], r1 // p1
	vst1.8 {d24}, [r0, :64], r1 // q0
	vst1.8 {d23}, [r10, :64], r1 // p0
	vst1.8 {d25}, [r0, :64], r1 // q1
	sub r0, r0, r1, lsl #1
	bx r12
	endfunc

	function lpf_h_4_8_neon
	mov r12, lr
	sub r10, r0, #2
	add r0, r10, r1, lsl #2
	vld1.32 {d22[0]}, [r10], r1
	vld1.32 {d22[1]}, [r0], r1
	vld1.32 {d23[0]}, [r10], r1
	vld1.32 {d23[1]}, [r0], r1
	vld1.32 {d24[0]}, [r10], r1
	vld1.32 {d24[1]}, [r0], r1
	vld1.32 {d25[0]}, [r10], r1
	vld1.32 {d25[1]}, [r0], r1
	add r0, r0, #2

	transpose_4x8b q11, q12, d22, d23, d24, d25

	lpf_8_wd4

	sub r10, r0, r1, lsl #3
	sub r10, r10, #2
	transpose_4x8b q11, q12, d22, d23, d24, d25
	add r0, r10, r1, lsl #2

	vst1.32 {d22[0]}, [r10], r1
	vst1.32 {d22[1]}, [r0], r1
	vst1.32 {d23[0]}, [r10], r1
	vst1.32 {d23[1]}, [r0], r1
	vst1.32 {d24[0]}, [r10], r1
	vst1.32 {d24[1]}, [r0], r1
	vst1.32 {d25[0]}, [r10], r1
	vst1.32 {d25[1]}, [r0], r1
	add r0, r0, #2
	bx r12
	endfunc

	function lpf_v_6_8_neon
	mov r12, lr
	sub r10, r0, r1, lsl #1
	sub r10, r10, r1
	vld1.8 {d21}, [r10, :64], r1 // p2
	vld1.8 {d24}, [r0, :64], r1 // q0
	vld1.8 {d22}, [r10, :64], r1 // p1
	vld1.8 {d25}, [r0, :64], r1 // q1
	vld1.8 {d23}, [r10, :64], r1 // p0
	vld1.8 {d26}, [r0, :64], r1 // q2
	sub r0, r0, r1, lsl #1
	sub r0, r0, r1

	lpf_8_wd6

	sub r10, r0, r1, lsl #1
	vst1.8 {d22}, [r10, :64], r1 // p1
	vst1.8 {d24}, [r0, :64], r1 // q0
	vst1.8 {d23}, [r10, :64], r1 // p0
	vst1.8 {d25}, [r0, :64], r1 // q1
	sub r0, r0, r1, lsl #1
	bx r12
	endfunc

	function lpf_h_6_8_neon
	mov r12, lr
	sub r10, r0, #4
	add r0, r10, r1, lsl #2
	vld1.8 {d20}, [r10], r1
	vld1.8 {d24}, [r0], r1
	vld1.8 {d21}, [r10], r1
	vld1.8 {d25}, [r0], r1
	vld1.8 {d22}, [r10], r1
	vld1.8 {d26}, [r0], r1
	vld1.8 {d23}, [r10], r1
	vld1.8 {d27}, [r0], r1
	add r0, r0, #4

	transpose_8x8b q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27

	lpf_8_wd6

	sub r10, r0, r1, lsl #3
	sub r10, r10, #2
	transpose_4x8b q11, q12, d22, d23, d24, d25
	add r0, r10, r1, lsl #2

	vst1.32 {d22[0]}, [r10], r1
	vst1.32 {d22[1]}, [r0], r1
	vst1.32 {d23[0]}, [r10], r1
	vst1.32 {d23[1]}, [r0], r1
	vst1.32 {d24[0]}, [r10], r1
	vst1.32 {d24[1]}, [r0], r1
	vst1.32 {d25[0]}, [r10], r1
	vst1.32 {d25[1]}, [r0], r1
	add r0, r0, #2
	bx r12
	endfunc

	function lpf_v_8_8_neon
	mov r12, lr
	sub r10, r0, r1, lsl #2
	vld1.8 {d20}, [r10, :64], r1 // p3
	vld1.8 {d24}, [r0, :64], r1 // q0
	vld1.8 {d21}, [r10, :64], r1 // p2
	vld1.8 {d25}, [r0, :64], r1 // q1
	vld1.8 {d22}, [r10, :64], r1 // p1
	vld1.8 {d26}, [r0, :64], r1 // q2
	vld1.8 {d23}, [r10, :64], r1 // p0
	vld1.8 {d27}, [r0, :64], r1 // q3
	sub r0, r0, r1, lsl #2

	lpf_8_wd8

	sub r10, r0, r1, lsl #1
	sub r10, r10, r1
	vst1.8 {d21}, [r10, :64], r1 // p2
	vst1.8 {d24}, [r0, :64], r1 // q0
	vst1.8 {d22}, [r10, :64], r1 // p1
	vst1.8 {d25}, [r0, :64], r1 // q1
	vst1.8 {d23}, [r10, :64], r1 // p0
	vst1.8 {d26}, [r0, :64], r1 // q2
	sub r0, r0, r1, lsl #1
	sub r0, r0, r1
	bx r12

	8:
	sub r10, r0, r1, lsl #1
	vst1.8 {d22}, [r10, :64], r1 // p1
	vst1.8 {d24}, [r0, :64], r1 // q0
	vst1.8 {d23}, [r10, :64], r1 // p0
	vst1.8 {d25}, [r0, :64], r1 // q1
	sub r0, r0, r1, lsl #1
	bx r12
	endfunc

	function lpf_h_8_8_neon
	mov r12, lr
	sub r10, r0, #4
	add r0, r10, r1, lsl #2
	vld1.8 {d20}, [r10], r1
	vld1.8 {d24}, [r0], r1
	vld1.8 {d21}, [r10], r1
	vld1.8 {d25}, [r0], r1
	vld1.8 {d22}, [r10], r1
	vld1.8 {d26}, [r0], r1
	vld1.8 {d23}, [r10], r1
	vld1.8 {d27}, [r0], r1
	add r0, r0, #4

	transpose_8x8b q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27

	lpf_8_wd8

	sub r10, r0, r1, lsl #3
	sub r10, r10, #4
	transpose_8x8b q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27
	add r0, r10, r1, lsl #2

	vst1.8 {d20}, [r10], r1
	vst1.8 {d24}, [r0], r1
	vst1.8 {d21}, [r10], r1
	vst1.8 {d25}, [r0], r1
	vst1.8 {d22}, [r10], r1
	vst1.8 {d26}, [r0], r1
	vst1.8 {d23}, [r10], r1
	vst1.8 {d27}, [r0], r1
	add r0, r0, #4
	bx r12
	8:
	sub r10, r0, r1, lsl #3
	sub r10, r10, #2
	transpose_4x8b q11, q12, d22, d23, d24, d25
	add r0, r10, r1, lsl #2

	vst1.32 {d22[0]}, [r10], r1
	vst1.32 {d22[1]}, [r0], r1
	vst1.32 {d23[0]}, [r10], r1
	vst1.32 {d23[1]}, [r0], r1
	vst1.32 {d24[0]}, [r10], r1
	vst1.32 {d24[1]}, [r0], r1
	vst1.32 {d25[0]}, [r10], r1
	vst1.32 {d25[1]}, [r0], r1
	add r0, r0, #2
	bx r12
	endfunc

	function lpf_v_16_8_neon
	mov r12, lr

	sub r10, r0, r1, lsl #3
	add r10, r10, r1
	vld1.8 {d17}, [r10, :64], r1 // p6
	vld1.8 {d24}, [r0, :64], r1 // q0
	vld1.8 {d18}, [r10, :64], r1 // p5
	vld1.8 {d25}, [r0, :64], r1 // q1
	vld1.8 {d19}, [r10, :64], r1 // p4
	vld1.8 {d26}, [r0, :64], r1 // q2
	vld1.8 {d20}, [r10, :64], r1 // p3
	vld1.8 {d27}, [r0, :64], r1 // q3
	vld1.8 {d21}, [r10, :64], r1 // p2
	vld1.8 {d28}, [r0, :64], r1 // q4
	vld1.8 {d22}, [r10, :64], r1 // p1
	vld1.8 {d29}, [r0, :64], r1 // q5
	vld1.8 {d23}, [r10, :64], r1 // p0
	vld1.8 {d30}, [r0, :64], r1 // q6
	sub r0, r0, r1, lsl #3
	add r0, r0, r1

	lpf_8_wd16

	sub r10, r0, r1, lsl #2
	sub r10, r10, r1, lsl #1
	vst1.8 {d0}, [r10, :64], r1 // p5
	vst1.8 {d6}, [r0, :64], r1 // q0
	vst1.8 {d1}, [r10, :64], r1 // p4
	vst1.8 {d7}, [r0, :64], r1 // q1
	vst1.8 {d2}, [r10, :64], r1 // p3
	vst1.8 {d8}, [r0, :64], r1 // q2
	vst1.8 {d3}, [r10, :64], r1 // p2
	vst1.8 {d9}, [r0, :64], r1 // q3
	vst1.8 {d4}, [r10, :64], r1 // p1
	vst1.8 {d10}, [r0, :64], r1 // q4
	vst1.8 {d5}, [r10, :64], r1 // p0
	vst1.8 {d11}, [r0, :64], r1 // q5
	sub r0, r0, r1, lsl #2
	sub r0, r0, r1, lsl #1
	bx r12
	7:
	sub r10, r0, r1
	sub r10, r10, r1, lsl #1
	vst1.8 {d21}, [r10, :64], r1 // p2
	vst1.8 {d24}, [r0, :64], r1 // q0
	vst1.8 {d22}, [r10, :64], r1 // p1
	vst1.8 {d25}, [r0, :64], r1 // q1
	vst1.8 {d23}, [r10, :64], r1 // p0
	vst1.8 {d26}, [r0, :64], r1 // q2
	sub r0, r0, r1, lsl #1
	sub r0, r0, r1
	bx r12

	8:
	sub r10, r0, r1, lsl #1
	vst1.8 {d22}, [r10, :64], r1 // p1
	vst1.8 {d24}, [r0, :64], r1 // q0
	vst1.8 {d23}, [r10, :64], r1 // p0
	vst1.8 {d25}, [r0, :64], r1 // q1
	sub r0, r0, r1, lsl #1
	bx r12
	endfunc

	function lpf_h_16_8_neon
	mov r12, lr
	sub r10, r0, #8
	vld1.8 {d16}, [r10, :64], r1
	vld1.8 {d24}, [r0, :64], r1
	vld1.8 {d17}, [r10, :64], r1
	vld1.8 {d25}, [r0, :64], r1
	vld1.8 {d18}, [r10, :64], r1
	vld1.8 {d26}, [r0, :64], r1
	vld1.8 {d19}, [r10, :64], r1
	vld1.8 {d27}, [r0, :64], r1
	vld1.8 {d20}, [r10, :64], r1
	vld1.8 {d28}, [r0, :64], r1
	vld1.8 {d21}, [r10, :64], r1
	vld1.8 {d29}, [r0, :64], r1
	vld1.8 {d22}, [r10, :64], r1
	vld1.8 {d30}, [r0, :64], r1
	vld1.8 {d23}, [r10, :64], r1
	vld1.8 {d31}, [r0, :64], r1

	transpose_8x8b q8, q9, q10, q11, d16, d17, d18, d19, d20, d21, d22, d23
	transpose_8x8b q12, q13, q14, q15, d24, d25, d26, d27, d28, d29, d30, d31

	lpf_8_wd16

	sub r0, r0, r1, lsl #3
	sub r10, r0, #8

	transpose_8x8b q8, q0, q1, q2, d16, d17, d0, d1, d2, d3, d4, d5
	transpose_8x8b q3, q4, q5, q15, d6, d7, d8, d9, d10, d11, d30, d31

	vst1.8 {d16}, [r10, :64], r1
	vst1.8 {d6}, [r0, :64], r1
	vst1.8 {d17}, [r10, :64], r1
	vst1.8 {d7}, [r0, :64], r1
	vst1.8 {d0}, [r10, :64], r1
	vst1.8 {d8}, [r0, :64], r1
	vst1.8 {d1}, [r10, :64], r1
	vst1.8 {d9}, [r0, :64], r1
	vst1.8 {d2}, [r10, :64], r1
	vst1.8 {d10}, [r0, :64], r1
	vst1.8 {d3}, [r10, :64], r1
	vst1.8 {d11}, [r0, :64], r1
	vst1.8 {d4}, [r10, :64], r1
	vst1.8 {d30}, [r0, :64], r1
	vst1.8 {d5}, [r10, :64], r1
	vst1.8 {d31}, [r0, :64], r1
	bx r12

	7:
	sub r10, r0, r1, lsl #3
	sub r10, r10, #4
	transpose_8x8b q10, q11, q12, q13, d20, d21, d22, d23, d24, d25, d26, d27
	add r0, r10, r1, lsl #2

	vst1.8 {d20}, [r10], r1
	vst1.8 {d24}, [r0], r1
	vst1.8 {d21}, [r10], r1
	vst1.8 {d25}, [r0], r1
	vst1.8 {d22}, [r10], r1
	vst1.8 {d26}, [r0], r1
	vst1.8 {d23}, [r10], r1
	vst1.8 {d27}, [r0], r1
	add r0, r0, #4
	bx r12
	8:
	sub r10, r0, r1, lsl #3
	sub r10, r10, #2
	transpose_4x8b q11, q12, d22, d23, d24, d25
	add r0, r10, r1, lsl #2

	vst1.32 {d22[0]}, [r10], r1
	vst1.32 {d22[1]}, [r0], r1
	vst1.32 {d23[0]}, [r10], r1
	vst1.32 {d23[1]}, [r0], r1
	vst1.32 {d24[0]}, [r10], r1
	vst1.32 {d24[1]}, [r0], r1
	vst1.32 {d25[0]}, [r10], r1
	vst1.32 {d25[1]}, [r0], r1
	add r0, r0, #2
	bx r12
	endfunc

	// void dav1d_lpf_v_sb_y_neon(pixel *dst, const ptrdiff_t stride,
	// const uint32_t *const vmask,
	// const uint8_t (*l)[4], ptrdiff_t b4_stride,
	// const Av1FilterLUT *lut, const int w)

	.macro lpf_func dir, type
	function lpf_\dir\()_sb_\type\()_neon, export=1
	push {r4-r11,lr}
	vpush {q4-q7}
	ldrd r4, r5, [sp, #100]
	ldrd r6, r7, [r2] // vmask[0], vmask[1]
	.ifc \type, y
	ldr r2, [r2, #8] // vmask[2]
	.endif
	add r5, r5, #128 // Move to sharp part of lut
	.ifc \type, y
	orr r7, r7, r2 // vmask[1] \|= vmask[2]
	.endif
	.ifc \dir, v
	sub r4, r3, r4, lsl #2
	.else
	sub r3, r3, #4
	lsl r4, r4, #2
	.endif
	orr r6, r6, r7 // vmask[0] \|= vmask[1]

	1:
	tst r6, #0x03
	.ifc \dir, v
	vld1.8 {d0}, [r4]!
	vld1.8 {d1}, [r3]!
	.else
	vld2.32 {d0[0], d1[0]}, [r3], r4
	vld2.32 {d0[1], d1[1]}, [r3], r4
	.endif
	beq 7f // if (!(vm & bits)) continue;

	vld1.8 {d5[]}, [r5] // sharp[0]
	add r5, r5, #8
	vmov.i32 d2, #0xff
	vdup.32 d13, r6 // vmask[0]

	vand d0, d0, d2 // Keep only lowest byte in each 32 bit word
	vand d1, d1, d2
	vtst.8 d3, d1, d2 // Check for nonzero values in l[0][0]
	vmov.i8 d4, #1
	vld1.8 {d6[]}, [r5] // sharp[1]
	sub r5, r5, #8
	vbif d1, d0, d3 // if (!l[0][0]) L = l[offset][0]
	vmul.i32 d1, d1, d4 // L
	.ifc \type, y
	vdup.32 d15, r2 // vmask[2]
	.endif
	vtst.32 d2, d1, d2 // L != 0
	vdup.32 d14, r7 // vmask[1]
	vmov r10, r11, d2
	orrs r10, r10, r11
	beq 7f // if (!L) continue;
	vneg.s8 d5, d5 // -sharp[0]
	movrel_local r10, word_12
	vshr.u8 d12, d1, #4 // H
	vld1.32 {d16}, [r10, :64]
	vshl.s8 d3, d1, d5 // L >> sharp[0]
	.ifc \type, y
	vtst.32 d15, d15, d16 // if (vmask[2] & bits)
	.endif
	vmov.i8 d7, #2
	vmin.u8 d3, d3, d6 // imin(L >> sharp[0], sharp[1])
	vadd.i8 d0, d1, d7 // L + 2
	vmax.u8 d11, d3, d4 // imax(imin(), 1) = limit = I
	vadd.u8 d0, d0, d0 // 2*(L + 2)
	vtst.32 d14, d14, d16 // if (vmask[1] & bits)
	vadd.i8 d10, d0, d11 // 2*(L + 2) + limit = E
	vtst.32 d13, d13, d16 // if (vmask[0] & bits)
	vand d13, d13, d2 // vmask[0] &= L != 0

	.ifc \type, y
	tst r2, #0x03
	beq 2f
	// wd16
	bl lpf_\dir\()_16_8_neon
	b 8f
	2:
	.endif
	tst r7, #0x03
	beq 3f
	.ifc \type, y
	// wd8
	bl lpf_\dir\()_8_8_neon
	.else
	// wd6
	bl lpf_\dir\()_6_8_neon
	.endif
	b 8f
	3:
	// wd4
	bl lpf_\dir\()_4_8_neon
	.ifc \dir, h
	b 8f
	7:
	// For dir h, the functions above increment r0.
	// If the whole function is skipped, increment it here instead.
	add r0, r0, r1, lsl #3
	.else
	7:
	.endif
	8:
	lsrs r6, r6, #2 // vmask[0] >>= 2
	lsr r7, r7, #2 // vmask[1] >>= 2
	.ifc \type, y
	lsr r2, r2, #2 // vmask[2] >>= 2
	.endif
	.ifc \dir, v
	add r0, r0, #8
	.else
	// For dir h, r0 is returned incremented
	.endif
	bne 1b

	vpop {q4-q7}
	pop {r4-r11,pc}
	endfunc
	.endm

	lpf_func v, y
	lpf_func h, y
	lpf_func v, uv
	lpf_func h, uv

	const word_12, align=4
	.word 1, 2
	endconst