aarch64: Implement lowering rotl/rotr for i128 values

2021-06-20 14:45:32 +01:00
parent 7ce46043dc
commit f7f52445c8
3 changed files with 125 additions and 1 deletions
--- a/cranelift/codegen/src/isa/aarch64/lower_inst.rs
+++ b/cranelift/codegen/src/isa/aarch64/lower_inst.rs
@@ -878,6 +878,61 @@ pub(crate) fn lower_insn_to_regs<C: LowerCtx<I = Inst>>(
            let ty = ty.unwrap();
            let ty_bits_size = ty_bits(ty) as u8;

+            // TODO: We can do much better codegen if we have a constant amt
+            if ty == I128 {
+                let dst = get_output_reg(ctx, outputs[0]);
+                let src = put_input_in_regs(ctx, inputs[0]);
+                let amt_src = put_input_in_regs(ctx, inputs[1]).regs()[0];
+
+                let tmp = ctx.alloc_tmp(I128);
+                let inv_amt = ctx.alloc_tmp(I64).only_reg().unwrap();
+
+                lower_constant_u64(ctx, inv_amt, 128);
+                ctx.emit(Inst::AluRRR {
+                    alu_op: ALUOp::Sub64,
+                    rd: inv_amt,
+                    rn: inv_amt.to_reg(),
+                    rm: amt_src,
+                });
+
+                if is_rotl {
+                    // rotl
+                    // (shl.i128 tmp, amt)
+                    // (ushr.i128 dst, 128-amt)
+
+                    emit_shl_i128(ctx, src, tmp, amt_src);
+                    emit_shr_i128(
+                        ctx,
+                        src,
+                        dst,
+                        inv_amt.to_reg(),
+                        /* is_signed = */ false,
+                    );
+                } else {
+                    // rotr
+                    // (ushr.i128 tmp, amt)
+                    // (shl.i128 dst, 128-amt)
+
+                    emit_shr_i128(ctx, src, tmp, amt_src, /* is_signed = */ false);
+                    emit_shl_i128(ctx, src, dst, inv_amt.to_reg());
+                }
+
+                ctx.emit(Inst::AluRRR {
+                    alu_op: ALUOp::Orr64,
+                    rd: dst.regs()[0],
+                    rn: dst.regs()[0].to_reg(),
+                    rm: tmp.regs()[0].to_reg(),
+                });
+                ctx.emit(Inst::AluRRR {
+                    alu_op: ALUOp::Orr64,
+                    rd: dst.regs()[1],
+                    rn: dst.regs()[1].to_reg(),
+                    rm: tmp.regs()[1].to_reg(),
+                });
+
+                return Ok(());
+            }
+
            let rd = get_output_reg(ctx, outputs[0]).only_reg().unwrap();
            let rn = put_input_in_reg(
                ctx,
--- a/cranelift/filetests/filetests/isa/aarch64/shift-rotate.clif
+++ b/cranelift/filetests/filetests/isa/aarch64/shift-rotate.clif
@@ -6,6 +6,39 @@ target aarch64
 ;; ROR, variable
 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;

+function %i128_rotr(i128, i128) -> i128 {
+block0(v0: i128, v1: i128):
+  v2 = rotr.i128 v0, v1
+  return v2
+}
+
+; check: stp fp, lr, [sp, #-16]!
+; nextln: mov fp, sp
+; nextln: movz x3, #128
+; nextln: sub x5, x3, x2
+; nextln: orn w4, wzr, w2
+; nextln: lsl x6, x1, #1
+; nextln: lsr x3, x0, x2
+; nextln: lsl x6, x6, x4
+; nextln: lsr x4, x1, x2
+; nextln: ands xzr, x2, #64
+; nextln: orr x2, x3, x6
+; nextln: csel x3, xzr, x4, ne
+; nextln: csel x4, x4, x2, ne
+; nextln: orn w2, wzr, w5
+; nextln: lsr x6, x0, #1
+; nextln: lsl x1, x1, x5
+; nextln: lsr x2, x6, x2
+; nextln: lsl x0, x0, x5
+; nextln: ands xzr, x5, #64
+; nextln: orr x1, x1, x2
+; nextln: csel x1, x0, x1, ne
+; nextln: csel x0, xzr, x0, ne
+; nextln: orr x0, x0, x4
+; nextln: orr x1, x1, x3
+; nextln: ldp fp, lr, [sp], #16
+; nextln: ret
+
 function %f0(i64, i64) -> i64 {
 block0(v0: i64, v1: i64):
  v2 = rotr.i64 v0, v1
@@ -70,6 +103,42 @@ block0(v0: i8, v1: i8):
 ;; ROL, variable
 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;

+function %i128_rotl(i128, i128) -> i128 {
+block0(v0: i128, v1: i128):
+  v2 = rotl.i128 v0, v1
+  return v2
+}
+
+; check: stp fp, lr, [sp, #-16]!
+; nextln: mov fp, sp
+; nextln: movz x3, #128
+; nextln: sub x5, x3, x2
+; nextln: orn w4, wzr, w2
+; nextln: lsr x6, x0, #1
+; nextln: lsl x3, x1, x2
+; nextln: lsr x6, x6, x4
+; nextln: lsl x4, x0, x2
+; nextln: ands xzr, x2, #64
+; nextln: orr x2, x3, x6
+; nextln: csel x3, x4, x2, ne
+; nextln: csel x4, xzr, x4, ne
+; nextln: orn w2, wzr, w5
+; nextln: lsl x6, x1, #1
+; nextln: lsr x0, x0, x5
+; nextln: lsl x2, x6, x2
+; nextln: lsr x1, x1, x5
+; nextln: ands xzr, x5, #64
+; nextln: orr x2, x0, x2
+; nextln: csel x0, xzr, x1, ne
+; nextln: csel x1, x1, x2, ne
+; nextln: orr x1, x1, x4
+; nextln: orr x0, x0, x3
+; nextln: mov x2, x0
+; nextln: mov x0, x1
+; nextln: mov x1, x2
+; nextln: ldp fp, lr, [sp], #16
+; nextln: ret
+
 function %f4(i64, i64) -> i64 {
 block0(v0: i64, v1: i64):
  v2 = rotl.i64 v0, v1
--- a/cranelift/filetests/filetests/runtests/i128-rotate.clif
+++ b/cranelift/filetests/filetests/runtests/i128-rotate.clif
@@ -1,5 +1,5 @@
 test run
-; target aarch64 TODO: Not yet implemented on aarch64
+target aarch64
 ; target s390x TODO: Not yet implemented on s390x
 target x86_64 machinst