跟随Android进入ARM v8a的世界

从例子说起

目前我们在Android上运行的ARM芯片,有6套指令集,32位的ARM v5指令集,16位的thumb指令集,32位的ARM v7a指令集,16位和32位混合的thumb2指令集,32位的ARM v7a带Neon的指令集,还有64位的ARM v8a指令集。
16位的Thumb指令集是个不完备的指令集,需要跟ARM指令混编才可以完成全部的功能。

我们先向经典致敬,看看求最大公约数的代码。

C代码是这样的:

unsigned int gcd(unsigned int a, unsigned int b){    while(a!=b){        if(a>b){            a-=b;        }else{            b-=a;        }    }    return a;}

手工写出来的汇编是这样的:

.global gcd_asm.func gcd_asmgcd_asm:    cmp r0,r1    subgt r0,r0,r1    sublt r1,r1,r0    bne gcd_asm    bx lr.endfunc.end

解释一下上面用到的指令:
cmp r0, r1:做一次r0-r1的减法,根据结果设置CPSR的值。如果r0-r1为0,那么将CPSR中表示为0的Z位置1,否则置0. 如果r0-r1>0,则将表示负数的N位l置0,如果r0-r1<0,则该位置1.
SUB是减法指令,GT和LT是条件执行指令。
SUBGT是在GT,即大于或等于的条件下执行该减法,同理,SUBLT是在小于或等于的情况下执行该减法。
BNE是在Z标志未置的情况下跳转。
BX是切换跳转,用于函数返回。

下面来看看gcc为我们编出了什么样的汇编代码。
ARM v5的ARM模式的指令是这样的:

00000fd8 <gcd>:     fd8:   e1500001    cmp r0, r1     fdc:   012fff1e    bxeq    lr     fe0:   e1500001    cmp r0, r1     fe4:   80610000    rsbhi   r0, r1, r0     fe8:   90601001    rsbls   r1, r0, r1     fec:   e1510000    cmp r1, r0     ff0:   1afffffa    bne fe0 <gcd+0x8>     ff4:   e12fff1e    bx  lr

可以看到,每条指令都32位长度。
BXEQ LR,上节介绍过BX了,EQ是条件执行。如果r0和r1相等则返回。
然后再做一次cmp。
RSB是反向的减法,RSB a b c,相当于a= c-b。而SUB a b c相当于a = b – c
HI是无符号数的大于,LS是无符号数的小于。
所以RSBHI和RSBLS跟之前的SUBGT和SUBLT本质上没有区别。
BNE和BX跟之前一样,就不多解释了。

ARM v7a的ARM模式的指令是这样的:

00000c7c <gcd>:     c7c:   e1500001    cmp r0, r1     c80:   012fff1e    bxeq    lr     c84:   e1500001    cmp r0, r1     c88:   80610000    rsbhi   r0, r1, r0     c8c:   90601001    rsbls   r1, r0, r1     c90:   e1510000    cmp r1, r0     c94:   1afffffa    bne c84 <gcd+0x8>     c98:   e12fff1e    bx  lr

由于逻辑太简单了,发挥不出ARM v7a指令集的优势,所以跟ARM v5是一样的。

Thumb指令是这样的:

00000fd0 <gcd>:     fd0:   b500        push    {lr}     fd2:   4288        cmp r0, r1     fd4:   d004        beq.n   fe0 <gcd+0x10>     fd6:   d901        bls.n   fdc <gcd+0xc>     fd8:   1a40        subs    r0, r0, r1     fda:   e7fa        b.n fd2 <gcd+0x2>     fdc:   1a09        subs    r1, r1, r0     fde:   e7f8        b.n fd2 <gcd+0x2>     fe0:   bd00        pop {pc}

可以看到,指令是全16位的。
由于16位长指令的限制,SUB指令再做不了条件了,所以需要额外的比较和跳转指令。
Thumb2指令是这样的:

00000c6c <gcd>:     c6c:   4288        cmp r0, r1     c6e:   d005        beq.n   c7c <gcd+0x10>     c70:   bf8c        ite hi     c72:   ebc1 0000   rsbhi   r0, r1, r0     c76:   ebc0 0101   rsbls   r1, r0, r1     c7a:   e7f7        b.n c6c <gcd>     c7c:   4770        bx  lr

可以看到,是16位和32位混排的。
比较,跳转之类的还是16位指令,减法又把ARM32指令搬出来了。

最后,ARM64 v8-a出马了。先看看手写的是什么样的:

.global gcd_asm.func gcd_asmgcd_asm:    subs w2, w0, w1    csel w0, w2, w0, gt    csneg w1, w1, w2, gt    bne gcd_asm    ret.endfunc.end

csel根据后面的条件决定如何赋值,如果是GT,则w0=w2,否则w0 = w0。
Csneg在csel的基础上,如果条件不符合的话,取第三个参数的反。
Csneg w1, w1, w2, gt相当于,如果是GT,则w1=w1,否则w1=-w2。

注意,虽然操作数变成64位了,指令长度还是32位的哈。

0000000000000504 <gcd>: 504:   6b01001f    cmp w0, w1 508:   2a0003e2    mov w2, w0 50c:   54000140    b.eq    534 <gcd+0x30> 510:   6b01005f    cmp w2, w1 514:   4b010040    sub w0, w2, w1 518:   1a828000    csel    w0, w0, w2, hi 51c:   4b020023    sub w3, w1, w2 520:   6b01005f    cmp w2, w1 524:   2a0003e2    mov w2, w0 528:   1a838021    csel    w1, w1, w3, hi 52c:   6b00003f    cmp w1, w0 530:   54ffff01    b.ne    510 <gcd+0xc> 534:   d65f03c0    ret

更多相关文章

  1. 跟随Android进入ARM v8a的世界 (1) - 从例子说起
  2. Android(安卓)Studio 新建一个简单的Jni-demo,实现了so库的生成与
  3. Android(安卓)Studio JNI javah遇到的问题
  4. 在基于Android以及Jetson TK平台上如何写32位的Thumb-2指令
  5. android中短信协议与字段
  6. Mac环境下交叉编译生成Android版本的Assimp.so
  7. android 数据库 sqlite 操作
  8. Android黑群出品:SQLite数据库的使用和升级
  9. Android(安卓)adb中的操作命令

随机推荐

  1. 伯克利RISELab推出免费在线课程,涵盖数据
  2. 为什么深度学习没有取代传统的计算机视觉
  3. Playwright自动化测试工具之高阶使用
  4. 一个数据开发人员使用的辅助工具
  5. 利用 npm 的缺陷,他获得了 130,000 美元的
  6. Python可以比C++更快,你不信?
  7. 求求你,别用 print 来 debug 了
  8. 谷歌推出人工智能DIY套件:用硬纸板打造你
  9. 谁来接棒深度学习?
  10. IBM推出开源工具帮AI抵御对抗性样本***:DN