導入
Clang/LLVMの勉強を始めよう!と思ったものの、何から始めればいいかわからない… (きつねさんとか読めばいいのかな?)
ということでまずはツールとしての使い方から勉強しようと思った。 そのためにはgccとの対応関係を見るのがわかりやすいだろうと思ったが、自分自身gccのことちゃんとわかってないことが分かったのでまずはそこから。
gccの仕組み
gccとは
gccはGNU Compiler Collectionの略らしい(GNU C Complierではない)。いろいろな言語のコンパイラが集まってできている。
https://gcc.gnu.org/
gccの動作
Cソースコードをコンパイルするとき我々は以下のようなコマンドを打つ。
$ gcc sample.c
するとa.out
ができる。
これを見るとgccがCコンパイラだと思いがちだが実際はちょっと違う。
gccが実行ファイルを生成するときは、プリプロセス、コンパイル、アセンブル、リンクという手順が取られている。
この様子はgccに-v
オプションを渡すことで見ることができる。
$ gcc -v sample.c
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-linux-gnu/9/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none:hsa
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 9.3.0-17ubuntu1~20.04' --with-bugurl=file:///usr/share/doc/gcc-9/README.Bugs --enable-languages=c,ada,c++,go,brig,d,fortran,objc,obj-c++,gm2 --prefix=/usr --with-gcc-major-version-only --program-suffix=-9 --program-prefix=x86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --enable-default-pie --with-system-zlib --with-target-system-zlib=auto --enable-objc-gc=auto --enable-multiarch --disable-werror --with-arch-32=i686 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-offload-targets=nvptx-none=/build/gcc-9-HskZEa/gcc-9-9.3.0/debian/tmp-nvptx/usr,hsa --without-cuda-driver --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04)
COLLECT_GCC_OPTIONS='-v' '-mtune=generic' '-march=x86-64'
/usr/lib/gcc/x86_64-linux-gnu/9/cc1 -quiet -v -imultiarch x86_64-linux-gnu sample.c -quiet -dumpbase sample.c -mtune=generic -march=x86-64 -auxbase sample -version -fasynchronous-unwind-tables -fstack-protector-strong -Wformat -Wformat-security -fstack-clash-protection -fcf-protection -o /tmp/cc9D9xkt.s
GNU C17 (Ubuntu 9.3.0-17ubuntu1~20.04) version 9.3.0 (x86_64-linux-gnu)
compiled by GNU C version 9.3.0, GMP version 6.2.0, MPFR version 4.0.2, MPC version 1.1.0, isl version isl-0.22.1-GMP
GGC heuristics: --param ggc-min-expand=100 --param ggc-min-heapsize=131072
ignoring nonexistent directory "/usr/local/include/x86_64-linux-gnu"
ignoring nonexistent directory "/usr/lib/gcc/x86_64-linux-gnu/9/include-fixed"
ignoring nonexistent directory "/usr/lib/gcc/x86_64-linux-gnu/9/../../../../x86_64-linux-gnu/include"
#include "..." search starts here:
#include <...> search starts here:
/usr/lib/gcc/x86_64-linux-gnu/9/include
/usr/local/include
/usr/include/x86_64-linux-gnu
/usr/include
End of search list.
GNU C17 (Ubuntu 9.3.0-17ubuntu1~20.04) version 9.3.0 (x86_64-linux-gnu)
compiled by GNU C version 9.3.0, GMP version 6.2.0, MPFR version 4.0.2, MPC version 1.1.0, isl version isl-0.22.1-GMP
GGC heuristics: --param ggc-min-expand=100 --param ggc-min-heapsize=131072
Compiler executable checksum: bbf13931d8de1abe14040c9909cb6969
COLLECT_GCC_OPTIONS='-v' '-mtune=generic' '-march=x86-64'
as -v --64 -o /tmp/cchApNIq.o /tmp/cc9D9xkt.s
GNU アセンブラ バージョン 2.34 (x86_64-linux-gnu)、BFD バージョン (GNU Binutils for Ubuntu) 2.34 を使用
COMPILER_PATH=/usr/lib/gcc/x86_64-linux-gnu/9/:/usr/lib/gcc/x86_64-linux-gnu/9/:/usr/lib/gcc/x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/9/:/usr/lib/gcc/x86_64-linux-gnu/
LIBRARY_PATH=/usr/lib/gcc/x86_64-linux-gnu/9/:/usr/lib/gcc/x86_64-linux-gnu/9/../../../x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/9/../../../../lib/:/lib/x86_64-linux-gnu/:/lib/../lib/:/usr/lib/x86_64-linux-gnu/:/usr/lib/../lib/:/usr/lib/gcc/x86_64-linux-gnu/9/../../../:/lib/:/usr/lib/
COLLECT_GCC_OPTIONS='-v' '-mtune=generic' '-march=x86-64'
/usr/lib/gcc/x86_64-linux-gnu/9/collect2 -plugin /usr/lib/gcc/x86_64-linux-gnu/9/liblto_plugin.so -plugin-opt=/usr/lib/gcc/x86_64-linux-gnu/9/lto-wrapper -plugin-opt=-fresolution=/tmp/ccQgYu7t.res -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lc -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lgcc_s --build-id --eh-frame-hdr -m elf_x86_64 --hash-style=gnu --as-needed -dynamic-linker /lib64/ld-linux-x86-64.so.2 -pie -z now -z relro /usr/lib/gcc/x86_64-linux-gnu/9/../../../x86_64-linux-gnu/Scrt1.o /usr/lib/gcc/x86_64-linux-gnu/9/../../../x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/9/crtbeginS.o -L/usr/lib/gcc/x86_64-linux-gnu/9 -L/usr/lib/gcc/x86_64-linux-gnu/9/../../../x86_64-linux-gnu -L/usr/lib/gcc/x86_64-linux-gnu/9/../../../../lib -L/lib/x86_64-linux-gnu -L/lib/../lib -L/usr/lib/x86_64-linux-gnu -L/usr/lib/../lib -L/usr/lib/gcc/x86_64-linux-gnu/9/../../.. /tmp/cchApNIq.o -lgcc --push-state --as-needed -lgcc_s --pop-state -lc -lgcc --push-state --as-needed -lgcc_s --pop-state /usr/lib/gcc/x86_64-linux-gnu/9/crtendS.o /usr/lib/gcc/x86_64-linux-gnu/9/../../../x86_64-linux-gnu/crtn.o
COLLECT_GCC_OPTIONS='-v' '-mtune=generic' '-march=x86-64'
つまりgccは受け取ったファイルから必要なツールを判断して適宜呼び出すプログラムである。
これをコンパイラドライバという。
ちなみにリンカはcollect2ではなくldでは?と思うかもしれないが、ldはGNU Binutilsという便利ツール群の1つという感じらしい。(やってることは同じだと思われ)
簡単にまとめると下図のようになる。
http://www15.big.or.jp/~yamamori/sun/gcc/gcc-detail.html
http://nenya.cis.ibaraki.ac.jp/TIPS/compiler.html
Clang/LLVM
これでようやく本題に入れる。
LLVMとは
学生の頃の発表では「LLVMはオープンソースのコンパイラ基盤です!」とドヤ顔で言ってたが、正直コンパイラ基盤ってなんやねんと思ってた。
何か新しく言語を開発してそのコンパイラを作ろう、となったときにLLVMを使うとその新言語をLLVM IRに変換するフロントエンドさえ開発すればいいですよ、あとの最適化とか機械語生成はLLVMをそのまま使えますよという意味合いらしい。
LLVMのフロントエンドとして有名なものでは、ClangやRustなどがある。(Rustは厳密にはちょっと違うか)
これだけ聞くとgccとほぼ同じような思想で開発されているように見えるが、LLVMを使うメリットはほかにもいろいろあるらしい。
しかしよくわからないここではあまり重要ではないので割愛。
Clangとは
さっきも書いたがLLVM向けのC/C++フロントエンドのこと。 だが見方によってはLLVMをベースに開発したC/C++コンパイラという風に説明することもできるし、実際にそういう説明の仕方をメインにしている記事もある。 (ClangがLLVMプロジェクトに取り込まれる前は後者の認識で、取り込まれてからは前者の認識になったんだろうか)
後述するが、gccに対応するのがこのclangである。
https://clang.llvm.org/
https://postd.cc/llvm-for-grad-students/
Clang/LLVMの動作
gccと同じ感覚で以下のように使うことができる。(導入方法は割愛)
$ clang sample.c
生成されるファイルも同様にa.out
である。
clangもgccと同様コンパイラドライバであるが、-v
オプションを渡してもgccと同じでは?というような結果しか表示されない。
Clangの動作を理解するにはLLVMへの理解が不可欠である。(と言いつつ自分自身まだ全然わかってない)
clangもgccと同様に-E
(プリプロセスまで),-S
(コンパイルまで),-c
(アセンブルまで)オプションを指定できるが、この中には-emit-llvm
をつけることで出力されるものが変わるものがある。
具体的には、-S
のときにはLLVM IRが、-c
のときにはLLVM bitcodeが出力される。
これはそれぞれLLVMによって抽象化されたアセンブリコード、オブジェクトコードと見ることができる。
さらにこれらはLLVMのツールによってさまざまな変換や解析ができるほか、そのままターゲット用にコンパイル、アセンブル、実行ができる。
おそらく/usr/lib/llvm-*/bin
の中を見るといろいろあるのが確認できるが、今回はllc
,lli
,llvm-as
を取り上げる。(lld
というのがリンカらしいがなかった)
llc
はLLVM IRやLLVM bitcodeのコンパイラである。また、オプションを指定すればオブジェクトコードへのアセンブルもやってくれる。(C++ソースコード生成もできるらしいが手元の環境では出来なかった)
$ llc sample.ll # sample.sを生成
$ llc sample.bc # sample.sを生成
$ llc sample.ll -filetype=obj # sample.oを生成
lli
はLLVM bitcodeのインタプリタ、JITコンパイラである。
$ lli sample.bc # JITコンパイラが使える場合は優先して使用するらしいがそれを判別する方法ある?
Hello world!
ちなみにインタプリタはソースコードを1行ずつ解釈して実行していくのに対し、JITコンパイラはソースコードを1行ずつ機械語に翻訳して実行していくらしい。(これ!っていう文献がなかった…)
実行速度はJITコンパイラの方が速い。
llvm-as
は名前からわかるかもしれないがLLVM IRからLLVM bitcodeへのアセンブラである。
$ llvm-as sample.ll # sample.bcを生成
簡単にまとめると下図のようになる。
https://kotetuco.hatenablog.com/entry/2017/12/14/235019
https://qiita.com/gamako/items/f37dbb05de9d3832ce6b
まとめ
実行ファイルを生成したいときは、何も考えずにclangに投げれば勝手に必要なツールを呼んで生成してくれる。
具体的な途中経過を見たいときは各種オプションやLLVMのツールを使うことで見れる。