\ 跳到主要內容

A brief introduction to Object file

這篇可以看到在vim中開啟main.o,而上圖充斥著1&0,看似截然不同的兩個東西。
  • main.o in vim
^?ELF^B^A^A^@^@^@^@^@^@^@^@^@^A^@>^@^A^@^@
^@^@^@^@^@^@^@^@^@^@X^B^@^@^@^@^@^@^@^@^@^
@@^@^@^@^@^@@^@^L^@^K^@ó^O^^úUH<89>å¸^@^@^
@^@]Ã^@GCC: (Ubuntu 9.4.0-1ubuntu1~20.04.1)
9.4.0^@^@^@^@^@^@^D^@^......

理解兩者差異的原因,可以從兩個面向去釐清:
1. 所有的檔案都是由0&1組成的
電腦中的檔案皆是藉由0&1組成的,包括source file, object file(.o), binary file等等,但vim會將所有的binary藉由ASCII轉換成為我們所看到的plain text,這裡以一main.cpp作為例子:
  • main.cpp in vim
#define N 81
int main(){
        return 0;//this is the end
}
  • main.cpp, configured with :%! xxd -b

00000000: 00100011 01100100 01100101 01100110 01101001 01101110  #defin
00000006: 01100101 00100000 01001110 00100000 00111000 00110001  e N 81
0000000c: 00001010 01101001 01101110 01110100 00100000 01101101  .int m
00000012: 01100001 01101001 01101110 00101000 00101001 01111011  ain(){
00000018: 00001010 00001001 01110010 01100101 01110100 01110101  ..retu
0000001e: 01110010 01101110 00100000 00110000 00111011 00101111  rn 0;/
00000024: 00101111 01110100 01101000 01101001 01110011 00100000  /this 
0000002a: 01101001 01110011 00100000 01110100 01101000 01100101  is the
00000030: 00100000 01100101 01101110 01100100 00001010 01111101   end.}
00000036: 00001010 
而透過:%! xxd -b configure vim,則可以查看binary格式的原始資料,可以看到左側的binary與右側的plain text以ASCII CODE一對一的相對應(e.g, 00100011->#, 01100100->d)。
main.o 在透過vim開啟時,透過ASCII CODE decode並且呈現在vim中。而"^@"是在vim中則是對應到了"00000000","^@"是vim用以表示null character的格式。

2. ELF 的 binary decoding
不同的檔案有不同的layout,不是所有的檔案都能經過ASCII CODE decode成plain text,如main.o ,可以看到vim中的main.o 無法被閱讀;順帶一提,也並非所有檔案形式都能被decode成plain text,e.g. binary file。

.o 檔的檔案形式為ELF,這種檔案可以藉由objdump -dh main.o來decode成plain text:
  • main.o configured with objdump -dh main.o
main.o:     file format elf64-x86-64

Sections:
Idx Name          Size      VMA               LMA               File off  Algn
  0 .text         0000000f  0000000000000000  0000000000000000  00000040  2**0
                  CONTENTS, ALLOC, LOAD, READONLY, CODE
  1 .data         00000000  0000000000000000  0000000000000000  0000004f  2**0
......

Disassembly of section .text:

0000000000000000 
: 0: f3 0f 1e fa endbr64 4: 55 push %rbp 5: 48 89 e5 mov %rsp,%rbp 8: b8 00 00 00 00 mov $0x0,%eax d: 5d pop %rbp e: c3 retq

ELF包含了很多資訊 ,而程式的邏輯放在 .text 裡面,如果回過頭去看main.s,會發現兩者的內容大同小異。

ELF是公定好,能夠被電腦所執行的資料格式。而因為電腦執行皆的資訊皆是0&1,所以上圖才藉由0&1去表達ELF檔,並非表面上純文字即0&1。此外,實際上被執行的machine code還包括排列記憶體等其餘的工作,assembly code所轉換的machine code並不是實際上被執行的machine code的全貌。


留言

這個網誌中的熱門文章

Command Line 與 Makefile

在認識到Linux以前,我鮮少接觸到CLI(Command Line Interface),也花了些許時間去熟悉。一開始看它也許會感到有些震懾,但並沒有想像中的複雜,單純是將我們習慣使用的GUI(Graphical User Interface)改成CLI,滑鼠改成鍵盤,簡單做了轉換。 sudo apt-get install qt6-default //以superuser身份安裝qt6-default mkdir build/install -p //新增資料夾 cd build/install //切換目錄到build/install rm –rf build //remove文件, recursively. makefile make 以及 makefile讓我們得以自動化我們想執行的command line。比如說modmesh裡面中clean這個target,若是藉由一行一行的command line我們會需要輸入以下的指令, rm -f $(MODMESH_ROOT)/modmesh/_modmesh$(pyextsuffix) make -C $(BUILD_PATH) clean 但如果已經在Makefile中寫好了clean這個target,將一行行的command line寫成了shell script。 .PHONY: clean clean: rm -f $(MODMESH_ROOT)/modmesh/_modmesh$(pyextsuffix) make -C $(BUILD_PATH) clean 我們就可以去藉由make,直接輸入 make clean 去執行我們想要去執行的內容,不用逐步命令。 make clean

Compile behind-the-scene

習慣使用了具備強大功能的整合工具-- IDE(e.g Visual Studio),執行source code(e.g .cpp)僅需點下  建置(Build)   然後  ▷  ,有時是只點下   ▷  ,就完成了許多希望程式去做的事,很方便,但也因此缺乏對於幕後工程的認識。離開了IDE,使用terminal則可以透過下面的指令完成同樣的事情: $ g++ main.cpp -o main.out #編譯 $ ./main.out #執行 helloworld 編譯透過以上一行簡單的指令,將我們寫的source code編譯成執行檔(在Linux上是.out,在Windows上則是.exe),然後可以直接被電腦執行。簡單的一句指令,過程則可以分為四個步驟,分別是1. 前編譯Preprocessing, 2. 編譯compilation, 3. 組譯assembly 以及 4. 連結linking。 以下用一支比helloworld更簡單的程式來呈現: main.cpp #define N 81 int main(){ return 0;//this is the end } 1. Preprocessing: .cpp -> .ii,處理#,刪除註解(//, /**/),加以編號。 $ g++ -E main.cpp -o main.ii main.ii: # 1 "main.cpp" # 1 "<built-in>" # 1 "<command-line>" # 1 "/usr/include/stdc-predef.h" 1 3 4 # 1 "<command-line>" 2 # 1 "main.cpp" int main(){ return 0; } 2. Compilation: .ii -> .s,將 .ii檔進行分析以及最佳化,將高階語言翻譯成assembly code。屬於程式建構過程最複雜的環節。 main.s $ g++ -S main.ii -o main.s .file "main.cpp" ...

Python importation

In a well-organized C++ code base, the hpp files should always be included using the full path like: #include <modmesh/base.hpp> #include <modmesh/profile.hpp> #include <modmesh/buffer/buffer.hpp> Python import 的module 並不必然要用python撰寫,也可以藉由C++。然而我誤解了這番話的意思,進而混用了 header files 與 modules,以為以下的實驗會成功: import importation #succeed import layer1.importation #succeed import header #failed 以下是python importation 整理過後的資訊: 1. import modmesh 以 modmesh 作為例子 , import modmesh 我原先同樣是誤會 modmesh.hpp 才是被 python import的對象;但這個對象其實是library(or python package):$(MODMESH_ROOT)/modmesh。如果它已經被 built, 那麼目錄裡頭就會有 __init__.py 以及 .so 。 2. python importation python importation 的機制在於編輯 sys.path. e,g  del sys.path[0] sys.path儲存的是尋找python module的路徑。在這個動作之後,原先若是被import的對象被列在sys.path[0]所儲存的路徑之下,那麼import就會失敗。 3. Module written in C++ 如前所述,Python import 的module 並不必然要用python撰寫,e.g. C++, 它們是透過 import shared library(.so)來被python支援。 C++ and python 的連結可透過 swig, cython, pybind11 等等。在modmesh 中則是使用 py...