<aside>
👏🏼 全文改編自 泰瑞的世界
</aside>
- 字元:經過某種 編碼方式(UTF-8、Big 5...)所對應到的文字、圖案、空格…。可能佔一格、半格、多格、零格。
- 中文輸入法:電腦無法直接輸入中文字符,需要透過 外碼 和人類溝通,再譯為 內碼,而後經過 編碼後才能生成中文字。其解決方法及其所有衍生工具稱為 **一種中文輸入法,**依其特性大致可分成【拆字】、【拼音】、【字碼】。
- 漢字/中文字:包含在字元內,收錄在 **中日韓統一表意文字(CJK)**及其 擴展字元 內。
- 字根:中文輸入法 中構成 中文字 的最小單位。和鍵盤指令(如: A 、 ctrl + ; )一對一對應。
- 輔根:字根 經過各種方法(形、音、義、搖頭擺尾、莫須有…)所對應之字符,多為 字形輸入法 所特有。
- 外碼(這裡僅討論中文輸入法):由單個或多個 字根 所組成,通常可用該 中文輸入法 之規則解釋其組成原理。可經由 中文輸入法 轉換為 **內碼。**和 中文字/中文詞組 呈 多對多關係。
- 內碼:可經過 編碼 轉換成字元的字串,通常以16進位表示,常見的有 Unicode、Big 5。比如【星】的 Unicode 為 661F 、Big 5 碼為 AC50 。
<aside>
🙌🏼 不妨現在就來玩玩看內碼輸入:請切換到 微軟注音-中文 或 微軟倉頡-中文,然後輸入
U661F 及
BAC50 , 即可輸出【星】。其它可參考 Unicode 表、Big 5 碼表,或是先看看 常用內碼補充 。
</aside>
- 編碼:將 內碼 轉換成 字元 的動作,常見的有 UTF-8、ASCII、Big 5…等。
<aside>
👉🏼 推薦閱讀:淺談電腦編碼與 Unicode
</aside>
- 拆字/取碼:藉由 字形輸入法 的規則,由字形推論其外碼的過程。
- 出字:分為 輸入 和 選字 兩步驟。前者通常是敲擊 SPACE 鍵一次,後者通常是在一個小視窗中利用 數字鍵、方向鍵、 SPACE 鍵、和 ENTER 選擇欲出之候選字。一個優秀的輸入法應盡量避免 選字 這個步驟。
- 重碼:在同一個中文輸入法中,某個 外碼 對應超過一個 中文字 時,即稱為 重碼。如果輸入後得到的不是欲出之重碼字,則必須透過 選字 來得到。
- 重碼率:有重碼情形的有效外碼/所有有效外碼 × %
- 有效外碼:根據不同研究有不同的定義,通常是指 有對應到指定範圍 之中文字,且排除 容錯碼、簡碼、簡速字根、打簡出繁、輔助選字…等外碼。
常用內碼補充