文字コード

 コンピュータで使われているすべての文字(仮名、漢字、英数字)には一つ一つ番号がつけられていて、コンピュータはその番号を手がかりにしてどの文字を表示するかを決めています。ですから、コンピュータ間で正確に文字がやりとりされることを保証するためには、番号のシステムが統一されている必要があります。このような番号のシステムを文字コードと呼びます。理想的には文字コードが一つだけ存在すれば一番よかったのですが、コンピュータ技術が発達する過程で、JISコード、シフトJISコード、EUCコードと呼ばれる三つの文字コードが共存する結果となりました。
 WWWページを閲覧する時に日本語の文字が化けてしまっているのは、文字コードが正しく選択されていないことが多いです。また、日本語の電子メールはJISコードで送るのが慣習になっているので、そのように設定されていないと受信側で文字化けする可能性があります。また、日本語に対応していない電子メールソフトを使うと送信する時にメッセージがJISコードに変換されず、途中でコードが壊れてしまって正しく受信されないという問題が起こることもあります。
 会社や雑誌の名前にもなっているアスキー(ASCII)という言葉は英語用の文字コードの名前で、American Standard Code for Information Interchangeの頭文字です。
 最後に、現在Unicode(ユニコード)という文字コードが使われ始めています。これは世界中の言語を一つの文字コードで表すことを目的として開発されました。近い将来には文字コードのことを心配しなくていい時代が来るでしょう。

1バイト文字と2バイト文字
 コンピュータ内で扱われている文字にはすべて番号がつけられています。コンピュータは何でも二進数によって処理しますが、二進数の一桁を1ビット(1 bit)、それが8桁集まった単位を1バイト(1 byte)と呼びます。ですから、1バイトは28(=256)で十進数の0から256までの数字を表すことができます。これを文字の番号につかうと1バイトで256の異なった番号を扱えることになります。世界中のほとんどの言語の文字種は256字以内ですから、1バイトで十分なのですが、漢字を使う中国語や日本語の場合これでは足りません。そこで、もう1バイト増やして2バイトで文字の番号を表しています