情報量・ビット・バイト

（もともと「Yahoo!知恵袋」の「知恵ノート」だったものを転載しています）
（最終更新日時:2016/4/18）投稿日：2012/4/11

はじめに

　ビット、バイト、キロバイト、メガバイト等々……「記憶容量」を表す言葉として、我々は普段なんとなくビットやバイトという言葉を使っています。　ビットというのは情報量を表す単位なのですが、では「情報量」とは何でしょうか。

　本ノートでは、高校生でも分かるように、その辺りを説明してみようと思います。

情報量とは何か

　我々は、普段の生活で、販促チラシを見て「情報量が多いね」とか、レポートを見て「情報量が少ない」なんて言いますが、そう言っている時の我々は、一体、「何を見て」いるのでしょう。

　ずばり言います。　情報量とは、「起こりにくさを表した値」です。　「発生確率の、別の表現」とも言えます。

　チラシやレポートでは例が複雑なので、もっと単純なたとえ話をしましょう。

　あなたの知人さんと電話がつながっていて、知人さんにサイコロを振ってもらい、出た目を電話で教えてもらう、という状況を思い浮かべてください。

　あなたは、「次に出る目」を予想しようとしても、なかなか難しいはずですね。　普通に考えて、予想が当たる確率は６分の１。
　……ところが、どうも、妙だ……さっきも「３」だったし、今も「３」。　たまたまか？　それとも知人がイカサマをしているのか……？

　知人が振っているサイコロが、どういうものか、こちらでは分かりません。　もし、知人の振っているサイコロの６面全てに「３」が刻まれているのだとしたら……？　１回目だろうが２回目だろうが１億回目だろうが、常に「３」の目が出てくるでしょう。

　さて……電話の向こうで振ってもらって１００回目(笑)。　今まで「３」しか出ていません。　こうなると、あなたは、もはや「知人のサイコロは、全ての面が３だ」という事を疑わないでしょう。　３の目は１００パーセント。　きっと１０１回目も「３」だ。

　こういう状況の事を、「電話の向こうのサイコロ」という事象の情報量はゼロである、と言います。　いくら振っても、その事象が何回続いても、何も新しい情報が得られないからです。　「確実にこうなると分かっている事象は、情報量が無い」のです。

　宿題をしなければ怒られる、雨の中を歩けば濡れる、コーラを飲んだらゲップが出る、これらは全て、情報量がゼロです。　「当然のこと」「超つまらない出来事」とも言えます。

　では、情報量が「有る」と言える事象のうち、もっとも情報量が小さいのは、どういう事象でしょうか。　「電話の向こうのサイコロ」の例を、少し変えて説明しましょう。

　今度は、知人からの電話を聞いていると、どうも、「３」か「５」しか出ていない……またもや１００回振ってもらったが、「３」と「５」以外は聞いていない。　どうやら、知人が使っているサイコロの目は、３と５しか無いようだ……。

　さて、「次の目」は、何が出るでしょう？
　「３」か「５」か、どちらかだ、と考えられますね。　どちらかしか無く、しかし、どちらであるかは、分かりません。

　「結果が２通りしか無く、どちらも同確率」の事象……これが、「ゼロではない最小の情報量」を持つ事象です。

　「情報量」とは言ってみたものの、「量」と言うからには、数値化したいものです。　小さい、大きい、では話になりません(汗)。

　そこで数学者達は、情報量の算出式を考え出しました。　それは、「発生確率の逆数の対数」というものです。　つまり、発生確率が p ならば、log( 1÷p ) が情報量です。

　この式の意味するところは、「確率の低い事ほど大きな値になる」、です。　log( 1÷p ) は、-log( p ) と同じなので、情報量は「確率の対数の負数」とも言えます。　対数の底は何でも良いのですが、情報量の単位としてビット（bit、Binary digit）を使う場合、底は２とします。

　すなわち、情報量ビットは、「発生確率の『２を底とした対数』の負数」である、という事になります。

　「３」か「５」しか無いサイコロは、どちらも確率は５０パーセント、つまり０．５です（両方とも３面ずつの場合）。　確率０．５を、上記の式に当てはめて計算すると、－log2( 0.5 ) ＝ 1（ビット）となります。

　この情報量「１ビット」が、「３と５が同じように出るサイコロ」の情報量、すなわち「同じ確率の選択肢が２つしか無い、そのいずれか」の情報量……ゼロではない最小の情報量です。

　関数電卓では、常用対数（10 を底とした対数）しか計算出来ないものがあります。　こういう場合、高校で習う log2( x ) ＝ log10( x ) ÷ log10( 2 ) を利用して計算します。

　－log2( 0.5 ) ＝－( log10( 0.5 ) ÷ log10( 2 ) ) ＝－( －0.30102999… ÷ 0.30102999… ) ＝－( －1 ) ＝ 1

　いちおう、「３しか出ないサイコロ」の情報量も、計算してみましょう。　確率１ですから、次の計算になります。
　－log2( 1 ) ＝－( log10( 1 ) ÷ log10( 2 ) ) ＝－( 0 ÷ 0.30102999… ) ＝－( 0 ) ＝ 0

　というわけで、やはりゼロでした。　「つまらなさ」が見事に数値化された、とも言えます(笑)。

情報量の多い事象

　しつこいようですが、もう１度、「電話の向こうのサイコロ」の例を、少し変えて使います。

　今度は、知人は普通のサイコロを使っているらしく、「１」から「６」までが、まんべん無く出ています。　さて、次の目は何か……どの目も、確率は６分の１です。
　このサイコロの情報量は、「３だけのサイコロ」や、「３と５だけのサイコロ」より、多い……ということは、わざわざ計算しなくても直感的に分かりますね。

　具体的に、どれほどの情報量か、計算してみましょう。　６分の１は、だいたい、0.16666667 とか、電卓で扱うなら、そんなもんですね。　これを、さっきの式に当てはめてみます。

　－log2( 0.16666667 ) ＝－( log10( 0.16666667 ) ÷ log10( 2 ) ) ＝－( －0.77815124… ÷ 0.30102999… ) ＝－( －2.5849625… ) ＝ 2.5849625…

　約 2.5849625ビット、これが、６面ある普通のサイコロの情報量です。
　「３と５だけのサイコロ」の情報量は１ビットでしたが、それよりも多いです。　「多くの結果に成り得る事象は、より多くの情報量を持つ」のです。　我々の感覚と、なんとなく合致しているのではないでしょうか。

　原稿用紙４００字には、１マス１マス毎に、数千～数万通りの字が入り得ます。　それが４００個も並ぶのですから、それが表す「最大の情報量」は、「サイコロ１個を１回振る」の比ではありません。　広告チラシとか、新聞とか、ウェブページも、「掲載出来る情報量」はかなり大きいわけです。

　でも、いくら「掲載可能な情報量」が多くても、もし、今日の新聞が昨日と全く同じ内容だったら、つまり１００％前回と同じ内容だったら、今日の新聞の情報量は、ゼロです。　全ての字が変わらない、それは「常に３が出るサイコロ」と同様です。　昨日の新聞と、今日の新聞は、違っているからこそ、そこに「情報量が有る」のです。
　昨日と今日で１文字しか違わないのだとしたら、情報量はゼロではありませんが、かなり小さいですね。　変化の小さいものは、「全体的に同じである確率」が高いと言えるので、情報量も小さいのです。

　「掲載可能な情報量」とは、情報を入れる「器の大きさ」です。　その器に、どれだけの情報が入っているか・入れられるか、それは、新聞を作る人達の努力によって決まるわけです。
　「広い紙面で、３０ページあるけども、連日のように似た内容の新聞」と、「小さな紙面で１ページしかないが毎日違う事が載っているチラシ」とでは、「情報の器」は前者が大きいですが、実際の情報量は、後者の方がはるかに大きいわけです。　これはまさに、我々の普段の感覚と合致していますね。

　「つまらなさ」は、「実際の情報量÷情報量の器の大きさ」で決まる、とも言えそうです(笑)。

　繰り返しになりますが、情報量が多い事象は、それだけ「起こりにくい事」です。　「３と５だけのサイコロで３が出る」よりも、「普通のサイコロで３が出る」ほうが、「起こりにくい事」なので、情報量も大きくなるのです。　次の日に何が載っているか、予想しにくい新聞・チラシほど、情報量は大きいのです。
　つまり「意外な事ほど、情報量は大きい」という事であり、面白さと情報量は、相関がありそうな感じがします。

ビット―情報量の最小単位

　よく聞く言葉ですね、「ビットは情報量の最小単位」とか、１ビットは０か１である、とか、１ビットは真（true）か偽（false）かである、とか……。
　これらはいずれも正しい話なのですが、「０か１か」と「真か偽か」は、全然違うじゃないか！と憤慨していた方もいらっしゃるのではないでしょうか。

　でも、さっきの「３と５だけのサイコロ」のたとえ話や、情報量ビットの算出方法をすでに知っている我々は、それが「０と１」であっても、「真と偽」であっても、情報量としては同じだ、と理解出来ます。

　この、「どちらかしかない」情報量「１」―ゼロではない最小の情報量です―を格納する「最小の器」、それを、ビット bit と名付けて呼んでいます。

　「昨日と同じ新聞」のたとえで分かるように、同量の情報量を格納できる器は、いろいろな大きさが有り得ます。　ですから、「最小の器」を考えて、それを「情報量の最小単位」だ、としたのです。

　「３と５」であろうが「０と１」であろうが「真と偽」であろうが「生と死」であろうが、どれも情報量を計算すれば１ビットであり、これが最小の情報量だ、というわけです。

　２進数は、数字が０と１しかないので、２進数の１桁は、１ビットで表すことが出来ます。

　ここは気を付けてください。　情報量１ビットは、２進数の１桁とイコールではありません。　２進数の１桁は０か１ですが、１ビットは「３と５」を表すことも出来るのです。　かたや数字、かたや情報量です。　混同してはいけません。
　ただ、bit は binary digit（２進数の数字）から出来た言葉でもあり、２進数１桁のことを１ビットと呼ぶ慣例も定着しています。　情報量ビットと２進数ビットの使い分けを心がけましょう。

コンピュータと２進数

　コンピュータは２進数で動く、とか、０と１しか処理出来ない、なんて事を聞いた事があると思います。　でも、なぜ２進数なのでしょう。　我々が使い慣れている１０進数では、都合が悪いのでしょうか。

　足し算の回路を作ることを考えてみましょう。　１０進数の足し算のルールは、１００通りあります。
　０＋０＝０、０＋１＝１、０＋２＝２、０＋３＝３、……
　１＋０＝１、１＋１＝２、１＋２＝３、１＋３＝４、……
　……
　９＋０＝９、９＋１＝１０、９＋２＝１１、９＋３＝１２、……

　つまり１０進数の足し算回路とは、「１０通りの入力が２つと、１００通りの動作パターンを持つ回路」だ、という事になります。

　２進数の足し算だと、どうなるでしょう。　２進数の足し算のルールは、わずか４通りです。

　０＋０＝０
　０＋１＝１
　１＋０＝１
　１＋１＝１０

　これで全てです。　２進数の足し算回路とは、「２通りの入力が２つと、４通りの動作パターンを持つ回路」に過ぎません。

　機械に詳しくなくても、どっちが作りやすいかは、はっきりとお分かりいただけるでしょう。

　２進数１桁は、０か１かだけしか表せませんが、たくさん並べれば、望むだけ大きな数を扱う事が出来ます。　２進数ならば、０を１に、１を０に、桁反転させる事も簡単です。　これによって、「補数を使った引き算」も、簡単に実現できます。　足し算と引き算さえ出来れば、理屈の上では、どんな数値計算でも出来ます。
（補数については右記ノートを参照　https://khurata.hatenablog.com/entry/2019/04/04/021054 ）

　というわけで、２進数だと、回路がとても作りやすいので、コンピュータは２進数を使うのです。

　また、２進数１桁は、「０と１のうち、いずれか２分の１」の情報量を持つので、きっかり１ビットの情報量を表現するのにも使い勝手が良いのです。
　１０進数１桁は「０～９のうち、いずれか１０分の１」の情報量を持ちますから、－log2( 0.1 ) ＝ 3.3219281…（ビット）という、半端な情報量になります。

ディジタル・データ―「有限の立場」と標本化

　ディジタル digital は、「離散的」なんて、難しそうな訳語が当てられてますが、そんなに難しい話ではありません。

　この語源はディジット digit（指）です。　数を数える時、指を折って数える事がありますけれども、１、２、３……と数えていく時、次の指を途中まで曲げて「３．１４１５９」とかを表したりはしません。
　指折り数える時、３の次は４になり、その間は使いません。　つまり飛び飛びなので、これを離散的と言います。　「連続的 analog」の対語です。

　ディジタル・データとは、「有限個の数字や文字で表せるデータである」とも言えます。　しかしディジタル・データでは、ありふれたスピード・メーターの針の位置―これは連続量（アナログ・データ）です―を「正確に」書き表す事は出来ません。　目盛りの間をどれだけ細かく区切っていっても、その桁は永遠に続くからです。　連続量は「有限個の数字や文字」では表せないのです。

　スピード・メーターの他にも、円周率や、目に見える色彩、音、気圧、重さなど、連続量っぽいものは、世の中にたくさんあります。　我々の感覚する自然の中には、むしろ離散量の方が見出しにくいでしょう。
　でも我々は、時速５５キロだ、とは言っても、時速５５．５８７６０４キロだ、なんて、普段は言いません。　どこかでブッた切っちゃいますね。
　理屈として、スピード・メーターの針は「無限の桁数」を表せると知っていても、話をする時には、有限の桁数に切り捨てるわけです。

　なぜ我々は、無限の連続量を、有限の離散量に「切り捨てる」のでしょう。

　それは、文字や言葉を使って、「正しいやりとり」をしたり、「正しい答え」を出すためです。

　我々が使う言葉は、有限種類の文字を、有限個数だけ組み合わせたものです。　どんなに文字の種類が多くても、漢字は十数万種類しかなく、世界中の書物の文字数を全部足しても、無限にはなりません。　ですから、文字や言葉で連続量を書き表す事は出来ません。

　しかし、有限だからこそ、その全てを伝えきる事が出来ます。　もし、この知恵ノートの文字数が無限だったら、誰も読み終える事が出来ません。　「クラスの生徒の中で、一番背の高い生徒を１人選び出す」という課題がある時、もし生徒の人数が無限だったら、正しい答えは出せません。

　この世界が無限の連続量で出来ているのだとしても、話を伝えたり、課題を解決して何らかの答えを出すために、それを「有限に切り捨てて」離散量に当てはめる……こうした考え方を、「有限の立場」と呼びます。　そして、この切り捨て処理を、標本化（サンプリング sampling）と呼びます。

　コンピュータにスピード・メーターの針を「読ませる」時、どんなに精密に、小数点以下１００桁、１万桁まで精度良く読ませたとしても、どこかで桁を打ち切らなければなりません。
　コンピュータで色彩豊かな画像を扱う時も、それが１億色だろうが１兆色だろうが、どこかで上限を決めなければなりません。
　「有限個の文字や数字や言葉でしか表せないもの」だけを扱うことによって、我々やコンピュータは正しい動作が出来るのです。

そのデータは何ビット？―記憶容量と符号化

　我々が今見ているコンピュータ上の文字も、ディジタル・データです。　ここでは、「ディジタル・データ」という文字の並びは、どれだけの情報量か、実際に計算してみようと思います。

　計算するには、「それは何文字か」、そして「１文字あたりの情報量」が必要です。　もちろん、どちらも有限（の離散量）でなければなりません。

　「ディジタル・データ」は９文字ですが、問題はその後です。　１文字あたりの情報量を、どうにかして決めねばなりません。

　英語圏では、扱う文字は大文字・小文字で５２種類、数字が１０種類、よく使う記号などを入れても、せいぜい１００種類前後です。
　仮に、きっかり１００種類だとすると、１文字は「１００種類のうち、１００分の１のどれか」ですから、１文字あたりの情報量は－log2( 1÷100 ) ＝約 6.6438563 ビットです。

　－log2( 0.01 ) ＝－( log10( 0.01 ) ÷ log10( 2 ) ) ＝－( －2 ÷ 0.30102999… ) ＝－( －6.6438563… ) ＝ 6.6438563…

　コンピュータでは、２進数１桁、つまり１ビット分を「情報の器」として使っていますから、上記をコンピュータで扱うには、小数点以下を切り上げて、７ビットの記憶容量があればＯＫです。
　「digital data」という文字の並びは、７ビット×１２文字＝８４ビットの「器」（情報容量）があれば表現出来るわけです。

　英語圏では、「１文字は７ビットで充分」「いや９ビットは必要だろう」など、過去様々な議論がありまして、現在は、１文字あたり７ビットか８ビットで落ち着いています。
　そして、このような「１文字を表すのに都合がよいビット容量」を１つの単位として、これをバイト byte と名付けました。　英語圏の１文字は、おおむね１バイトで表せるわけです。
　ですので、実は、１バイトは８ビットだったり、７ビットだったり、９ビットだったり、まちまちです。　もっとも、それでは不便なので、便宜上、単に１バイトと言った時は、それは８ビットの事だ、という話になっています。

　１文字あたりの容量を８ビットと決めたら、次に、それぞれの文字をどんな２進数の並びに対応させるか、という話も必要です。　それを勝手にやっちゃうと、違うコンピュータの間で文字データを相互にやりとり出来なくなってしまいます。
　そこで、たとえば A は 01000001、B は 01000010、…という約束事を決めました。
　このような「どの文字をどういう２進数並びに対応させるか」という約束事を、「文字符号化、文字エンコーディング character encoding」と呼びます。

　たとえば「３と５だけのサイコロ」を「１ビットに符号化」するなら、「３」を 0、「５」を 1 と決めれば良いわけです。　しかし、もし逆の取り決めをしているコンピュータがあると、情報のやりとりが正しく出来ないので、符号化方式はなるべく統一する事が求められます。
　コンピュータで扱うディジタル・データは、文字・数字だけでなく、画像・動画、音声などがありますが、これらについても、「どういう２進数の並びにするか」という符号化方式が決められています。
　様々な符号化方式を決めてあるおかげで、「コンピュータは２進数しか使えない」にもかかわらず、様々なデータを扱えるのです。
（参考　https://blogs.yahoo.co.jp/khurata/66296823.html ）

　さて、「ディジタル・データ」という文字の並びは日本語です。　日本語には、英字・数字・漢字・仮名など、たくさんの種類の文字があります。
　日常的に使うものだけでも数千種類、たまにしか使わないものを含めれば数万種類の文字があるでしょう。　１文字８ビットでは、到底足りません。
　そこで、「シフトJIS」という符号化方式では、１文字を最大１６ビットにしよう、と決めました。　１６ビットあれば、２の１６乗＝６５５３６種類の文字が格納出来るので、充分だろう、というわけです（シフトJIS 以外の符号化方式では、１文字３バイトや４バイトになる場合もあります）。

　これでやっと「ディジタル・データ」の情報容量が計算出来ます。　９文字×１６ビット＝１４４ビット、もしくは、１６ビットを２バイトとして、９文字×２バイト＝１８バイトです。

　「ディジタル・データ」という文字並びを記憶・保持したければ、最低でも１８バイト分の記憶容量が必要なのです。
　より多くの記憶容量があれば、より多くの情報が扱えます。　「知恵ノート」は日本語で最大１万文字書き込めますから、知恵ノート１つあたりの記憶容量は２万バイト必要です。

情報の圧縮

（字数がギリギリでしたので、別ノート「情報の圧縮」 https://khurata.hatenablog.com/entry/2019/04/04/045011 へ移項しました、あわせてご覧頂ければと思います）

まとめ

情報量とは、「事象の起こりにくさ、確率」を表した値である
情報量の最小単位はビット
１ビットを格納するための器は２進数１桁で足りる
コンピュータは２進数を処理するように作られている
無限の連続量（アナログ・データ）は標本化により、有限の離散量（ディジタル・データ）に写し取れる
ディジタル・データは符号化により、２進数の並びになる
ディジタル・データの情報量や容量はビット、バイトで表せる
１バイトは、おおむね８ビット

　……いかがでしたか？　これらの説明には、本来、色々な数学が必要なのですが、難しい言葉や理論を持ち出さなくても、なんとなく分かっていただけたのではないでしょうか。
（転載以上）

khurata’s blog