第4章 テキストファイルとデータの互換性

テキスト:第四章

テキストファイルとデータの互換性に関して勉強します。ここではワードとエクセルの間でのデータのやりとりが自由に出来るようになってください。そうなることで「ソフトを使っている」という実感がつかめると思います。うまくいかない練習は何度も挑戦して、確実に理解してください。

注意:この章ではスペースやタブキーなどがワードの画面上で表示されるようになっていないと、練習ができません。やり方を復習しておいてください。

ムービーヘルプ

1. ワードでファイルをテキスト形式で保存する。 WMV形式 MOV形式

2. エクセルでファイルをテキスト形式で保存する。 WMV形式 MOV形式

 

ダウンロード: Ch4Example1.xls, Ch4Example2.xls, Ch4Example3.doc, Ch4Example3Answer.doc, Ch4Example4.txt, Ch4Example4Answer.txt, Ch4Example5.txt, Ch4Practice1.csv, Ch4Practice2.prn
(訂正:拡張子.spcは現在は他のものに使われています。現在は.prnという拡張子がスペース区切りのテキストファイルを示すために使われています。) 

追加説明

1. ファイル形式の変更と区切り文字(delimiter)について

エクセルでファイルを保存すると、通常はエクセルワークブックという形式で保存されます。しかし、その時に「名前を付けて保存...](Save As...)を使うとエクセルワークブック以外にいろいろ違った形式で保存することができます。(これは他のアプリケーションとの間のファイルの互換性を保つために用意されている機能です。)これらの形式の中で特に約に立つのがテキスト(タブ区切り)、CSV(カンマ区切り)、テキスト(スペース区切り)の三つです。(Windowsでの拡張子はそれぞれ「.txt」「.csv」「.prn」です。)この三つのファイル形式はどれも、色々なアプリケーションで開くことができる、いわゆるテキストファイルで、区切り文字(delimiter)が違っているだけです。区切り文字とはひとつひとつのデータを区別するための文字で、タブキー、コンマ、 スペースなどが使われます。図1のようなエクセルのワークシートを三つの形式で保存すると図2のファイルの中身の部分のようになります。

図1:エクセルワークシート

 
A
B
C
1
85 
236 
5 
2
4
6
457

図2:ファイル形式を変更して保存する

ファイル形式
拡張子
区切り文字
ファイルの中身
 テキスト(タブ区切り)
.txt
タブキー

85→236→5
4→6→457

矢印はタブキーを表す。

 CSV(カンマ区切り)
.csv
カンマ

85,236,5
4,6,457


 テキスト(スペース区切り)
.prn
スペース

85・236・・・4
・4・・・6・457

黒点はスペース一つを表す 。

2. テキストファイルとしての保存で「文字化け」や日本語が「????」になってしまうときがあるのはなぜですか?

(以下の説明は英語版のWindowsと英語版のオフィスを基にしています。)

この現象にはWindowsのコントロールパネルの「Regional & Language Options」の設定が影響するので、まずそれを確認しましょう。説明1は「Regional & Language Options」の中の「Advanced」の設定が「English」になっている場合です。基本ソフトは英語版Windows XPでアプリケーションは英語版のOfficeです。説明2では「Advanced」の設定が「Japanese」になっている場合です。この場合は、文字化けはあまり出ません。日本国内で日本語版ウィンドウズを使っている場合は始めから「日本語」に設定されていますから、特に意識をしないで使っているはずです。

「Regional & Language Options」の中の「Advanced」の設定は通常は色々なプログラムのメニューが正しく表示されるためのものなのですが、他の部分にも影響がでます。日本語版のWindowsを使っている人はここの設定は通常「日本語」になっているはずです。英語版のWindowsをつかっている人は英語になっているはずです。(英語になっていても、日本語入力はできますし、ルビなどの機能も使えます。)ただし、メニューが日本語で表されているアプリケーションのメニューが正しく表示されません。

説明1:「Regional & Language Options」の中の「Advanced」の設定が「English」になっている場合

エクセルで、「Save As...」を選んだときの「Save as type」の中に拡張子が.txtになるものが二つあります。

Text(Tab delimited)(*.txt)
Unicode Text (*.txt)

日本語が含まれているワークシートをText(Tab delimited)(*.txt)で保存すると日本語の部分が壊れてしまい、後でそのファイルを開けると日本語の文字は?になってしまいます。しかし、Unicode Text (*.txt)で保存すると日本語は正しく保存されます。Unicode Textで保存した時の区切り文字はタブになりますから、Textで保存したのと同じ結果が得られます。一度「?」になってしまった日本語は修復不可能です。ですから、文字化けというより、むしろ、コードが壊れていると言った方が正しいです。

ワードでは「Save As...」を選んだときの「Save as type」の中に拡張子が.txtになるもの一つしかありません。

Plain Text (*.txt)

これを選ぶとワードの場合は次のウィンドウでFile Conversionの形式を設定するようになっています。Windows (Default), MS-DOS, Other encodingなどがあります。

ここでWindows (Default)を選ぶと日本語は壊れます。(この設定は英語を含めた西ヨーロッパ語用の設定です。Internet ExplorerのencodingのWestern European(Windows)もこれと同じです。)そして、これはエクセルの場合のTextを選んで保存した時と同じです。日本語は?に変わってしまい、修復不可能です。MS-DOSは選ぶことはないと考えられるので、飛ばします。

三つ目のOther encodingが我々にとっては大切になります。ここで日本語が正しく保存される設定はJapaneseで始まるものすべてとUnicode(UTF-7)とUnicode(UTF-8)です。Japaneseの中にはEUC, JIS, Shift JISなどがありますが、一番無難なのはShift JISです。UnicodeはUTF-8を選んで下さい。

このようにして保存されたファイルを他のアプリケーションで開ける場合ですが、ワードの場合はFile conversionのウィンドウが現れるので、そこで上記とおなじことをすれば、日本語が正しく表示されます。エクセルでは、Text Import Wizardが現れて、色々設定を聞かれるので、その指示に従えば日本語が正しく表示されます。その他のアプリケーションでこのようなウィンドウがでないものは、いきなり文字化けした日本語が表示されることになりますが、その場合は、元にもどって違うコードで保存し直す必要があります。

説明2:Windowsの「Regional and Language Option」の「Advanced」の設定が「Japanese」になっている場合(日本語版ウィンドウズも同様)

この設定では、エクセルでText(Tab Demilited)で保存した場合にエンコードはShift JISになります。ですから、日本語は壊れないので、「?」も現れません。

また、エクセルのText Import Wizardで現れるWindowsの既定値 (default)もShift JISになっていますから、other encodingを選ぶ必要もありません

2. 「形式を選択してペースト」(Paste Special...)について

エクセルやワードでのコピー&ペーストの機能は仕事を 効率的に進めるためにとても便利です。これまでは多分 ごく普通にコピーとペーストを使っていたと思います。 今週の課題ではテキストファイルやデータを複数のソフト間で やりとりする必要が出てきます。ですから、コピー&ペーストも ソフトの枠を超えて行います。このような状況では、ペーストの仕方に いくつかオプションがあることを学習してください。ペーストのメニューの すぐしたに「形式を選択してペースト」という項目があります。 例えば、エクセルでセル範囲を選択して、コピーを選び、 ワードに行って、ペーストしてみましょう。 この場合、結果はワードが自動的に表を作ることになります。次に、「形式を選択してペースト」(Paste Special...)を選んで その中の特定の形式を使ってペーストするとどうのように結果が違いますか? このあたりを試してみてください。

ムービーヘルプ

1. エクセルのワークシートの一部をワードにコピーする。 WMV形式 MOV形式

2. ワードからエクセルにデータをコピーする。 WMV形式 MOV形式

3. 「ファイルのアイコンをダブルクリックする」ということは?(拡張子って何ですか?)

(注:下の説明では基本ソフトを指すときはWindowsと表記します。そして、ウィンドウと表記したときは画面上で開いているウィンドウのことを指します。)

(準備:次のことをまず行ってから、以下の説明を読んで、試して下さい。ウィンドウを一つ開いて、その中のツールメニューの中のフォルダーオプションを選びます。次に「表示」タブをクリックすると、チェックできる項目がリストされます。その中から、「登録されている拡張子は表示しない」がチェックされていない状態にしてください。こうすると、すべてのファイルの名前の後に拡張子が表示されるようになります。)

「ファイルのアイコンをダブルクリックする」という操作は普段あたりまえのように行っていて、結果としてそのファイルが画面上に現れることを期待しています。しかし、ファイルが正しく開かなかった時は、ファイルが壊れているると思ってしまっている人が多いようです。実は、ほとんどの場合ファイルが壊れているわけではありません。以下に少し長いですが、丁寧に説明しますから、この基本的な操作をしたとき何が起こっているかを理解して下さい。

「example1.docのようなファイルのアイコンをダブルクリックする」というのは次の二つのことが自動的に行われることを意味します。
1 何らかのソフトがまず起動されます。(この場合はワードです。)
2 そのソフトの中で、ファイルが開かれます。
この結果、画面にはワードのメニューが現れ、example1.docという文書が開かれた状態になります。今の状態を「ワードの中にいる」と考えてください。
これに対して、マイドキュメント、マイコンピュータ、デスクトップなどの中身を見ているときは「ワードの外にいる」または「Windowsに戻っている」と考えましょう。

このプロセスをコンピュータの電源を入れるところから考えてみましょう。コンピュータに電源を入れるとまずはじめに基本ソフト(Windows)が起動します。それが終わったところで、コンピュータはユーザからの入力を待つ状態になります。ですから、ユーザは常にWindowsの中にいると考えてください。そこから、色々なソフトの中に入って仕事をして、終了したときはソフトの外にでて、Windowsに戻ってくることになります。

この出入りの感覚が重要です。あるソフトの中にいる時に、ウィンドウを小さくして画面の下のほうにたたんで置く(最小化)ことがありますね。この状態はそのソフトを後で使いたいので終了はしたくない、でも、ちょっとだけWindowsに戻っているという状態です。

では、Windowsはexample.docのアイコンがダブルクリックされたときにどうしてワードが起動できるのでしょうか?その理由は.docというファイルの名前の最後の部分があるからなのです。拡張子と呼ばれるこの3文字を頼りにWindowsは「.docはワードを呼ぶための拡張子だから、まずワードを起動させなくては」という判断を下します。ですから、拡張子が変わるとWindowsには手がかりがなくなってしまいます。

試しに、.docがついているファイルのアイコンを右クリックしてファイルの名前を変えるを選んで、.docを.txtに変えてみてください。変えるときに警告がでますが心配しないでやってください。すると、まずアイコンが変わってしまうはずです。そして、アイコンをダブルクリックするとワードは起動されません。その代わりに、多分ノートパッドが起動されているはずです。最後に、ファイルの拡張子をもとの.docに戻してください。アイコンもワードファイルのアイコンに戻るはずです。

Windows上に現れる色々なアイコンも拡張子を手がかりに選ばれているんです。

さて、ワードのファイルを「書式なし」(あるいは「テキストのみ」)で保存すると拡張子は.txtになります。ですから、そのファイルをダブルクリックしてもワードは起動されません。かわりに、ノートパッドが起動され、その中でファイルが開けられます。自分ではワードの中にいると錯覚しているかもしれませんが、メニューをみればワードのメニューとは違っているはずです。

では、.txtの拡張子を持ったファイルをワードで開けることはできないのでしょうか?もちろん、できます。でも、そのためには、まずワードを起動する必要があります。Windowsのスタートメニューのプログラムからワードを選択して、起動します。たぶん、名称未設定の新しいファイルが開くでしょうから、それを閉じます。この時点では、まだワードの中にいます。そして、ファイルメニューから「開く」をえらんで、目的のファイル(XXXX.txt)を選択します。これで、.txtファイルをワードの中で開くことができます。

このように、これからは色々なファイルを違ったソフトで開かなければならないことが多くなります。その時に、ファイルのアイコンをダブルクリックする方法しか知らないと、そこから先へ進めなくなります。

これまでの説明にMacintoshの場合を追加しておきます。

基本的な考え方はMacも同じです。ただ、MacとWindowsではアイコン表示に必要な情報の保存の仕方が違います。Windowsはファイルの名前の一部である拡張子によってそのファイルがどのソフトによって作られたかを示しています。

MacOSは拡張子をつかいませんから、ファイルの名前からは判断できません。Macのファイルはファイル自体の中にその情報が含まれています。つまり、遺伝子のようなものを持っているというわけです。その情報を基にして、アイコンを決めています。

ワードのようにWindows版とMac版がある場合、ワードの文書は互換性があります。ですから、Macのワードで保存した文書をWindowsのワードで開くことができます。(もちろん、その逆もできます。)この場合、書式の情報も失われることはありません。ただし、Macのファイルの名前の最後に.docがつけられていないと、Windowsはワードの文書だと認識しません。従って、ワードのアイコンも出ません。

逆にWindowsのワードで保存されたファイルには、上記の遺伝子はありませんから、Macはワードのファイルだと認知できません。したがって、アイコンもワードのアイコンにはなりません。でも、ワードの起動してからそれぞれのファイルを開けば、全く問題はありません。