第7回 インターネットの利用方法3と日本語OCR

パデュー大学 外国語外国文学科 外国語教育メディアセンター長

畑佐一味


今月はインターネットを使ってフリーウェア等のプログラムや教材などをダウンロードする方法を紹介します。その後で、役に立ちそうなウェッブページのURLとFTPサイトのアドレスをいくつかリストして、インターネットのお話しを終了します。後半は、スキャナーを使った日本語の文字認識(日本語OCR)について紹介します。

Fetchを使ってソフトウェアをダウンロードする

先月までに紹介したフリーウェアはほとんどインターネット経由で入手することができます。これまでは入手の仕方を脚注のかたちで簡単に書いておきましたが、ここで細かく説明します。 インターネットを介してコンピュータソフトやデータを入手するときにFTP(File Transfer Protocol または File Transfer Program)という言葉がよく使われます。この言葉は「ほかのコンピュータにアクセスしてデータを送ったり受け取ったりする」ことを指し、普通は「〜をFTPする」という言い方で使われます。また、一般に公開されているプログラムを入手する時は、匿名でコンピュータにアクセスするので「anonymous FTP」とか「匿名FTP」という言い方もよく使います。ですから、あるソフトウェアのことを聞いて、そのプログラムに興味がある場合は、

  A: 〜というプログラムはどこからFTPできますか。
  B: ああ、それは ftp.u-tokyo.ac.jp からFTPできますよ。
といった会話が可能です。ftp.u-tokyo.ac.jpは入手先のコンピュータのアドレスです。 では、本連載で何度か紹介したAutoGlossをFTPしてみましょう。AutoGlossは筑波大学留学生センターのコンピュータから入手でき、アドレスはftp.intersc.tsukuba.ac.jpです。まず、Fetchというプログラムを使ってやってみます。注1このプログラムは米国のダートマス大学で開発されたシェアウェアで、大変人気があるFTPツールです。インターネット関係の雑誌の付録CD-ROMに大抵入っています。注2

まず、コンピュータをインターネットに接続し、それからFetchを走らせます。すると、FTPサイト(Host)を聞いてきます。(図1)ftp.intersc.tsukuba.ac.jpとタイプして、User IDはanonymousとタイプします。Passwordは自分のインターネットアドレスを入力するのが慣習です。一番下のDirectoryは大抵の場合/pubとします。pubはpublicの意味で、/はディレクトリを指しますが、マッキントッシュのフォルダと同じことです。つまり、「一般公開しているプログラムはpubという名前のフォルダの中に入っていますよ」という意味です。

      図1:FTPサイトへのアクセス

こうしてOKをクリックすると、Fetchは指定されたFTPサイトにアクセスして、/pubの内容をリストにして提示します。(図2)

          図2:ftp.intersc.tsukuba.ac.jpにアクセスしたところ

リストの中にAutoGlossというフォルダがあります。それをダブルクリックすると、AutoGloss.ReadmeとAutoGloss1.hqxとAutoGloss2.hqxの3つのファイルが現れます。(図3)

          図3:AutoGlossをダウンロードする

一つずつ選択してGet File...というボタンをクリックすると、プログラムが自分のパソコンにダウンロードされます。ダウンロードが終わったら、Close Connectionを実行して、FTPは無事終了です。ftp.intersc.tsukuba.ac.jpには図2からも分かるように、日本語教育に関係したコンピュータプログラムだけでなく、筑波大学で作った教科書の副教材やJLEM (Japanese Language Education and Methods)という勉強会の発表資料のファイルなども収納されていて、公開されています。インターネットの普及とともにこのような形での、教材や情報の配付や共有がこれからますます広がっていくものと考えられます。(加藤 96, 任都栗 96, 宮川ほか 96)

NetScapeを使ってソフトウェアをダウンロードする

WWWブラウザのNetScapeを使ってもFTPをすることができます。では、次にその方法を説明します。まず、NetScapeのファイルメニューからOpen locationを選んで、FTPサイトのアドレスをタイプします。この時、WWWのURLと区別するためにアドレスの前にftp://をつけます。ですから、ftp://ftp.intersc.tsukuba.ac.jpと入力します。すると、画面は図4ようになり、ここで/pubフォルダを開けると図2と同じリストが現れます。(図5)

          図4:ftp.intersc.tsukuba.ac.jp (NetScape) 1

          図5:ftp.intersc.tsukuba.ac.jp (NetScape) 2

AutoGlossのフォルダを開けて、それぞれのファイルをダブルクリックすると自動的にダウンロードが始まります。

ウェッブページの中にはプログラムのダウンロードが直接できるようになっているものがあります。これは上述した手順を自動的に行うための命令が組み込まれているからです。また、ほしいソフトウェアの名前は分かっているがそれがどこにあるか分からない場合にはAnarchieというシェアウェアをつかって探すことができます。注3

最後に、Eudora-J 1.3.8.5はftp.taiiku.tsukuba.ac.jpというFTPサイトにありますから、練習のつもりでFTPしてみてください。また、このほかにも面白そうなソフトウェアのことを聞いたらどんどんFTPして、試してください。もともと商用を目的としないことを前提で発展してきたインターネットの本来の姿が見られるはずです。

それでは、下に日本語関係の代表的なFTPサイトとWWWサーバーをいくつかリストして三回に渡ったインターネットの紹介を終わります。

日本語関係で代表的なFTPサイト

ftp.taiiku.tsukuba.ac.jp ftp.u-tokyo.ac.jp

ftp.tohoku.ac.jp monu6.cc.monash.edu.au

ftp.uwtc.washington.edu ftp.intersc.tsukuba.ac.jp

日本語関係で代表的なWWWサーバー

WWWサーバーはたいてい芋づる式に見つけられるので、URLをいくつもリストアップしてもあまり意味がありません。ですから、入り口として代表的なものを以下にいくつか揚げておきます。

NTT Home Page www.ntt.jp/

University of Washington Technical Japanese Program www.uwtc.washington.edu/Default.html

Ken Lunde's Home Page jasper.ora.com/lunde/

Jim Breen's Home Page www.rdt.monash.edu.au/~jwb/japanese.html

Purdue University Japapnese projects www.sla.purdue.edu/fll/JapanProj/

WWWで興味に応じてどんなサーバーがあるかを検索するためのインデックスのページの代表的なもの二つのURLを紹介しておきます。試してみてください。

CSJ INDEX www.iijnet.or.jp/csj/

NIKKEI www.nikkei.co.jp/ss/

 

日本語OCR

OCR(Optical Character Recognition)は光学式文字認識と呼ばれますが、スキャナーを使って新聞や雑誌などの文字をスキャンし、ワープロソフトで扱えるようにすることを指します。印刷された仮名や漢字を文字として認識する部分が絵をスキャンするのとは異なります。ですから手でタイプする手間と時間が省けることになり、新聞や雑誌の記事を読み教材として使いたい場合には重宝です。さらに、AutoGlossのようなプログラムを組み合わせて使えば、いろいろなレベルでの副教材の作成時間が大幅に短縮できるはずです。

OCRをするためにはスキャナーとOCR用のソフトウェアが必要です。スキャナーは絵をスキャンした時のものと同じものが使えます。(300 dpi か 400 dpt)OCR用のソフトは印欧語用のものは以前からたくさんあったのですが、文字数の多い日本語のものは数が多くありませんでした。それでも、最近になりマッキントッシュ用のものだけでも4、5種類市販されています。今回は、その中の一つのMacReaderという日本語OCRソフトを使って紹介しましょう。

スキャナーはスキャンするイメージが絵であるか文字であるかは分かりません。ですから、すべてグラフィックとして指定された解像度(例 300 dpi)でスキャンします。文字認識のばあいは白黒二色のラインドローイングと同じセッティングが使われます。図6は新聞記事をスキャンした結果の一部です。従ってここで見えている文字は単なる図形パターンであり、コンピュータはまだ文字として認識していません。

    図6:スキャンした新聞記事の一部

このようにしてスキャンしたイメージに文字認識ソフトを走らせると図7のような結果が得られます。記事は第二次世界大戦の時のリトアニア領事代理だった杉原氏についてで、文字認識をしたのは小見出しの部分です。図7からもわかるように結果は100%正しいというわけではありません。注4しかし、文字認識にかかった時間は30秒程度ですから手で直したとしても、全文をタイプするよりはずっと速いでしょう。さらに、MacReaderには単語としておかしいものを自動的に見つけてくれる文章解析機能がついていますから、それを利用して訂正することができます。

      図7:リードの文字認識終了時

こうして電子化されたテキストをワープロソフトに読み込めば、そこからはWWWで見つけたテキストと全く同様に処理することができるわけです。そして、文字認識ソフトは教材作りだけでなく、研究のための道具としても使えるので活用範囲の広い道具と言えます。

さて、来月は連載の最終回です。レーザーディスクとバーコードの利用方法について紹介する予定でいます。


注1 "Fetch"という言葉は「何かを取ってくる」という意味の動詞で投げたボールを犬が走って取ってくる時の行動などによく使われます。

注2 シェアウェアは無料で入手できますが、気に入って継続使用することにしたときには登録料を支払います。登録料は5ドルから25ドル程度です。Fetchに関しては教育機関で使用する場合は無料です。

注3 Anarchieも大抵雑誌の付録CD-ROMに入っています。

注4 文字認識の正確度は元になる原稿の大きさと質(きれいさ)に大きく左右されます。ここで使った例は、新聞記事をコピー機で120%で拡大コピーしてからスキャナーにかけました。新聞紙は紙の質がよくないので、一端コピーしたほうが扱いやすくなります。

<今回紹介したソフトウェア> Anarchie (FTPサイト検索ツール)Peter N. Lewis. Fetch 2.1.2(FTPツール)Jim Mathews. Dartmouth College MacReader Pro 3.0 (日本語文字認識ソフト) メディアドライブ研究所 <参考文献> 一条真人 (1995) 『レッツInternet for Macintosh』 秀和システム 加藤清方 (1996) 「マルチメディア を利用した日本語教育のあり方」『日本語学』15-2 任都栗新 (1996) 「日本語プラザ実験室 - 日本語教育情報の窓口 -」 『月刊日本語』9-3 宮川繁、Ann Lavin、水野陽子 (1996) 「JP-NET - 世界初の日本語教育ホームページ- 」『月刊日本語』9-3


This page was created by Kazumi Hatasa .