遡航

資料 機関紙の文字起こしをarsvi.comへ掲載する作業の記録
-- 2022年の『全障連』掲載について
山口 和紀
20220915 『遡航』003号 pp.91-94
キーワード:全国障害者運動連絡会議、arsvi.com、CMS、文字起こし、アーカイブス
要旨
筆者は立命館大学生存学研究所のアルバイトとして、全国障害者運動連絡会議の機関紙『全障連』の文字起こしを生存学研究所HP(arsvi.com)に掲載をした。本資料はその作業の内容と課題について述べたものである。
arsvi.comへ掲載したのは『全障連』No.01からNo.86である。これらは別個のページとして掲載された。それらを一覧する目次ページも作成した。
課題として考えられるのは、掲載の方法である。今回はHTML形式のページに各号ごとにページを分けて掲載したが、この方法のデメリットとして検索昨日の弱さを挙げることができる。
arsvi.comは内部の検索機能をGoogle検索の「サイト内検索」機能に依存しており、正確性と網羅性に欠けると考えられる。その解決策として、ワードプレス等のCMS入稿とし、CMSの検索機能を活用することが考えられる。

1. 作業の記録

 arsvi.comへの掲載作業について、その詳細を書く。HPへ掲載されたのはNo.01から、No.86までである。ただし合併号が合併号の数で数えて6号分あり、No.13というナンバリングで2号発刊されている。No.1は1977年3月30日発行、No.86は1989年6月16日発行である。文字起こしされた延べ文字数は、5,824,338字であった。
 次のような流れで作業した。生存学研究所の仕事が依頼されるメーリングリストに対して、『全障連』のテキストファイルからHTML化の依頼が流れた。筆者は障害者運動組織 全国青い芝の会の機関誌をarsvi.comに掲載した経験があった★01ため、この依頼に適任と思い、作業担当者となった。行った作業はテキストファイルをHTML化することが主であるが、目次ファイル(各ファイルへのリンクページ)の作成も行った。文字起こししたテキストファイルは1号につき1ファイルとして保存されていた。そのため、1ファイルごとにHTML化した。つまり1号ごとにHTMLファイルを作成した。arsvi.comのファイルはテンプレートファイルが用意されているため、それを用いた。まずテキストファイルからプレーンテキストをコピーし、プレーンテキストをHTML化するツール★02で変換した。そののち、テンプレートファイルへ変換されたHTML形式のテキストをペーストした。その他、ファイル番号やアップロード日時、作業日時などを記載した。この作業をすべてのHTMLファイルについて行った。
 作業時間としてはおよそ5時間程度となった。作業に時間がかかったのは、ひとつひとつのファイルの作成は単純であるものの量が多い(80ファイルを超えている)ことだった。またツールで変換したHTMLファイルもそのまま使えるものではなく、手作業で改行の修正や見出しのタグ付けなども行った。その後、目次ファイルを作成した★03。目次ファイルへは、1号ごとにHTMLファイルへのリンクを行った。この作業にも1時間ほど要した。関連するメールでのやりとりや、目次の修正、ファイルのチェックなども含めて作業には全体では10時間弱がかかっていることになる。ファイル名は「zsrNNN.htm」とした。NNNには001、002と連続する番号が入る。掲載ディレクトリは../oとした。これは組織についてのファイルを置いているのディレクトリである。

2. 今後の課題

 筆者の観点から、今後の課題を示す。法的な問題や制度的問題はここでは述べず、あくまでもHPへの掲載と利用における具体的な課題について述べる。本掲載方式の大きな問題はテキストの全文検索機能がないことである。例えば、『全障連』を一次資料として研究しようとする者が、特定のワードの出現回数を調べたいと考えたとする。現在の掲載方式ではこれを調べる方法は1ファイルごとにアクセスして検索することしかない。Google検索でそれと似たことはできるがファイルのインデックスが不正確である可能性があることと、複数ファイルに存在していた場合には検索に出ない可能性もあり、研究で正確性が求められる場面においては適さないだろう。
 テキストファイルをそのままアップロードし、ダウンロードできるようにすれば、各々のパソコンの中で検索することができる。ソフトによってはテキストの全文検索も容易である。したがって、テキストファイルをそのままアップロードすることも検討したが、現時点では行っていない。テキストファイルをアップロードせずにテキストの全文検索を行う機能を作ることも可能だが、作業には費用がかかるため行っていない。
 したがって、たしかに掲載されてはいるものの、実際の研究利用という側面からは「検索しにくい」という課題があるだろうと考えられる。可能であれば『青い芝』等のすでに掲載されている文字起こしファイルとの縦断的な検索も可能になることが望ましいが、『全障連』の中だけでもテキストを全文検索できるように整備することは意義がある。
 解決策としてはワードプレス等のCMS(Contents Management System)での入稿にするという方法がある。CMSはウェブ上のコンテンツ管理を容易にするために作成されたソフトのことである。その中でも広く使用されているのはワードプレス(WordPress)というソフトウェアである。レンタルサーバであれば、標準機能として備わっており、容易にインストールもデータベースのセッティングも可能である。
 CMSを使った掲載方法であれば入稿や修正が容易になり、なおかつ、検索機能も標準でついている場合が多いため利点がある。この検索機能とは、ワードプレスの例であれば、コンテンツのデータが格納されているデータベースから特定の条件にマッチしたページのみを一覧にすることができる。例えば、『全障連』のタグが付いたページ、かつ、○○という単語が入っているページを表示するというようなことが容易にできる。また結果も正確である。ゆえに、ある種のデータベースとその検索機能としての利用ができる可能性がある。これについては今後、実際に利用しながら検討していきたい。

■註

★01 廣野俊輔氏が作成した全国青い芝の会機関誌『青い芝』のNo.1(1957年12月)-No.63(1967年12月)までのスキャンしたデータ(PDFファイル)を1号ごとに分割しアップロードした。作業は2021年7月に行った。
★02用いたのは「テキスト⇔HTML変換」(http://sei-street.sakura.ne.jp/page/doujin/site/doc/tool_text2html/index.html)である。プレーンテキストを入れると、HTMLに変換される。
★03 目次ファイルのURL:http://www.arsvi.com/o/zsr-index.htm