本はまず機械が読む

 オンラインで情報が流通するようになって、なにが大事かというと、まず検索エンジンに拾われることである。どんないい文章や情報を発信したとしても、GoogleやYahooでその文書が検索されなければ話にならない。人はまず、パソコンやスマホで検索語をたたいて必要な情報を得ようとするからだ。

 ホームページでは、この検索エンジンに拾ってもらいやすくするための対策、SEO対策という奴が重要になってきている。いかに自分のサイトを目立たせるかということだ。もちろんコンピュータが読むわけだから、人の目にとって派手がどうかは全く関係がない。コンピュータにとって派手でなければならない。これにはHTMLにさまざまなメタデータを仕込むなどいろいろな技法がある。もちろん人間がそれを目にすることはない。コンピュータによるコンピュータのための記述である。

 とどのつまり、今は文書はまずコンピュータが読む。全世界に張り巡らされたネットワークの中で、検索エンジンが検索された語にふさわしいページを選んでくれる。人間はその選ばれた文書をおもむろに読むわけだ。加えて言えば、ふさわしいページの選択は検索語からだけ選ばれるのではない。アマゾンを見ればわかるが、それまでの検索履歴や購入履歴にあわせて細かく検索者の性癖を理解し、最もふさわしい文書を薦めてくれる。

 要は、まず機械に気に入ってもらえなければ、読者の元には端から届かないということだ。検索エンジンで表示されなければ、買われることも読まれることもない。つまりこれからの時代、機械(コンピュータ)に読んでもらって、気に入ってもらえなければ、人間の元に届かない。もちろん、神と化したコンピュータが自分で選択するわけではないので、究極的には人間のプログラムの出来具合如何によるわけだが、一度できあがったプログラムはなんの躊躇も情緒もなく情報をさばいていく。

 この時代は組版も当然変わらざるをえない。これまで組版はあくまで、人間が読み易くするために存在してきた。人間が読み易いものが最高の組版という価値観の元、出版社も印刷会社も長年培われた組版原則や経験とカンによる美的センスを極限にまで研ぎ澄ましてきた。これからの文書はまず、機械が読む。機械が読んで、「いいもの」と判断されなければ、機械は人間にその文書を推薦したりしない。この場合、人間が読んでの組版の美しさは考慮されない。よく電子文書というとPDFのことだと思われている向きがあるが、PDFでは機械が読みにくい。まして紙しかないなんて論外である。機械が読めなければ、評価されることもなく、従って読まれることもない。

 これからの文書組版は機械に読み易いものでなければならない。人間の読みやすさは二の次、三の次である。具体的には、まずは機械に読みやすい文書、たとえばXMLで作って、メタデータを整え、キーワードをいっぱい埋め込んでおく。XMLを一度でも見た人があると思うが、あれは人間にとって読める代物ではない。だが、機械にとっては読みやすい。

 人間はXMLを人間が読みやすいように表示するソフトで読む。実は人間にとっても、これからはこの方が都合がいい。文書は読者がなにで読むかわからないからだ。同じ文書をある人はPCで読み、ある人はタブレットで読み、ある人はスマホで読むかもしれない。もしかしたら紙で読むという奇特な人がいるかもしれない。結局どんな形態で読むかは読者次第なのだ。読む人の読む機械(もちろん紙もありうる)が、それにふさわしい組版を自動的に行う。

 だから、これからは人間に読み易いように、編集者や組版現場が必死の努力をしても時間の無駄でしかない。それよりも機械に読んでもらうことに血道をあげるべきだということになる。

 たぶん、その先は機械が文書そのものを書き始めるだろうな。  

どこでもグーグル

12/20久しぶりにJ-STAGEの意見交換会に参加。以前は、学会の先生方の出席が多かったが、最近は実務者が多い。そしてメインの話し手は化学会事務局の林和宏氏。とまあ、この話はこちらへおいといて。

実は、表題の件にちょっとびっくりしたのである。J-STAGEへアクセスしてくる元サイトだ。だいたい圧倒的にPubMedだった。あとはCrossRefやJOIリンクがほとんど申し訳のようにあった。それが、今やGoogleが圧倒的なのである。それもこの一年間で、一気にのびている、PubMedが20万件程度でそれほど変わらず推移しているのにくらべ、Googleは。2006年初めにはほとんど0だったのにも関わらず、2007年11月には90万件に達している。これはGoogle Scholarの登場が大きいだろう。

Googleをはじめとした検索エンジンの肝、キーワード検索は表示順をどうするかは大問題である。同じ商品名をもつサイトでも、検索エンジンによって表示された順番が上位であればあるほどそのサイトは訪問してもらいやすいし、ひいては商品も売れる。

これが学者の論文にもちこまれる。Googleの論理で表示順が決定される。これって相当におそろしい。

カウンタープロジェクト

COUNTER プロジェクト

Counting Online Usage of NetWorked Electronic Resourcesの略である。オンラインジャーナルの利用統計を世界的に標準化しようというこころみで、イギリスを中心に多くの海外学術出版社が参加している。標準サイトはhttp://www.projectcounter.org/である。
オンラインジャーナルに載った論文がどれだけ読まれているかというのは、そのオンラインジャーナルの価格や、その掲載されている論文の学術評価に密接に結びついてくる。論文の評価については、被引用率という指標が有名だが、それ以上にその論文がどれだけ感心をもって読まれたかというのは大きな指標となる。図書館にしても、実際に読まれているまたは読まれる可能性の高い論文の多いオンラインジャーナルを購入しようとするのは当然で、その意味でオンラインジャーナルの利用統計は大きな意味をもっている。

しかし、その利用統計は標準化されてこそ意味がある。雑誌の販売部数が実売部数とかならずしも一致しないのは「よく売れている」ということ自体に宣伝効果があるからである。販売統計を偽って、または偽らないまでもうまく誤解をまねくように表現して、売り上げをよく見せかけることはよくある。オンラインの場合も、利用統計そのものを偽造するのは論外だとしても、統計の取り方次第で誤解をまねくような利用率を出すことは可能だ。同じ人が短期間に2回クリックするのを2回とそのまま数えるとか、実は見られていない失敗のアクセスを数えるとかするだけで統計は大きくかわってしまう。

こうした問題を防ぐために、利用統計を標準化しようというのが、COUNTER PROJECTである。すでに欧米のおもだった出版社はすべて加盟しているといっていい状況で、COUNTER基準にもとづかない統計レポートはあまり価値がなくなってきている。この状況を受けて、2006年から日本のJ-STAGEでもCOUNTER準拠のレポートをだすとしている。

(2006.2.18)

パーペチュアルアクセス

Perpetual access(永続的接続)である。オンラインジャーナルと紙の本を比べると当然ながら数多くの違いがあるが、こと配布ということに関して決定的に違うのは、一旦所持した情報が永続的に所有できるか否かというところである。

 紙の本や雑誌は一旦購入すれば、その本は永続的にその購入した人が所有でき、図書館も、永遠に閲覧に供することができる。これは古今東西当たり前のことであって、いまさらなにをと言うレベルの話であった。ところが、オンラインになるとそうはいかない。オンラインジャーナルを読む権利は、契約期間のみに発生する。オンラインジャーナルを発行する出版社と契約している間は、膨大なコンテンツを利用することができるが、契約をやめれば一切よめなくなってしまう。発行されたばかりのものどころか過去もみな読めなくなってしまうのである。

 これは契約停止によって読めなくなる場合だが、たとえば、出版社が倒産して、それまでのオンラインジャーナルが皆読めなくなることも考え得るし、倒産にいたらなくても、どこか別の会社に吸収合併されて、公開の方針が根本的にかわってしまうことだってありうる。オンラインジャーナルというのはそういう意味で、永続的には提供が保証されていないのであり、今までの売った以上は情報は所有者の物という慣習が通用しない。

 出版社の側でも、契約期間中に発行されたものは永遠に読めるというようなサービスを提供している場合もある(http://oup1.mcc.ac.uk/faq/for_librarians/perpetual_access.html)が、それでも倒産・合併といった事態には無力である。また、紙の本は500年前の物でも読めるし、それは1000年後でも読めるだろう。しかし、変転の速いコンピュータの世界では500年もの先、そのファイルが読めるという保証がない(古い読めなくなったファイルを未来の考古学者が解読するというSFでもかけそうではある)。

 この問題には、現在のデータを公的機関や非営利財団がアーカイブすることがひとつの解決策と考えられている。私企業につきものの、倒産・合併という危険からデータを救うことが出来るというわけだ。500年先のことを考えて私企業が行動するわけはないので、これはある意味当然のことといえる。オランダ王立図書館(www.kb.nl)のe-depot、米国アンドリューメロン財団のE-journal archiving project(http://www.diglib.org/preserve/introduction.html)などが知られている。

 しかしたとえ、公的機関による保存がなされたとしても、図書館と購読契約を結ぶことで利益をだしたい出版社に対しては、いつどの時点でこうしたアーカイブでの公開を承認するかという問題が残っている。この点ではオープンアクセス運動と似た問題を抱えていることになる。今後まだまだ議論と進展のありそうな分野ではある。

(2005.10.12)

医中誌WEBバージョンアツプ

日本のオンラインジャーナルは官主導で進展しているが、こと医学関係に関しては、民が参入している。医学関係は元々、症例照会の需要が強い上に、大学だけでなく、病院・開業医から製薬会社・医療機器会社まで市場が広く、充分に商業ベースになるからである。

中でも医学中央雑誌は文献検索のための書誌情報と抄録を収録した冊子体をすでに100年以上前から刊行してきている老舗である。同誌は編集の電子化の進展とともに、1992年CD-ROM版を発売、2000年にはWEB版の運用を開始している。この過程で急速にインターネット化が進行し、紙版はすでに刊行を中止、CD-ROM版も今年度を最後に発売をやめるという。

この医学中央雑誌刊行会は2005年7月4年ぶりのユーザー会を行い「医中誌WEB」の大幅なバージョンアップを発表した。もともと医学中央雑誌は文献検索のためのものであって、論文全文を収録した一次データベースではない。「医中誌WEB」も文献検索の機能は充実していたが、今までは論文の全文テキストへのリンクはなく、文献を「医中誌WEB」で検索しても、実際にその論文を読むには、別途、紙の文献にあたるか、書誌情報をたよりにオンラインジャーナルを探す必要があった。次回のバージョンからはオンラインジャーナルへのリンクをはじめるという。つまり「医中誌WEB」で検索されたものは元の論文がオンラインジャーナルで存在していれば、クリックひとつで原論文に到達できることになる。
 
リンク相手としては、Pubmedをはじめ、Crossrefなどの有力な海外リンクセンター、国内でも、国立情報学研究所のCiNiiや民間のアナログPDFデータベースMedical Online、サンメデイアの電子ジャーナルサイトPier Onlineなどが予定されているという。

医中誌WEBの普及(1日15万アクセス)を考えると、この影響力は大きく、日本語の雑誌のデータベース化をいっそう推進していくことになると思われる。その他に図書館の雑誌検索システムであるOPACとも連携し、オンラインにない場合でも、図書館の所蔵状況が簡単にわかるという。大変な進化である。今後の「医中誌WEB」の動向から目が離せない。


2005/07/28

日本の機関レポジトリの責任は?

Pub Med Central の方針が日本の学会に思わぬ反響を呼び起こしている。Pub Med Centralが公開一年後に全文のPub Med Central での公開を「強く推奨」したことはこのBlogでも書いてきているが、その前提となるのは、Pub Med Centralが無料で収集・公開することである。これは大手出版社に依存しない独立系の学会にとっては、Pub Med centralというオンラインジャーナルが新しくできたに等しい。つまり、大手出版社に頼まなくても、オンラインジャーナルができ、しかもアメリカの有力なサーバーに論文が載るということが可能になるわけである。

日本の学会の多くは海外出版社と契約を結べるほど力が強くなく、J-Stageのような官立のサーバーに載せている場合がほとんどだ。しかし、J-Stageの国際的知名度に対しては日本の学会からは不満が強い。ここにPub Med CentralがJ-Sstageと同じ無料サーバー提供を申し出たということは日本の学会にとっては心が動かざるをえない。もちろん、医学生物学系に限る話だが、多くの学会ではPub Med Centralへの掲載に積極的な準備をはじめている。

Pub Med Centralには、イギリスにも同様の動きがあり、アメリカの本家と強力なリンク関係になると言われる。ではなぜ、日本がそうならないのか。J-Stageの国際的認知が低いままなのはなぜなのか。やはり日本では有力な学会が、すべて巨大出版社やPub Medに向かっているのが原因ではないか。日本の研究の多くは、日本の科研費や、日本の大学の研究費でもってまかなわれているのにその成果が日本の機関レポジトリに載らない。又は載せたくないというのはなぜなのだろうか。

日本の機関レポジトリはもっと収集に向けてNIHのような強力な意志をもって積極的に動きべきだろうし、またそれを受けて国際的な発信により積極的になるべきではないか。

(2005/7/1)

純粋OLJの行方

 オンラインジャーナルとはいっても、紙の雑誌があるのがまだ主流である。紙の雑誌が主体であって、検索や過去論文のアーカイブとしてオンラインジャーナルがあるというのが、今までのオンラインジャーナルのあり方だった。ただ、この状況は、徐々にオンラインジャーナル主体にかわりつつある。新しいWEB技術を使った、バーチャルジャーナル(オンラインジャーナルに載った個別の論文をWEB上で再編成して、新編集の雑誌にみせる)や、アラート機能(関心のある論文の掲載を知らせてくれる機能)の提供は検索するオンラインジャーナルから利用するオンラインジャーナルへと利用状況は変化している。

 こうなってくると、紙の雑誌は必要なのだろうかという疑問がでてくることになる。紙の雑誌は紙という物理媒体にのっていることで、情報を伝達することが紙の輸送コストとイコールであり、情報伝達のコストがインターネットに比べてきわめて高い。しかも印刷・製本という過程を経るため情報の伝達速度も遅い。
 紙を作らず、インターネットの上で雑誌として成立させる純粋オンラインジャーナルはしかし成立が困難だ。いくら安いとはいえ、そこには査読・編集・オンラインジャーナル作成というコストがかかる。オンラインジャーナルはオープンアクセス運動(別項)をはじめ、現在、強烈な無料化の波にあらわれており、オンラインジャーナルだけではなかなか採算がとれない。本という実態に対してはお金を払うけれども、オンラインジャーナルという情報だけになったときそれに見合う料金がとれないのが実状なのである。

 そんな中、2005年より日本では2誌の純粋オンラインジャーナル化がスタートする。生物物理学会の英文誌Biophysicsと細胞生物学会のCell Structure and Functionである。前者は新創刊の英文誌であり、後者は今まであった冊子体の学術誌を衣替えしたものだ。この2つの雑誌の動向と読者の反応を現在多くの関係者が固唾を飲んで見守っており、結果が注目される。

(2005.3.25)

OLJサイトの種類

オンラインジャーナルサイトにも発表形態によっても、さまざまなものがあります。
基本的には、ハイワイヤーのように、自分のところでフルテキストのデータベースをもちそれを目次ページとともに、公開するかたちのものです。そして、オンラインジャーナルにはそのもとになる紙の雑誌が存在しています。もっとも基本的なかたちのもので、普通オンラインジャーナルというこれを指します。

それに対して、自分のところでは、フルテキストのデータベースをもたず、検索の機能だけをもっているものも多くあります。これは検索機能だけを提供し、検索した後は、元になる論文にリンクします。もっとも著名なのが、PubMedです。これら検索サイトは無条件にリンクするのではなく、一定の基準をもったものだけにリンクすることで、それぞれに権威を持つようになってきています。

また最近、おもしろい動きがでてきています。インターネットジャーナルとバーチャルジャーナルです。前者は、オンラインジャーナルと形態的には同じですが、元になる紙の本がありません。純粋に、インターネット上だけで成立するものです。ただし、プレプリントサーバー(ロスアラモスのものが有名。投稿すればそのまま載ると違って、査読を行うことで、一定の水準を保とうとしています。著名なものにBioMed Centralがあります。バーチャルジャーナルは複数のオンラインジャーナルからあるテーマの論文を集め、あたかもひとつの雑誌のように見せるものです。オンラインジャーナルでは多大な実績のある米国物理学会が提供しています。

OLJの形態

ひとくちに全文のインターネット掲載といっても、いろいろな形態がありえます。最近の進んだオンラインジャーナルではPDFとHTMLを併用する例が多いようです。

<画像公開>
もっとも古くから実行されていたものに、本1冊まるごとを1ページづつスキャナで読み取り、全ページを画像の形で保存するという方法があります。この方法は本ができてさえいれば、すぐに実行できますが、単語検索ができなかったり、画像のため伝送に時間がかかったりして、他の方法が普及した今ではあまり意味がなくなっています。

<PDF>
その次に、印刷のための出力データを電子的に保存するPDF(Portable Document Format)という技法があります。これは誌面をスキャナで読み取るのではなく、印刷の仕上がり状態そのままを電子的に変換してファイルに保存公開するものです。読者は、特別なソフト(Acrobat reader)を使ってそれを読むことになります。誌面そのままを電子データにできますので、特別な手間がかからず、実行もしやすく、オンラインジャーナルというとまずこの段階からスタートされる例が多いようです。ただ、この技法も紙の本の誌面体裁そのままが画面に表示されますので、画面上では読みやすくありませんし、検索などもそれほど自由にはできません。

<HTML>
一番、オンラインジャーナルとして有効なのは、インターネット専用言語であるHTMLで書かれ、誌面も画面用に特化したHTML技法です。紙の誌面とはまったく独立して、画面で読みやすいように誌面を構成できますし、検索やリンクも自由で、特に引用文献リンクは便利なことこの上なく、オンラインジャーナルの究極形態はこのかたちになると思われます。反面、作成に非常な手間がかかり、費用もかさみます。紙の誌面とHTML版をいかに効率よく、ひとつのソースから作り出すかという技量が問われます。現在では、HTMLの上位互換言語であるSGMLを使って、紙版、電子版を同時に効率よく組版する汎用組版などがこころみられています。

オンラインジャーナルとは

インターネット上で、学会誌等の目次やアブストラクトを掲載することが最近よくおこなわれるようになりました。オンラインジャーナルはこれを一歩も二歩も進め、雑誌の内容すべてをインターネット上で公開し、扱いやすい検索機能などを付加する物です。紙の雑誌がなくなるわけではありませんが、紙の雑誌よりも投稿から掲載までが速い上に、ハイパーリンクで自由に引用文献検索ができるため、急速に普及しています。特に、英語圏での取り組みが早く、現在では欧米の有力な学会誌がほとんど電子的に公開されるようになっています。

今後、インターネットのハイパーリンクの網の中に論文が掲載されていない、つまりはオンラインジャーナル化されていないと、その論文は発表されたこと自体がどこからも知られず、実質的に発表されていないのと同じということになる可能性があります。最も進んだオンラインジャーナルはハイワイヤー(http://highwire.stanford.edu/)で見ることができます。

また、オンラインジャーナルとは直接関係ありませんが、電子化をすすめるにあたって、査読をインターネットを通じて行う電子査読、編集をインターネットを通じておこなう電子編集なども、具体的な段階にいたっています。