2021.04.30 学術関連

オープンデータとは

オーブンデータ概念図

学術雑誌領域で最近オープンデータが使われるようになってきています。特に昨年J-STAGEからオープンデータシステムであるJ-STAGE DATAが利用できるようになり、にわかに注目を集めています。

オープンデータはオープンアクセスと密接に関係しています。オープンアクセスは学術論文を広く無料で公開するもので、オンラインジャーナル時代になって印刷に費用がかからなくなったことから、急速に普及しています。特に高騰する出版社販売雑誌に辟易とした図書館関係者からは強力に推進する声が涌き起こっています。

オープンデータは論文のオープンアクセスをさらに進め、論文の元になった生データや図表、写真なども無料公開して利用を促進しようというものです。元来、論文に載っている図表は多くの生データの平均値など集約したもので、いわば、結果のみを掲載してきました。オープンデータはその前段階のデータそのものをオープンに公開しようというものです。

論文を読んで触発された別の研究者があらたに知見を加えたり実験をしたりしてまたあらたな論文を産み出していくというのはよく行われます。むしろこれこそが科学のダイナミズムです。

こういうダイナミズムの中で、以前の論文を引用したり、データを利用したり、写真を使用したりということがしばしば起こります。また元の生データを使うことで、追試の手間が省けたりもします。こういう時、今までなら、原論文の著者に連絡をとって許諾をもらい、元データを送ってもらうということが必要でした。ところが、これでは科学の発展速度に追いつけません。そこで、データを公開し、これらの元データを迅速に使えるようにして、論文の生産速度を速めようということが提唱されるようになりました。これがオープンデータです。

もちろん、無料公開しているとは言っても著者や学会は著作権を放棄しているわけではありません。原著作者としての権利は主張できるようになっていなければなりません。そこでこういったデータにはCC(クリエイティブコモンズ)ライセンスを付与し、利用の仕方を制限します。

またオープンデータにはもうひとつ重要な機能があります。それはデータ透明性の確保です。前述したよう論文に生の実験データが掲載されることはほとんどありません。たいていは平均値などの集約したデータです。この平均値が正当に実験結果から導きだされているというのは科学者倫理として相互の信頼に依拠しています。しかし、最近、データの改ざんといったニュースが聞こえてくるようになりました。また写真なども画像ソフトを使えばいくらでも修正やねつ造ができてしまいます。

悲しいことですが、もはや科学者の倫理に頼るだけでは論文の正当性を確保できなくなってきています。そこで積極的に生データや元写真を公開することで透明性を確保しようということになったわけです。ここにオープンデータが利用されます。いくら平均値を改ざんしても生データを精査すれば、不自然なところが白日の下にさらされるわけで、不正の誘惑に駆られる研究者への牽制にもなるのです。

一覧へ戻る