デジタル保存の難しさ

渋沢栄一記念財団 金甫榮
はじめに
本稿では、デジタル保存に関する動向を紹介しながら、デジタルを長期的に保存することの難しさについて述べる。デジタル保存の対象は多様であるが、本稿では、行政機関や民間企業などの組織が作成するデジタル形式の記録を主な対象として話を進める。
デジタルの寿命
デジタルの世界にも絶滅危惧種がある。Adobe Flashが世の中から消えてしまったことは、記憶に新しいだろう。英国のデジタル保存連合(Digital Preservation Coalition:DPC)※1では、2年に一度絶滅の危険にさらされているデジタル種を選定し、「Global Bit List of Endangered Digital Species」(以下、ビットリスト)※2を公開している(図1)。ビットリストの対象は、公的記録や個人記録、研究成果、文化資源、ソーシャルメディア、ウェブサイトなど多岐にわたる。
2023年のビットリストに目を通すと、絶滅のおそれがある種の多さに衝撃を受ける。地方自治体の記録をはじめ、小規模のコミュニティの記録、スマートフォンのアプリケーションの記録まで、日常的に作成されているあらゆる記録が、実は絶滅の危惧に瀕しているのである。この状況は、利用者にとっては、単に使っていたものがなくなり不便を感じるだけかもしれないが、後世に残す記録が消えてしまうことは非常に深刻な問題である。

出典: The Bit List 2023:The Global List of Endangered Digital Species, p.19
※1 Digital Preservation Coalition, https://www.dpconline.org/
※2 The Global 'Bit List' of Endangered Digital Species, https://www.dpconline.org/digipres/champion-digital-preservation/bit-list
デジタル保存の世界動向
ビットリストを公開しているDPCでは、近年デジタル保存に積極的に取り組んでおり、次々とガイドブックや報告書、研修教材などを発表し、デジタル保存分野においてリーダー的な存在になりつつある。DPCは、英国を拠点としたデジタル情報の長期保存を行う機関が集まる国際的な非営利団体で、2002年の設立以来成長し続け、2024年の現在は、世界から約150機関が参加している。しかし、アジア太平洋地域の参加機関はまだ少なく、シンガポール国家図書館委員会(National Library Board of Singapore)と中国科学院文献情報センター(National Science Library, Chinese Academy of Sciences)の2機関のみである。
デジタル保存における大きな転換期となったのは、1990年代後半である。その時期、アメリカ航空宇宙局(NASA)の火星探査機が約20年前に収集したデータの解読ができない問題が発生した。この問題を受けて、デジタル保存に関する概念を整理したOAIS参照モデル(Reference model for an OpenArchival Information System、以下、OAIS)が作成され、国際標準規格ISO14721となった。OAISは、デジタル情報の長期保存に関する基準を提供し、情報の適切な管理や保存方法に関する概念的な指針を提供している。この動きと並行して欧米では、デジタルの保存に関するさまざまなプロジェクトが進められるようになり、その結果として、保存のためのメタデータ標準や保存機関を評価するためのツールなどが開発された。これらの取り組みは、デジタル保存の複雑さを認識し、それが世界的な重要課題であることを認識した結果であると言える。
デジタル保存に関する誤解
さて、ここで唐突ではあるが、デジタル保存に関する以下の記述の中で、正しいと思うものを考えてみてほしい。
- デジタルを保存する代わりに、すべてを印刷することもできる
- デジタル保存と電子化(digitization)は、同じである
- デジタル保存は、デジタルコンテンツをバックアップすることである
- デジタル保存は、すべてを永久に保存することである
- デジタル保存は、一度の対策で完了する
いかがだろうか。全て正しいと思った人は少なくないはずである。筆者も日常的な会話の中で、しばしば耳にする話である。しかし、これらはすべてArchives and Records Council Walesが公開している、「デジタル保存に関する中小企業向けのガイド(Digital preservation for small businesses: An introductory guide)」※3(以下、ガイド)の中で紹介されているデジタル保存に関する「誤解」である。
※3 Digital Preservation for Small Businesses: An Introductory Guide,
https://archives.wales/records-at-risk/digital-preservation-for-smallbusinesses-an-introductory-guide/

出典: https://archives.wales/staff-toolkit/records-at-risk/digital-preservation-for-small-businesses-an-introductory-guide/
電子化は、紙媒体を撮影やスキャニングなどの方法でデジタル形式に変換することを指すので、保存の保証のないデジタルデータをさらに増やすことである。そのため、電子化を行った後、原本を捨てることは、保存対策が整っていない場合は避けた方が良いとされている。また、バックアップは必要ではあるが、それだけでは十分な保存ができているわけではない。デジタル保存には他にも多くの処理が必要である(後述)。さらに、デジタル保存はすべてを永久に保存するのではなく、不要なデータは取り除き、重要なデータを保持することを意味する。そして、これらのデータは定期的に点検され、寿命が絶えることのないよう継続的に管理される必要がある。したがって、デジタル保存が一度の対策で完了するというのは、誤解である。ガイドでは、これについて「デジタル保存が完了しましたという人の話を信じるな!」と注意を促している。
最後に、デジタルを保存する代わりに印刷したハードコピーを、元の方法と同じ方法で使うことはできない。例えば、計算式のあるスプレッドシートを印刷すれば、計算式が使えなくなることは、誰しもが想像できるだろう。すなわち、デジタルの代わりに印刷をしたところで、それは同じものを保存することにはならない。
デジタル保存とは
それでは、デジタル保存とはどんなものだろうか? フォーマットや媒体を変換してデータの寿命を延ばすマイグレーション処理や、長期保存に適した保存媒体を選ぶこと、コピーを複数の媒体に保存し、複数の場所で保管すること、などは保存対策としてよく言われている。しかし、デジタルの保存はこれだけではない。
デジタル情報は、0と1のビット列でできているため、人間が見てわかるようにするには、ファイルフォーマットやソフトウェア、ハードウェアなどの表現情報が欠かせない。また、デジタル情報を特定するための参照情報や、いつ、だれが、どこで、なぜ、どのようにして作成したかに関する文脈情報、変更や処理ログのような来歴情報、改ざんや損失を防ぐための不変性情報、利用のためのアクセス権情報などが必要となる。OAISでは、これらの情報をメタデータとして記述し、パッケージ化して保存することが推奨されている。作成や利用においては非常に便利なデジタルだが、それを長期的に保存することは、一縄筋ではいかないのである。
特に、文脈情報を残すことは容易ではない。例えば、電子メールを想像してみよう。メールの内容を正しく理解するためには、芋づる式につながっている送受信メールの関係性を把握する必要がある。しかし、これらの複雑な関係性を把握することは困難を極める。タイトルに規則がない場合や返信機能を使っていない場合など、関連性を把握するための手がかりがない場合は、そのメールの本文を読み込まない限り前後の関係を正確に把握することは難しいだろう。時には、担当者でなければわからないこともあり得る。ガイドでは、ある案件に関連する電子メールを、一ヶ所のフォルダに集めて整理することが推奨されている。無関係な電子メールと区別して管理するだけで、最低限の文脈情報を維持することが可能になるだろう。
文脈情報を保存すること
文脈情報の保存は、日頃の小さな行動の積み重ねである程度は可能となる。以下はガイドで推奨されているデジタル保存のための心得の例である。
- 今から未来のことを考えてみる
- 何を残すか決める
- ファイルに適切な名前を付ける
- フォルダを使用してファイルを整理する
- ファイルの内容が分かるように説明文書を作成する
これらは、誰でもできる簡単なことのように思えるが、日常の業務の中でこのようなことを実践している人は多くないかもしれない。実際には、フォルダの整理が一貫しておらず、ファイル名から中身を把握するのが難しい場合が多いだろう。さらに、ファイルのバージョンが管理されていないため、最終版がどれなのか分からないことも少なくないだろう。
ガイドでは、ファイル名を付ける方法まで詳細に説明されている。例えば、日付を活用する際には日付が最初に来るようにすること(例:2022-05-01_sales_fi gures.xlsx)、バージョンの付与には一貫性のある方法を用いること、余白と「!*&%」のような特殊文字は使わないこと、などである。
実際アーキビストが大量の文書データを処理してアーカイブする際には、ファイル名にある余白や特殊文字はエラーの原因になる。また、無秩序な文書データはその内容を把握するために時間がかかるため、保存処理を複雑にさせる要因にもなる。ガイドでは言及していないが、適切なファイル名やフォルダの管理は、記録管理の中で必要なプロセスであり、文書データの文脈を把握する上でも重要な情報源となる。そして、残された文脈情報は、データがアーカイブズ機関や図書館などに移動された後も継続的に管理されなければならない。このように、データの作成と保存に関わる全ての人の協力が求められることも、デジタル保存の難しさの一つと言える。
現状を知ることから
デジタル保存のもう一つの難しさは、組織的に取り組まなければならない点にある。OAISでは、デジタル情報を保存するアーカイブズ機関(またはシステム)に求められる機能要素を定めている。それは、取り込み機能、保存ストレージ機能、データ管理機能、保存計画機能、アクセス機能、運営機能である。
図3は、これらの機能とデータの作成者、利用者、管理者の関係を概念的に示したものである。アーカイブズ機関は、作成者からデータを受け取り、適切なストレージで保存・管理する。また、保存方針・計画を策定し、利用者が長期にわたりデータにアクセスできるようにする。さらに、作成者や利用者との調整も行う。つまり、長期保存のためのインフラを組織的に構築・管理できなければならない。このOAISに準拠した信頼できるアーカイブズ機関を監査する標準として、ISO16363(Audit and Certifi cation of Trustworthy Digital Repositories)がある。この標準に基づいて認証を受けるためには、非常に厳しい条件を満たす必要がある。

出典: CCSDS. REFERENCE MODEL FOR AN OPEN ARCHIVAL INFORMATION SYSTEM
(OAIS) RECOMMENDED PRACTICE. 2012, 650.0-M-2.( 筆者訳・加筆修正)
一方、「デジタル保存連合ラピッド・アセスメントモデル(DPC Rapid Assessment Model)」は、より手軽に実践できる監査方法を提供している。さらに、日本語版※4が公開されており、日本の関係者にとっても活用しやすくなっている。このモデルでは、アーカイブズ機関の能力を組織レベルとサービスレベルに分けて、それぞれの中でさらに求められる機能を11のセクションに分類している(表1)。
表1 デジタル保存能力に関わる11のセクション

※4 DPC Rapid Assessment Model 日本語版,
https://www.dpconline.org/docs/digital-preservation/ram/translations-4/2522-dpc-ram-2-0-jp/file
各セクションの要件事項を確認しながら、要件を満足している程度を1~5点で評価し、さらに目標とする点数を用意されているスプレッドシートに記入すれば、その結果がグラフで可視化される(図4)。このようなツールを使用することで、組織は自らのデジタル保存能力を客観的に評価し、改善の方向性を見出すことが期待できる。

終わりに
これまで、デジタル保存の世界動向を紹介し、その難しさについて述べてきた。デジタル保存の難しさは、デジタル独自の特性から生じるものもあるが、同時に、デジタルを扱う全ての人に努力が求められる点にも関連している。デジタル保存の成功は、単に技術の発展やスキルの高い個人によってではなく、組織全体や社会全体が協力して取り組むことによってのみ実現されるのである。本稿が読者にとって、日常の業務でデジタル保存について再考するきっかけとなり、役立てば幸いである。
筆者略歴 金甫榮 (キムボヨン)
公益財団法人渋沢栄一記念財団 デジタルキュレーター。国立公文書館認証アーキビスト。立教大学兼任講師。東京大学史料編纂所附属前近代日本史情報国際センター共同研究員。専門分野:アーカイブズ学、学際情報学。論文には、「業務分析に基づく民間組織の記録とアーカイブズの管理に関する試論」『アーカイブズ学研究』29号、「組織アーカイブズにおける真正なデジタル記録の長期保存の要件:Archivematicaを用いた検討」『アーカイブズ学研究』38号などがある。