過去と現代を結ぶ言葉の架け橋「ふみのは」 古文書解読とくずし字資料の利活用サービスについて

取材・文責 JIIMA広報委員会
協力 凸版印刷株式会社

 凸版印刷株式会社が開発した「ふみのは」は、現代人にとって難読となってしまった「くずし字」をAI-OCR技術によって読み解くサービスである。このサービスの提供により、これまで長い時間かかっていた貴重な歴史資料の解読が、より効率的かつスピーディに処理することができるようになっている。
 世界最高水準の古文書解読性能を持つ「ふみのは」の開発経緯やAI-OCR技術、このサービスを利用した事例等をふくめて解説していく。

 「ふみのは」の名前の由来は、くずし字で書かれた貴重な歴史的資料を一葉ずつ重ね、束ねることをイメージした、いわゆる造語である。
 このサービスは7年以上にわたる開発期間と実証試験を経て、 2021年に正式に提供が開始された。「ふみのは」は、個人や団体が所蔵する古文書や古典籍を解読し、高精度なテキストデータなどを提供する「古文書解読サービス」と、法人向けとしてパソコンやタブレット端末からWebブラウザで解読が可能なASPサービス「ふみのはゼミ」の2種類が提供されており、スマホアプリ「古文書カメラ」もベータ版が配信されている※1

※1 「ふみのは」および「古文書カメラ」は、凸版印刷株式会社の登録商標。

 「ふみのは」が対象としているのは、「古文書(こもんじょ)」とされる広い意 味での過去の文献である。例えば、送り手と受け手がいる御触書(おふれがき)や手紙、日記などの「古記録」、文学作品・出版物などの「古典籍」、そして浮世絵などの絵画や書画、美術品などが今回のそれにあたる。
 そもそも中国から日本に漢字が輸入されたのは、3世紀から7世紀ごろの古墳時代まで遡る。当時の中国は前漢から唐代の時代であり、その中で東晋時代の政治家であり書家である 王羲之(おうぎし)によって楷書・行書・草書が確立され、それら3つがセットで日本に伝わったという。

 日本で文字の読み書きできる人が増え始めたのは6世紀から7世紀ごろで、奈良時代になると仏教が盛んになった影響から識字層と呼ばれる人たちによって漢字が浸透していった。しかし時代の移り変わりとともに文字も変化し、平安時代になると草書をもとにした仮名文字、いわゆる「ひらがな」が発明された。その頃から日本人はひらがなの異体字である「変体仮名」、その一つでもあるくずし字を1000年以上にわたって書き続けることになる。ちなみに、漢字を発明した中国では文書の記述は楷書が一般的であり、一方の日本では公文書でもくずし字を使っていたことから、同じ漢字を使いながら両国の文字の発展には大きな違いが見られる。

 なお、日本では戦国時代が終わり江戸時代になると、寺子屋教育の普及から庶民の識字率が一気に上昇し、多くの人々が文字の読み書きができるようになった。これが、「文書(もんじょ)」という形で現代に多く残されるきっかけになったわけだが、明治時代になるとこれらくずし字で書かれた「文書」は急速に見られなくなった。その要因は、学校教育による国語学習の基準が、くずし字から楷書を使うことに変更されたからである。また、さらにこの頃の日本では、文字の印刷は金属活字を組み合わせた活版印刷が一般的となり、逆に独自の個性があるくずし字は金属活字との相性が悪く一部の変体仮名を除き印刷業界では使われなくなっていた。

 結果、明治そして大正と時代が進むに連れてくずし字を使う人は減っていき、現代ではほとんどの人は書くどころか読むことすらできなくなってしまったというわけである。すなわちそれは、 1000年以上にわたって継承されてきた日本という国の文化や歴史の記述を、専門教育を受けていない人は独自に読み解くことができなくなったということなのだ。

 くずし字とひと言でいっても種類はさまざまで、時代によりその特徴は異なっている。意外なことに明治や大正時代に書かれた近代のくずし字のほうが、江戸時代のものに比べてはるかに解読が難しい。これは文字を「正しい」くずし方で書ける人が減ったことに加えて、筆記用具の多様化やカタカナの混在などの特性があるためで、くずし字解読の専門家にとっても江戸時代に書かれたくずし字のほうがはるかに読みやすいという。
 一方で、近代にくずし字で書かれた手書き文字には、地方自治体や教育研究機関、公文書館をはじめ、明治以前に創業した企業の記録など貴重な文献も数多く残されている。

 「ふみのは」はそれら近代のくずし字について、AIに学習させることで解読の手助けをすることに成功している。これがさらに広まっていけば、謄本類など日常的に解読が必要な企業・機関の作業補助に貢献できるようになる。とくに財産相続に関係する戸籍謄本や土地に関係する登記簿謄本はくずし字で書かれたものが多く、金融や不動産業界でもそれらの解読が悩みの種とされているが、「ふみのは」のAI-OCRが向上していけばそれらの作業効率が大幅にアップすることは間違いない。

 日本に古文書として残されている資料は、一説によると数十億点から多ければ百億点に上るとされている。一方で、これらを日常的に解読しているという人は日本人口の0.1%にも満たないであろう。貴重な歴史資料の解読が遅々として進まないのは、古文書を解読できる後継者育成の課題はもちろん、解読を手助けする道具が発明されなかったこと、そしてある古文書を解読するというプロジェクトが発足しても、資料が膨大であればその分だけ作業が長期間に及び、コストも工数も増大していくという問題があるからだ。

 今回、凸版印刷が「ふみのは」を開発しようとしたのは、これらの問題を解決するためである。「くずし字OCR」の研究開発を中心に、印刷会社・製造業としてのノウハウを結集し、さまざまな研究機関と実証実験を重ねてきた。その結果、AI技術の進化により、これまでは不可能であった高精度のくずし字識別を可能とするAI-OCRの開発が可能となった。

 具体的には、すでに解読済みの文献をデータベース化し、文字画像をAIに学習させる。これはアノテーションと呼ばれる作業で、これにより文字認識の教師となるデータが内部で生成されるのである。それから新たなくずし字を解読させそれを専門家がチェックし、その文字の識別をデータベースにフィードバックする。これらの作業を何度も繰り返し行うことで、さらに多くのくずし字を読めるようにしたのだ。

 ただし、AI-OCRにも弱点はある。それはアノテーションにより作成された教師データに含まれない形の文字については精度が低下してしまうということだ。手書き資料でめったに使われない漢字や特殊な筆跡の文字は、学習データに組み込まれづらいのだ。また人間であれば文章の流れやどこの時代のどこの場所のものなど、総合的な情報から類推して読めない文字でも意味を推察したりすることができるが、そういった解読方法をすることはまだできない。そしてなにより、人類が未解読の文字については解読が難しい。その領域はOCRという技術とはまったく異なるからでもあるが、そもそも「ふみのは」のAI-OCRは、あくまで古文書を翻刻※2する人たちへのサポートツールなのだ。

※2  翻刻(ほんこく)。古文書や古典籍など歴史文献資料に書かれた文字を元にして活字にする際に、文字の書き方や表記法を現代風に変更したり、文体や表現を修正したりすること。

 古文書解読プロジェクトはえてして長期間に及ぶ事が多い。何十年にも及ぶ期間の中で、担当者の異動や退職によりうまく業務を引き継げなくなったり予算不足に陥ったりして、プロジェクトそのものが頓挫してしまうことも珍しくない。

 「ふみのは」はそれらの問題を解決するために、品質は荒くても対象となっている古文書すべてを先に一括で解読することを提案している。これは、いったんすべて読みこんでしまえば、解読の精度は低くても担当者は古文書に書かれている内容のだいたいの流れを把握することができるし、なにより「ふみのは」にもデータが蓄積されていく。その結果、まずはなにから重点的に解読するべきなのか、担当者は作業の大枠をつかむことができるというわけである。これは非常に大切なことで、長期にわたる解読プロジェクトにおいて、「何から手を付けていいのかわからない」という状況が改善できるだけでなく、仮に担当者がプロジェクトを続けていけない状態になっても、解読作業自体は属人化することなく「ふみのは」を利用して誰でも進めていけるようになる。長期のプロジェクトを遂行する場合、こういった作業の効率化と並んで品質の均一化は重要な課題である。

 ただし、前述したとおり「ふみのは」はあくまで翻刻者のサポートをするシステムであり、すべてを完璧に解読できるわけではない。言うなれば「ふみのは」は、AIによる自動運転ではなく電動アシスト自転車であり、すべてお任せできる全自動ロボットではなく人の潜在能力を引き出すパワードスーツなのである。
 このコンセプトは、使い勝手のよい道具であるためには、人とテクノロジーのちょうどよい距離感が必要であるという考えからきている。自動運転は一見便利でも、利用者がきめ細やかにコントロールできないような仕組みになっていると、さまざまなイレギュラーな状況に対応できないからである。

 「ふみのはゼミ」と「古文書カメラ」は、どちらも自社開発のくずし字AI-OCR機能を搭載している。「ふみのはゼミ」はパソコンとブラウザで使用するシステムで、AI-OCR解読機能に加えて、解読結果の修正、多人数での校正、大学の授業での使用を想定した機能を搭載しており、初学者から専門家までひろく利用されている。「古文書カメラ」はAI-OCRと簡易的な校正機能を搭載したスマホアプリで、一般利用者用の簡便なツールである。
 くずし字を解読することで、具体的にはどういうメリットがあるのか。またどういうニーズがあるのか。実はそれらは非常に多岐にわたるので、具体的に解説していく。

古文書カメラ画面イメージ
① 研究分野

 古文書などを研究する専門の機関では、「ふみのは」を使用することで大幅な効率化を実現している。デジタルアーカイブとして保存すれば、容易にアクセスと検索が可能となるだけでなく、共同研究などでも情報を簡単に共有することができる。さらにはデジタルデータとすることで永続性と保護、保管スペースの節約なども利点としてあげられる。

ふみのはゼミ画面イメージ 画像:津和野藩書状(個人蔵)
② 教育分野

 大学などで国文学・歴史学を勉強する学生にとって、「ふみのは」はとても便利なツールである。これまではくずし字辞典などを片手に紙に書いて翻刻していたものが、「ふみのは」を使うことで簡単にそれらの作業を行うことができる。また、ビューアを開く環境があればいつでも好きなときに復習することができることから学習効率も高い。さらには、手軽に翻刻できれば、それだけ興味を持って授業に参加する人も増えることから、人材育成という部分でも貢献している。

③ 生涯学習

 学生だけでなく社会人を含め多くの方に古文書の大切さや書かれている内容について理解してもらうという面でも、「ふみのは」は使われている。実際、ワークショップ型の翻刻会を開く際にも利用されており、より多くの方が身近に古文書に接して楽し んでもらえるようになる。またそういったイベントを通じて、交友の輪が広がるきっかけ作りにもなっている。

④ エンターテインメント

 企画展や展示会などのイベントにも、「ふみのは」は活用されている。博物館などで貴重な資料を公開する際に解説パネルを併設することなく、実際の資料をデジタル化してタッチパネルで読みたい部分を読むことができるようになる。ただ古い資料を貴重品として眺めるのではなく、資料を見て読むという体験ができるのである。

⑤ 名所観光

 日本のお城や神社仏閣には、多くの場合くずし字で書かれた資料などが残されており、それらへ観光でいった際には「古文書カメラ」の使用が期待できる。記念に撮った写真の中にくずし字で記載されたものがあった際、「古文書カメラ」を使うことで、ガイドの説明がなくてもスマホを掲げるだけで即座にくずし字を読むことができるようになるためそこになにが書かれているのか、意味を知ることができるのだ。

⑥ 地域振興

 日本には多くの未解読の古文書があり、各地方ではそのまま保存され眠っていることも珍しくない。とくに地震や疫病、川の氾濫、津波など「災害」に関する資料は重要でこれらを読み解くことで、地域の防災に貢献することができるだろう。またそれ以外にも古文書には、歴史的な発見をはじめ、その地域に伝わる郷土料理やお祭りの風習など、現在では途絶えてしまった文化も記載されている。「ふみのは」を使えば、それらを読み解くことができるのである。つまり、その地域の方々と解読された知識を共有することで、当時の文化をいまに再現することができるのだ。結果的にそれが、当時の料理の再現や廃れてしまったお祭りの復活など、地元を盛り上げるイベントのきっかけになるかもしれない。「地方創生」という言葉があるが、「ふみのは」はその起爆剤になる可能性を大いに秘めている。

⑦ 日本文化の海外発信

 日本に訪れる海外からの観光客は再び上昇傾向にあり、日本文化に触れて楽しみたいという外国人も多い。そういった人々に向けて日本文化のくずし字を「古文書カメラ」を使用し解説することでより楽しんでいただけるだろう。「古文書カメラ」を使えば、海外の人たちにくずし字の内容を読みあげてガイドを務めることができるのである。

⑧ 知的好奇心

 自宅の古い蔵の中に残されている巻物や掛け軸はもちろん、祖先の日記や襖に書かれているくずし字など、専門家に鑑定を頼むほどではないものの、実際に何が書かれているのか知りたいものについても「古文書カメラ」は活躍する。実際、多くの旧家には歴史上の人物の手紙や未発表の作品、当時の貴重な記録などが今も公開されないまま眠っている。家に眠る「お宝」を鑑定する上でも、大いに役立つことだろう。

 「ふみのはビューア」とは、「ふみのはゼミ」で解読したくずし字資料をデジタル展示に使用したりWebで公開するための仕組みである。AI-OCR機能は搭載していないが、非常に簡便な仕組みで資料画像と解読結果のテキストを利活用することができる。
 「ふみのはビューア」を実際に使ってみると、まずその使いやすさに驚くことになる。画面に表示された古文書等の上には、原文そのままの翻刻文が表示される。現代語訳を表示させるデータを予め準備しておけば、簡単に「現代語訳」がルビのように表示される。原本の形でそのまま古文書を読む体験ができるようになるのだ。また同様に解説文データを準備しておけば、個々のわかりづらい用語もピックアップして解説文が表示される。

「ふみのはビューア」サンプル 画像:山東京山著『大晦日曙草紙』稿本(印刷博物館蔵)

 実際、これが貴重な古文書などを展示するイベントなどの場合、当然原本となる古文書に来場者が直接手を触れるわけはいかないので、ガラスケース越しに見ながら併設されている解説文を読んだりガイドの話を聞いたりすることになる。また、保全のためそもそも展示すらできない資料も世の中には多数存在する。

 しかし「ふみのはビューア」であれば、デジタルデータとしてアーカイブされ、ビューアを通して誰でも気軽に読むことができる。広大な展示スペースが必要な全100巻を超える大作でも、「ふみのはビューア」であれば自分の読みたいページを選ぶことができるのだ。閲覧する場合はタッチパネルなどで見たい箇所を選択することもできるので、古文書を展示する点においても「ふみのはビューア」はツールとして非常に役に立つのである。

コロナ禍で有名になった妖怪アマビエの木版画。
「ふみのは」を使えばこういった一次資料からでも文字を読み解くことができる。

画像出典:京都大学所有、京都大学附属図書館収蔵

 「ふみのは」は、過去に残されたくずし字というメッセージから文化や歴史を「学び」、そしてその知識を現代に「活用」し、そして未来に「託す」、この架け橋となってくれるサービスである。
 冒頭に述べたとおり「ふみのは」の言葉の由来は紙を「一葉」と数えそれを束ねていくことであるが、一葉という言葉は小舟などを指す言葉でもある。その小舟で、歴史の大河を遡ることができれば、現代に生きる我々に「過去から積み重ねられた知識」という大きな遺産を与えてくれるかもしれない。
 「ふみのは」を使うことで、過去から学び、現代でそれを発展させ、さらに未来に繋げることができれば、我々の社会は今後さらに進歩していくことだろう。

情報コミュニケーション事業本部課長
大澤 留次郎 氏
情報コミュニケーション事業本部
福井 尚子 氏

(2023年7・8月号再掲)

誌面PDF