~~ 青空文庫の全文EPWING ~~
ありそうで無かった、青空文庫で公開されている作家・作品情報と全作品テキストを一つにまとめたEPWINGデータを作りました。
いわゆる電子書籍として個々の作品を読むためではなく、1万点以上の作品テキストに対して全文検索を行うとか、作家の生年・没年、初出の媒体名・日付などからの作品検索を意図しています(見栄えより検索機能優先です)。
[2013/11/24追記] どの用語がどこでどのように使われているかを簡単に調べられる、用例辞典を作成しました。作家別に、その作家の全作品を縦横無尽に調べ尽くせます。作家の選定は、適当&ご要望のあった作家としています。
[2013/12/21追記] 小内一氏が編集された『てにをは辞典』(三省堂) のように、ある語の前後にどのような語が来るかを、青空文庫の全テキストから集計した結果をEPWINGにしました。あくまで機械処理なので人手による「質」は決して望めませんが、「量」ならば人力作業の限界や紙面の都合は軽く乗り越えられます。用例の語尾や漢字・送りがなはすべて元のままとし、全用例を利用回数順に並べたので、どの結合語がよく使われるのかが一目で分かります。数回しか使われなかった用例も最大1000件、びっしり載せました。小内氏とは集計方針が異なるので単純比較は出来ませんが、見出し語138万、のべ用例数3846万件(それらの総利用回数5724万回)、この辞典のテキスト量は広辞苑およそ17冊分になりました。2年前買ったパソコンで、データ生成に約15分、EPWING化に約5分かかりました。
[2013/12/24追記] 利用回数1000回以上の語彙(6840件)について、Web上からも見られるようにしました。こちらからどうぞ。Web公開ファイルの一括ダウンロードはこちら。
[2015/03/07追記] 高橋さきの先生が『辞書の向こう側:生きた用例と辞書を往き来する』という紹介記事を書いてくださいました。どうぞご覧ください。
[2015/07/18追記] EBWin4による全文検索結果を辞書作りの用例カードのように編集出来るキットを作りました。あわせてお楽しみください。
約1万点の作品収録で、全角文字は1億6千万文字以上ありました。『吾輩は猫である』(新字新仮名)が346,136字でしたので、全体でおよそ『猫』480冊分(400字詰め原稿用紙で約42万枚)になります。作品数1万点の割に少ないのは、エッセイのように短い作品が収録されているためと思われます。たとえばたった数行の『猫の広告文』も青空文庫では一作品としてカウントされます。
「青空文庫 全文検索」でググれば、ネット上にいくつかサイトが見つかります。EPWINGのような検索仕様制限がないため、より高度な検索ができます。パソコンやスマートフォンからなら、こういうサイトの方がずっと役立つことでしょう。
今時EPWINGで検索できる事のメリットと言えば、オンラインでなくても使えること、私が開発放棄してもデータは将来も有効であること、ぐらいでしょうか。また、今もEPWINGビューアーを熱心にサポートしてくださっている開発者の方々のおかげで、Windows/Mac/Linux/iOS/Androidなど、どこでも検索できます。シンプルだからこそ、小型モバイル機器でも表示が見やすいと思います。
[2015/03/07追記] EBWin4 は、Logophileのように全文検索専用のインデックス(索引)を別途作成することで、一瞬で全文検索出来るように機能改良中だそうです(参考:EBWin4作者さまのブログ)。これが出来ると青空文庫の検索はもちろん、英和辞典などの全文検索もとても使いやすくなります。
[2017/03/04追記] 上智大学の豊島正之先生による、青空文庫の検索サイトも非常に便利です。さらに、なんと大槻文彦『言海』とも連携して参照できるようになっています。
著作権の切れている全作品を収録したEPWINGデータです。使い方は、4. 全作品EPWINGの検索方法をご覧下さい。
「段落開始・終了記号(↑↓)付き」は、全ての段落テキストの先頭と末尾に↑と↓が付いています。「↑すなわち」「であった。↓」などを全文検索することで、段落の先頭・末尾にある表現だけを見つけられます(そういう検索のために作りました)。収録作品は通常版と同じです。検索例はこちらを参照。
注意: ルビありデータでは、ルビは下付き文字として表示されます。全文検索を使う場合、ルビも含めて検索語句を指定しなければなりません("吾輩わがはいは猫である" → "吾輩わがはいは猫である")。読むには便利かも知れませんが、ある漢字のルビの有無は作家・作品毎にばらばらなので、全文検索には不向きです。
それぞれ解凍すると800~900MB程度になります。
作者一覧・作品名一覧のごく一部の文字に外字を使っています。外字設定ファイルを使うときれいなUnicode文字として表示出来ます。map, plist. hgai, zgai ファイルの使い方は各ソフトのマニュアルをご覧ください。作品テキストでは外字は使わず、Web上で見るときと同じ文字画像を表示しています。
作家別に、その作家の全ての作品と用例を収めたEPWINGデータです。お好きな物をダウンロードしてうまく組み合わせて串刺し検索すると面白いでしょう。使い方は、5. 作家別用例辞典の検索方法をご覧下さい。
青空文庫に登録されている作品数や分量が作家によって大幅に違います。EPWINGデータは解凍後に数MB~600MB程度になります。全部解凍すると4GB以上になります。特に大きいのは、宮本百合子、坂口安吾、漱石、泉鏡花、岡本綺堂あたりです。全部解凍&全部のzipも含めると10GBくらいの空きが必要です。
[2017/03/04追記] 作品の追加があり、ダウンロード数も多かった用例辞典だけを更新しました(つまり芥川、啄木、安吾、太宰など)。*-131124.zip のものは 2013/11/24に公開したもののままです。
完全版を解凍すると1.8GBになります。内容や使い方は、6. 青空てにをは辞典 の検索方法をご覧下さい。
Web公開ファイル一式は、解凍後、webフォルダにある toc.html を開いて下さい。解凍すると560MBほどになります。
内容や使い方は、こちらをご覧下さい。
内容や使い方は、7. 『「異字同訓」の漢字の使い分け例』の検索方法をご覧下さい。
検索キー | 入力例 |
---|---|
作家名(原表記) | 夏目漱石 |
作家名(かな) | なつめそうせき |
作家別作品リスト番号 | A148 |
作家生年月日(年あり) | BY18670209 |
作家誕生日(年なし) | BD0209 |
作家没年月日(年あり) | DY19161209 |
作家命日(年なし) | DD1209 |
「作家別作品リスト番号」は、青空文庫サイトにあるリスト番号の頭に "A" を付けたものです。後述の図書カード番号と区別するために"A"(uthor)を付けました。参考:夏目漱石の作品リストページ
注意: 「*著作権存続*」となっている作家・翻訳者の作品リストは、EPWING版では一切表示しません(今後変更するかも知れません)。
例えば前方一致検索で「BY1867」を検索すれば、1867年生まれの全作家が見つかります。没年も同じです。
作家情報は50音順に並んでいます。正確には「登録全作家 作家リスト:全て」の掲載順です。検索結果が複数ある場合は、この順に表示されます(単純な50音順でよいのかどうか?)。
後方一致(名前の末尾一致検索)やクロス検索(先頭・末尾以外の名前一致)も出来ます。EBWinの場合、自動検索とすれば、前方・後方・クロス検索を一度に行えて便利です。
公開中の作品名をクリックすると、その作品の図書カード情報にジャンプします。
1867年生まれの作家を検索した例です。"BY186702", "BY18670209" などで前方一致検索することもできます。誕生日なら "BD0209" などです。
12月9日が命日の作家を検索した例です。
検索キー | 入力例 |
---|---|
作品名(原表記) | 吾輩は猫である |
作品名(かな) | わがはいはねこである |
図書カード番号 | 789 |
初出媒体名 | PMホトトギス |
初出年月日(年あり) | PY190501 |
初出月日(年なし) | PD0123 |
「図書カード番号」は、青空文庫サイトにあるカード番号です。参考:『吾輩は猫である』の図書カード
注意: 「*著作権存続*」となっている図書カードは、EPWING版では一切表示しません(今後変更するかも知れません)。
初出に関する検索は、初出情報がある作品についてのみ行えます。「初出月日(年なし)」は日付まで図書カードに記載されていた場合のみ行えます。『吾輩は猫である』の場合は「初出: 「ホトトギス」1905(明治38)年1月~8月」となっているので、初出月日での検索は出来ません。
前方一致検索で「PY1905」を検索すれば、1905年初出の全作品が見つかります。
作品情報は、作家名50音順(第1ソートキー)かつ作品名50音順(第2ソートキー)です。ある作家の作品は、その作家の「作家別作品リスト」の掲載順に並んでいます。
後方一致やクロス検索も出来ます。
青空文庫の図書カード相当の情報が見られます。作品テキストのファイル名をクリックすると、作品テキストにジャンプします。
作品テキストの格段落の先頭には、「図書カード番号.段落番号 [作家略称.タイトル略称.見出し番号]」が付いています。全文検索の検索結果である段落が見つかったとき、どの作品のどこなのかを知るために付けています。
図書カード番号.段落番号を検索することで特定の段落を一発で表示できます。
ルビありのEPWINGデータで、作品テキストを表示した例です。下付き文字でルビが表示されます。
初出媒体が「ホトトギス」の作品を検索した例です。
1905年が初出の作品を検索した例です。"PY190" で 1900~1909年初出、"PY190101" で 1901年1月初出の作品を検索できます。
また "PD0421" で(いずれかの年の)4月21日初出の作品を検索できます。
検索モードを「全文検索」にして検索すると、EPWINGデータに含まれている全テキスト(全作家情報、全作品情報、全作品の全テキスト)を対象に検索を行います。作品テキストだけを対象に検索できないのはEPWINGの仕様です。
検索語が見つかった段落が表示されます。
hishida氏制作のEBWinでは、「単語1&単語2」とすることで、両方の単語が含まれた段落を検索できます。ただし、2つの検索語の位置関係(前後、間の文字数など)は指定できません。参考:EBWinのマニュアル
全文検索の1回目は遅いですが、パソコンでは2回目からは早くなることがあります(約10秒)。ファイルシステムのバッファキャッシュの効果だと思います。2GB以上のメインメモリを積んだPCでの利用をお勧めします。iPhoneなどのモバイル機器ではそこそこ時間がかかるでしょう(第3世代(?)のiPodTouchで約60秒。たった数倍の差しかないのはSSDのおかげ?)。
「吾輩は猫である」という句を全文検索した例です。『吾輩は猫である』の作品カード情報等の後に、全作品テキストの中の一致箇所が見つかります。検索結果をクリックすると、その段落にジャンプします。
各段落の先頭に表示されている「図書カード番号.段落番号」が個々の段落を特定する検索キーです。
[2014/03/18追記] 「段落開始・終了記号(↑↓)付き」で、段落の先頭にある「すなわち」を探した例です。「↑すなわち」を全文検索しています。
作品テキストの個々の段落は、「図書カード番号 . 段落番号」で検索できます。段落番号は、その作品の先頭から順に増える数字です。全文検索結果を基に、再度特定の段落を表示したい場合などに使えます。
例えば、『吾輩は猫である』の100番目の段落は「789.100」で検索できます。
先の全文一致検索で見つけた和辻哲郎の『漱石の人物』(図書カード番号: 49898)の段落を検索した例です。
思いついた単語をやや短め(1~3文字)位で検索します。見出し語の後の数字は用例数です。100件以上ある場合は、各作品から1用例ずつ、2用例ずつ採用していき、100件を超えたところで打ち切っています。用例の行頭にある [作品略称] をクリックすると、その段落全体にジャンプします。
「吾輩は猫である。」という文からは、「吾輩は」「は猫」「猫で」「である。」の見出し語が出来るようになっています。この処理にはMeCabという形態素解析エンジンを使っています。機械判定なので、100%正しいわけではありませんが、実用上十分かと思います。
漢字にふりがなが付いている場合、そのふりがなでも検索できます。全ての漢字にふりがなが付いているわけではないので、検索結果が意図した結果より多くなる事があります。
複数のの作家別用例辞典に対して「彼女は」を完全一致で串刺し検索した例です。ふりがなの付け方や用例数も一目で分かります。
この例では、石川啄木の全く同じ文例が2つ出ていますが、一つ目は作品番号45468の新字旧仮名版、二つ目は作品番号4101の旧字旧仮名版です。「石啄.病院」をクリックするとそれぞれの原文テキストに飛びます。
その作家の作品名で作品カードを検索できます。各段落を「図書カード番号.段落番号」で検索できるのは全作品EPWINGと同じです。
青空文庫の著作権の切れた全作品テキストをMeCabという形態素解析エンジンで語に分解し、以下の単純な規則に従って集計しました。
残念ながら100%期待通りの完全な結果とはなっていません。気になる表現があったら、全作品EPWING(ルビ無し)で全文検索するなり、ググるなりして下さい。私自身が日本語の文法(特に品詞とその働きや係り結びなど)をもっと学ぶ事で、より緻密に繊細な集計出来るようになると考えています。この点は今後の課題です。
集計対象が50年以上前の作品しかない青空文庫なので、用例が古いのはどうしようもありません。まとまった量の現代日本語テキストというと、国会議事録、Wikipedia、某掲示板などありますが、それなら青空文庫の方がまだ良いでしょう。ただもし、松岡正剛氏の千夜千冊のテキスト解析結果だけを『正剛てにをは辞典』として公開できたらどうでしょうか。データベース化は著作権法第四十七条の七の「情報解析のための複製等」に当たると思いますが、それの(無断)一般公開はアウトです。しかしもしお願いしたら・・・、やっぱり断られるでしょうかね・・・・。
見出し語になっているのは、名詞・形容詞・副詞・動詞・接続詞・連体詞だけです。思いついた語を普通の国語辞典のように検索するだけです。
前方一致検索だけでなく、後方一致検索、クロス検索(見出し語のどこかに含まれる漢字見出しの検索)もできます。
見出し語の後に続く結合語は「○○~」、前に繋がる結合語は「~○○」と出ます。検索語に「~」を含める必要はありません(含めると見つかりません)。
見出し語の後の数字3つ(20198, 255ppm, 377位)は、「酒~」の用例は20198回使われ(複数回同じ用例が使われた場合は利用回数だけ勘定します)、それはこの辞典に収録した全用例の利用100万回当り255回に相当し、収録した全用例では377番目に利用回数が多かったことを示してます。これらの数字は、集計規則次第でどうにでもなりますし、語の集計の重複(「○○~」と「~○○」で2回カウント)もあるので目安でしかなく、この辞典以外との比較は恐らく無意味です。「○○~」と「~○○」の利用回数が異なることがあるのは、文末・文頭に達したり句読点などが出たら集計対象外になるためです。
2行目は、「酒~」の用例で一番多いのは「酒を~」で、同じく6975回使われ、これは「酒~」の利用回数20198回の34.5%に相当する事を示します。下へスクロールすると、「酒の~ (2907, 14.4%)」「酒が~ (1327, 6.6%)」「酒は~ (1264, 6.3%)」・・・と続きます。最後に一度しか使われなかった用例を全部表示します。
3行目以降の「563 飲んで」「141 飲んだ」「130 のんで」・・・は、「酒を飲んで」が563回、「酒を飲んだ」が141回、「酒をのんで」が130回・・・使われた事を示します。複数の用例が同一回数使われたときは、「23 出して, 注いだ, 酌んで 」などと表示します。同一利用回数の用例が11件以上の時は「9 [13件] あおった, くらって, すすめて, のむ・・・」のように表示します。これは、9回利用された用例が13件あったことになります。
同一利用回数の用例が1001件以上ある場合は、「1 [3055件 抜粋] あおったが, あおりはじめました,・・・」のように表示します。これは、1回利用された用例が3055件あり、その内1000件を均等抜粋表示した事を示します。そもそも集計対象が青空文庫なので、現代とは利用回数の分布が異なる事もあります。見出し語「~乗る」で「~に乗る」の用例利用は多い順に、汽車、電車、船、馬、車、自動車、手、馬車、舟・・・でした。
「完全版」では、とにかく全部(同一回数の利用用例数が千回を超える場合以外)表示します。量が多すぎて普段は使いづらいのですが、たった1回しか使われなかった用例も時には参考になることがあります。
「縮約版」では、見出しに対して 0.5% 以上の回数(「酒~」20198の0.5%=101回以上)使われた結合、さらに、その中でも0.5%以上使われた結合(「酒を~」6975回の0.5%=35回以上)を表示します。ぱっと見通しがききやすい程度の分量に抑えたつもりです。0.5%以上というのは何度か試してこのくらいかと思っただけで、特に意味はありません。
終止形縮約版では、動詞を終止形に直した上で集計し、さらに縮約版としたものです。ただの縮約版では、酒を飲んで・飲んだ・飲みながら・・と分かれていますが、全部まとめて「酒を飲む」2147回になっています。当たり前ですが、「酒を」に続く動詞は「飲む」(の変化型)が圧倒的であることがすぐに分かります。終止形にまとめることによって、順位も変わります。たとえば縮約版では「19 酒が好きで」が再頻出ですが、終止形縮約版では「93 酒がある・・・50 好きだ」となっています。実際の用例は完全版で再確認するのが良いでしょう。
終止形への変換もMeCab形態素解析エンジンの結果を利用しています。十分正しいと思いますが、100%正しいわけではありません。語の利用傾向を探る程度なら十分有用だと思います。
「~酒」の場合も順序が逆なだけで同様です。
おまけとして「1位」「2位」などを検索すると、その出現順序に対応する見出し語一覧が分かります。ある順位の語が複数あれば、その次の順位は+1ではなく、語の数分だけ進みます。
利用回数1000回以上の語彙について、Web上からも見られるようにしました。こちらからどうぞ。ブラウザのページ内検索機能で見出しを探してください。Web公開ファイルの一括ダウンロードはこちら。
ほんの一例として:「~酒、酒~」、「~愛、愛~」、「~人生、人生~」、「~美しい、美しい~」、「~食べる、食べる~」、「~月、月~」
異字同訓見出しの、かなと漢字で検索できます(例:「はかる」「図る」「計る」・・・)。また元資料の章見出しを元にしたメニュー検索も出来ます。
元の資料では、平成26年版・昭和47年版・平成22年版がそれぞれ別ページに分かれていましたが、それぞれの変遷が見比べられるように、見出し(かな)順に統合してあります。
[2014/02/26追記] 漢字小委員会の議事録もEPWINGに追加しました。用例の検討過程もあわせて参照できます。議事録中で「 」括りになっている語彙(とそれに対応する かな見だし)でその段落を見つけられるようにしてあります。a.bbb とあるとき、第a回委員会議事録のbbb番目の発言になります。現時点で、第6&7回の議事録が公開されていませんので、それは未収録です。 [2014/03/29追記] 第6&7回の議事録も追加しました。
言うまでもないことでしょうが、青空文庫は、まだまだ校正作業中のものや手つかずのものもあります。収録対象が完全でない以上、本データの全文検索結果も完全とは言えないこともあるでしょう。正式な学術調査などでは、専門家の校正を経た電子データや底本をご覧になることを強くお勧めします。しかし、ちょっとした言葉遊びや文章検索であれば、いろいろ役立つこともあると思います。元データの制限・限界を十分ご理解の上、ご活用ください。今後定期的に更新していくことで、少しでも理想に近づくことを願っています。
全文検索を何度か試していて気づいたのですが、2013年4月現在、全1万点強の作品の内、約1割の1161点が宮本百合子の作品であることは(検索の目的次第ですが)留意すべきことだと思います(文字数では9,264,189字で全体の約6%)。次点は岸田 国士の634点(同4,052,825字で約2.7%)。
[2014/03/18追記] 参考:「aozorablog: 青空文庫の蔵書構成」
EPWINGデータについては、パブリックドメインとし、無償配布します。
[2013/11/24追記] 本の未来基金 - 「本の未来基金」は青空文庫の活動を将来にわたって支援するための基金です。
青空文庫で「*著作権存続*」となっている作者・図書カード・作品ページは一切収録していません。「青空文庫収録ファイルの取り扱い規準」により、著作権切れ作品のファイルは「複製し、再配布することができます」とあります。ただ図書カードページなどについては厳密には青空文庫の方に著作権があるかと思いますが、(著作権保護の対象外となる)事実の列挙とも言えますし、青空文庫開設の志を踏まえて勝手ながら収録させていただきました。
なお、私は青空文庫とは特に関係がありません(工作員経験もありません)。
青空文庫の公開に関わったみなさまに深くお礼申し上げます。
EPWING関係のソフトを精力的に開発されているhishida様に深くお礼申し上げます。
MeCabという形態素解析エンジンを開発されたみなさまに深く感謝いたします。これがなければ用例辞典も てにをは辞典 も作れませんでした。
お ま け
私が行っているEPWING開発プロジェクトは、他にもあります。
渋谷栄一先生がパブリックドメインとして公開されているデータを元に、本文、かな全文、現代語訳、注釈付きの源氏物語EPWINGデータを作りました。試作品としてePub版も作りました。詳しくはこちら。
形式 | ファイル名 | 検索方法 | かな |
---|---|---|---|
EPWING | genji-kana-150105.zip | メニュー、前方 | 横書・全文かな付き |
EPWING | genji-ruby-150105.zip | メニュー、前方 | 横書・ふりがな付き |
ePub v2 | genji-v2-150105.epub | [ビューア依存] | 横書・全文かな付き |
ePub v3 | genji-v3-150105.epub | [ビューア依存] | 縦書・ふりがな付き |
(C) 大久保克彦, 2013-2022