COLLECTED BY
Web crawl data from Common Crawl.
The Wayback Machine - https://web.archive.org/web/20221002193513/https://lailaps.osdn.jp/
Lailaps
~~ 英仏独伊西Wiktionary & Project GutenbergのEPWINGほか ~~
更新履歴
- 2022/03/15 2022年3月のダンプデータをEPWING化
- 2021/09/07 2021年9月のダンプデータをEPWING化
- 2021/03/11 2021年3月のダンプデータをEPWING化
- 2020/09/11 2020年9月のダンプデータをEPWING化(全言語で、音声データなしにしました)
- 2020/03/09 2020年3月のダンプデータをEPWING化
- 2020/03/04 2020年3月の英独伊西のProject Gutenberg 人気作をEPWING化
- 2019/09/10 2019年9月のダンプデータをEPWING化
- 2019/02/07 2019年2月のダンプデータをEPWING化
- 2018/09/15 2018年9月のダンプデータをEPWING化
- 2018/06/28 英語Wiktionaryのタイトル誤字修正
- 2018/04/14 2018年4月のダンプデータをEPWING化
- 2017/09/30 2017年9月の英仏独伊西のProject Gutenberg 人気作をEPWING化
- 2017/09/23 2017年9月のダンプデータをEPWING化
- 2017/03/11 2017年3月のダンプデータをEPWING化
- 2016/08/11 2016年8月のダンプデータをEPWING化
- 2016/03/05 2016年2月のダンプデータをEPWING化
- 2015/09/19 2015年9月のダンプデータをEPWING化
- 2015/04/18 英仏独伊西のProject Gutenberg 人気作をEPWING化
- 2015/02/28 2015年2月頃のダンプデータをEPWING化
- 2014/06/08 初版公開
はじめに
2013年秋にフランス語を習い始めたのですが、発音が全く聞き取れず(blond, blanc, brun, un bon vin blancとか)、何とかしようとフリーの発音データを探していてフランス語のWiktionary (Wiktionnaire)にたどり着きました。フランス語の発音データだけあれば良かったのですが、せっかくなのでテキスト部分も、挿絵画像も、ついでに英独伊西のWiktionaryもEPWINGにしてみました。
Wikiサイトがダウンロード用に公開しているのは、HTMLそのものではなくてWiki形式のテキストです。これをEBStudioで処理するために自分でHTMLに変換しなければなりませんでしたが、数百~数千種類もある(しかも言語ごとに異なる!)テンプレートの文字列変換( {{m}} → m など)にかなり手こずりました。全部まじめに対応するとWikiシステムそのものを開発するのと同等になり、キリがないので主要そうなものだけ変換し、それ以外は {{...|...}} のままで残しました。どうぞご了承ください(フランス語の発音が分かればいいや、という個人的な割り切り(諦め?)もあります)。
EPWINGの仕様上、また変換の都合上、表示が本来の姿でないこともあります。気になった語はWiktionary本家サイトや他の辞書でもご確認ください。
もう一つ、20言語以上のプロの翻訳(採用条件では3カ国語以上必須、校正担当もプロ)がそろっている欧州評議会の議事録もEPWINGにして、パラレルコーパスとして使えるようにしてみました(言語によっては一部欠けていることもあります)。どんなものかは、2001年9月12日の特別会議議事録などをご覧ください。眺めていると楽しいのですが、何の役に立つのか私には分かりません。ただこれほどの内容のものは他にはありません。
[2015/04/18追記] Project Gutenberg にある英仏独伊西の作品テキストをEPWINGにしました。ただし膨大な作品があり、全部をEPWINGデータに収録出来なかったので、言語別の人気作(ダウンロード数が多いもの)ベスト100について、それに関わった作者の全作品を収録しました。たとえば英語では75作家、1531作品の収録となりました。青空文庫の全作品を収めた青空WINGのように、テキストの全文検索に使えると思います。
なお収録した言語について分かって作っているわけではありませんので、とんでもない誤りなどがある可能性があります。テンプレート文字列変換の追加・修正なども、お気づきの際はどうぞお知らせください(→なんでも掲示板)。
EPWINGデータのセットアップ
ダウンロードして解凍し、お使いのEPWINGソフトで辞書を追加してください。
外字設定ファイルを使うと、外字がきれいに表示されます。EPWINGソフトによって使う外字設定ファイルの拡張子が決まります。EBWin=.map, EBMac/EBPocket for iOS=.plist, Logophile=.zgai(全角), .hgai(半角)です。Wiktionaryの外字はすべて全角、評議会議事録ではすべて半角です。適切なファイルを適切な箇所にコピーするなり読み込むなりしてください(方法はソフトのマニュアルをご覧ください)。
EBShrinkを使うことで、ファイルサイズをかなり小さくできます(Wiktionaryで半分くらい、議事録で1/5くらい)。ただし、圧縮した辞書はEBWin/EBMac/EBPocketなどでしか使えません。
WiktionaryのEPWING
■ダウンロード
外字設定ファイルは、EBWin/EBMac/EBPocketやLogophileで記号付き文字などをビットマップ画像ではなくUnicode文字として美しく表示するためのファイルです。ここで公開しているすべてのEPWING版Wiktionaryで共通です。
辞書データを更新したら外字設定ファイルも更新してください。
wiktio-en-220315 は、2022/03/01 に保存された英語WiktionaryのデータをEPWINGにしたものになります。
EPWING化にあたり、対象としている言語の解説部分だけを抜き出しました(英Wiktionaryの「そして」のような日英ページや、catのページでも英語以外のcatの解説は収録していません)。ごく一部の画像と音声が欠けていることがあります(ファイルの不在・形式変換失敗などのため)。フランス語Wikitionnaireでは、ページ末尾の発音セクションを見出し語の直後に移動しました。
[2020/09/11追記] EPWINGの辞書データサイズ上限の関係から、全言語で音声データをなしにしました。音声データが必要な方は、古いバージョンを適宜ご利用ください。
2014年6月公開版での英cat、仏chat、独Katze、伊gatto、西gato。EPWINGでは複雑な表示指定(表の表示も)ができないため、見栄えが変わっているところがあります。
2014年6月公開版での英red、仏rouge、独rot、伊rosso、西rojo。英仏伊では色見本の矩形画像も追加しました。red hair の色が、英語とスペイン語ではかなり違います。
光の加減やら単なる一例としても、赤毛というより金髪・栗色のような。英WikipediaのRed hairはまあまあ赤毛, オランダで開催されるRedhead Dayの人々は金髪、赤みがかった金髪・・ではないのか?blondほど明るい色ではないのがred hair?スーパーサイヤ人の髪はthe Saiyan's hair becomes golden in colorとある(日本語を訳したせい?)。アカゲザル、う~~ん・・・。Google画像検索の赤毛のアンとAnne of Green Gablesでは(アニメと実写の差もありますが)色合いがかなり違うように見えます(アニメっぽい色の髪もある)。red hairと言ったら桜木花道か、せめてred hairの検索画像くらいだと思っていました。でもnatural red hairなら red でも一応納得。白ワインも白くはない(牛乳ではない)ことですし(仏blancの色見本で、純白の他に明るく薄い黄色・ピンクなどもblancだと分かります)。
■検索方法
- 文字の記号を除いて、a~zで見出し語を検索できます(フランス語のcafé→cafeなど)。ドイツ語のエスツェット(ß)はssとしてます(daß→dassなど)。
- 英語・イタリア語・スペイン語では、前方・後方・完全一致のほか、クロス検索で複数の語彙からなる見出し語の途中の語も検索できます。
- フランス語とドイツ語は、EPWINGのデータサイズ上限を越えないよう、本文中のリンクジャンプをすべて無しとしました。
- EPWINGの仕様上、記号付き文字を含む単語は、全文検索で見つけられません。
■Wiktionaryについて
2022/03/15公開版 (全言語で音声データなし)
言語 | 見出し数 | 画像数 | サイズ[GB] |
英語 | 1,044,048 | 21,906 | 1.30 |
フランス語 | 1,895,421 | 37,310 | 1.88 |
ドイツ語 | 780,208 | 22,757 | 1.64 |
イタリア語 | 367,381 | 6,848 | 0.44 |
スペイン語 | 819,403 | 6,660 | 0.66 |
英語: karoshiやanimeはともかく、tokusatsu, hentai, ecchiまである。walking carpetもあった。
フランス語:chat ~(~猫)の画像付きは数件しかないが、chien ~(~犬)は何十件もある。
ドイツ語:数年前発見したのですが、独和辞典でFranzoseを見ると、フランス人・自在スパナ/レンチにつづき、口語・俗語としてゴキブリという訳が載っていることがあります。書店で独和辞典を調べて全部ではないもののこの訳をいくつも見つけました。独WörterbuchのFranzoseをみると(Google翻訳経由)、フランス人・フレンチレストラン・モンキーレンチ、の3つだけでした。この際工具を指すことはどうでもいいです。隣国人を表すごく普通の語に、たとえ俗語でも「ゴキブリ」の意味があり、まっとうな辞書に掲載されるのは余程の事だろうと思うのです。ドイツ人は例えば台所で "Franzoseeee!!!" と言いながらGをひっぱたいたりするのでしょうか?フランス人はこのことを知っているのでしょうか?両国の地理的・歴史的関係から??深刻ではない、お約束のギャグのようなもの??真相をご存知の方は、ぜひ教えてください!
イタリア語:rosa(バラ)の挿絵がおもしろい。バラ色がどんな色か、とてもよくわかります。amore(愛)も。amico(友達)はラファエロでした。画像は少ないものの、印象に残ります。
スペイン語:Tokugawa (徳川), Kurashiki (倉敷)はあるのに(他にも日本の都市名が多数)、Nagoya (名古屋), Asakusa (浅草)はない。Tokugawa, Kurashikiは Español として掲載されているので、EPWING版でも除外せず(除外できず)掲載しています。英語より見出し語数が多いのはたぶんそういう項目のため。
Project Gutenbergには4万点以上の作品があり、そのすべてを一つのEPWINGに納めることは出来ませんでした。そこで、言語別に人気作ベスト100を調べ、それらの作品の作者の全作品テキストを収録しました。ただし、単純に機械処理可能なHTMLファイルが公開されていない作品は除外しました。ある言語からの翻訳作品や、同一作品の底本が異なるテキストなども取り込んでいます(面倒なのでいちいち作品をチェックして選別していません)。
収録作品がこれで十分なのか、私には全く分かりません。収録すべき作家・作品がありましたら、なんでも掲示板までお知らせください。
■検索方法
ある単語やフレーズの出現箇所を検索する場合、英語版では全文検索で、仏独伊西では前方一致(最大3単語までを)で検索してください。
全言語共通
- メニュー検索で、作者名一覧→その作家の収録作品一覧→作品テキスト冒頭 にジャンプ出来ます。
- 前方一致検索で、作者・タイトルに含まれる単語を検索出来ます(例:"Shakespeare"でシェイクスピアの作品タイトル, "Juliet" で"Shakespeare's Tragedy of Romeo and Juliet"のテキスト冒頭、など)。検索する単語は、作者名やタイトルのどの位置にあるものでも見つかります。
- 各段落テキストの冒頭には、[ShaTraR] のようなリンクがあり、ここをクリックすると作品テキストの冒頭(作品情報)を見られます。たとえば英語版で、ShaTrR は "Shakespeare's Tragedy of Romeo and Juliet"の略です。
- 各段落は、「作者名の略 . 作品名の略 . 段落番号」で検索出来ます。たとえば「Shake.ShaTraR.100」は、William Shakespeare の "Shakespeare's Tragedy of Romeo and Juliet" の100段落目になります。
英語
- 全文検索で、単語やフレーズの出現箇所を検索出来ます。
- 特に聖書(欽定訳聖書)については、「書名 巻番号 : 段落番号」で検索します(「Genesis 1:3」で「創世記 1:3」など)。書名は以下の通りです。
- 旧約聖書:Genesis, Exodus, Leviticus, Numbers, Deuteronomy, Joshua, Judges, Ruth, 1Samuel, 2Samuel, 1Kings, 2Kings, 1Chronicles, 2Chronicles, Ezra, Nehemiah, Esther, Job, Psalms, Proverbs, Ecclesiastes, SongofSongs, Isaiah, Jeremiah, Lamentations, Ezekiel, Daniel, Hosea, Joel, Amos, Obadiah, Jonah, Micah, Nahum, Habakkuk, Zephaniah, Haggai, Zechariah, Malachi
- 新約聖書:Matthew, Mark, Luke, John, Acts, Romans, 1Corinthians, 2Corinthians, Galatians, Ephesians, Philippians, Colossians, 1Thessalonians, 2Thessalonians, 1Timothy, 2Timothy, Titus, Philemon, Hebrews, James, 1Peter, 2Peter, 1John, 2John, 3John, Jude, Revelation
- EPWING for the classics のシェイクスピア・パック、バイブル・パックもどうぞ。
仏独伊西
- 文字の記号を除いて、a~zで見出し語を検索できます(フランス語のcafé→cafe、ドイツ語のö→o [oeでない]など)。ドイツ語のエスツェット(ß)はssとしてます(daß→dassなど)。大文字・小文字の区別はありません(出来ません)。
- EPWINGの仕様上、記号付き文字を含む単語は、全文検索で見つけられません。
- このため、段落の文章を3単語(空白区切り)ずつ繋げて、単語やフレーズを前方一致で検索出来るようにしました。
- たとえば、フランス語版で "merci beaucoup" (2単語)の出現箇所を知りたいときは、"merci beaucoup" を前方一致検索で検索します。意外にも(?)たった3例しか見つかりません。"merci" だけで前方一致検索すると、"Merci à toi", "merci bien" など多数の例が見つかります。
"l'apres-midi" (1単語)の前方一致検索で、"l'après-midi" を見つけられます。
"j'aime la vie" (3単語)で、"j'aime la vie orientale." などが見つかります。
- EPWINGの仕様上、単語の区切りは無視されます。たとえば、"aaa bbb" という2単語の例を検索したつもりでも、その用例の他に、もしあれば"aaabbb"で始まる単語や、"aaab bb" というような単語も併せて見つかります。
- EPWINGはUnicodeが普及する前の規格のため、記号つき文字の検索は素直に出来ません。どういう風に検索出来るのが良いのか、私にもよく分かりません。なんでも掲示板までアイデアをお寄せください。
欧州評議会議事録のEPWING
■ダウンロード
- 英仏独伊西:eucorpus-majors-140608.zip
英語(English)=EN, フランス語(français)=FR, ドイツ語(Deutsch)=DE, イタリア語(italiano)=IT, スペイン語(español)=ES
- ロマンス語:eucorpus-romanic-140608.zip
英語(English)=EN, フランス語(français)=FR, イタリア語(italiano)=IT, スペイン語(español)=ES, ポルトガル語(português)=PT, ルーマニア語(română)=RO
- ゲルマン語派:eucorpus-germanic-140608.zip
英語(English)=EN, ドイツ語(Deutsch)=DE, オランダ語(Nederlands)=NL, デンマーク語(dansk)=DA, スウェーデン語(svenska)=SV
- スラブ語派:eucorpus-slavic-140608.zip
英語(English)=EN, ブルガリア語(български)=BG, チェコ語(čeština)=CS, ポーランド語(polski)=PL, スロバキア語(slovenčina)=SK, スロベニア語(slovenščina)=SL
- その他:eucorpus-others-140608.zip
英語(English)=EN, フィンランド語(suomi)=FI, ハンガリー語(magyar)=HU, エストニア語(eesti keel)=ET, ラトビア語(latviešu valoda)=LV, リトアニア語(lietuvių kalba)=LT, ギリシャ語(ελληνικά)=EL
- 外字設定ファイル:eucorpus-gaiji-140608.zip
テキストが膨大すぎて全部を一つのEPWINGにできなかったので、適当に分割しました(それでも一つ1.5GBくらいです)。収録期間は2001年9月~2011年6月まで(スラブ語派は2007年9月から)で、サイズ縮小のため、1日分収録・5日分(スラブ語派では2日分)スキップとしています。2001/09/12の議事録はあれば必ず含めました。どのEPWINGでも英語訳を含めてあります。英仏独伊西のデータは約2千万語入っています。一言語あたり数百万語はあります。
発言者の言語には、* を付けてあります(例:*EN)。英語以外の場合、各段落番号の直後に言語名を表示しています。ただし、データフォーマットの表記揺れや、話者が途中で言語を切り替えた場合など、一部正しく処理できていない箇所があります。参考程度にご覧ください。
外字設定ファイルは、ここで公開しているすべてのEPWING版欧州評議会議事録で共通です。
■検索方法
言語の種類は無関係に、ある単語が出てくる段落(とその複数言語訳)を前方一致・完全一致で見つけられます。
- 文字のアクセント記号などを除いた単語で検索すると、その語が出てくる段落が見つかります(cafeで検索すると、café(フランス語とスペイン語)やCAFEなどの出てくる段落すべてがヒットします)。ドイツ語のエスツェット(ß)はssとしてます(daß→dassなど)。検索対象の言語は指定できません。
- 見つかった語が記号付き文字(外字)を含む場合、それの色付き表示ができないEPWINGビューワーもあります。
- ギリシャ語は、記号を除き、ローマ字に変換して検索します。大文字小文字は区別しません(Σόφια → sophia)。
α=a, β=b, γ=g, δ=d, ε=e, ζ=z, η=h, θ=th, ι=i, κ=k, λ=l, μ=m, ν=n, ξ=x, ο=o, π=p, ρ=r, σ=s, τ=t, υ=u, φ=ph, χ=ch, ψ=ps, ω=w
- ブルガリア語はキリル文字(?)のまま検索できます(全く分かりません)。
- EPWINGビューワーによっては、複数の単語が同時に出てくる段落も検索できます。ただしEPWINGの仕様上、指定した語句がその順で並んでいるものを検索するのではなく、段落のどこかにそれらが1回以上使われている段落が見つかるだけです。一つの言語の成句検索には向きませんが、ある言語の単語と別の言語の単語の両方が出てくる段落の検索には使えそうです。
- EBWinでは、"sil & vous & plait" を検索すると、 s'il vous plaît が出てくる段落が見つかります。詳しくはこちら。
- Logophileでは、検索→複数の語の扱い→Andを検索、と指定してから、検索します。
- 複数の単語で検索した場合、見つかった語の色付き表示ができないEPWINGビューワーもあります。
- 各段落は、年月日.章.話者.段落 の番号が付いていて、それでも検索できます。
- 年月日(20010912など)を検索すると、その日の議事録の URL が出ます。原文はそちらをご覧ください。本家サイトの議事録検索ページも使えます。
- EPWINGの仕様上、記号付き文字を含む単語は、全文検索で見つけられません。前方・完全一致で見つけられるのは、見つかるように特別にデータを作ったからです。
既知の問題
- Wiktionary: 細かいところで表示崩れなどがある。テンプレートの文字列置換が不十分。画像・音声ファイルの欠落など。時間をかければ一つ一つ修正できますが、とにかく膨大すぎること、各言語版でデータフォーマットが変わることなどから、完全に対応するのは諦めております。どうぞご了承ください。
- 議事録: こういう検索方法でいいのか、何の役に立つのか分からない。Webで公開されているファイルを機械処理しただけで、元ファイルの段落区切り指定などに問題があった場合、それをそのまま引きずってしまうことがあります。ただ、話者ごとにセクションを切り替えているので、議事録全体が丸ごとずれているようなことはないと思います(が、当然ながら校正読みしたわけではありません)。必要に応じて、本家サイトの方でご確認ください。発言者の言語の判断(機械処理)も完全ではありません。
その他
著作権とライセンス
Wiktionaryは、CC BY-SAで公開されていますので、EPWING版も同じとします。
Project Gutenbergについてはこちらを参照:The Project Gutenberg License。
欧州評議会議事録は、非商用ならテキストの再利用が認められています。EPWING版はCC BY-NC-SAとしておきます。
連絡先
謝辞
Wiktionaryの執筆・管理などに関わった皆様に深くお礼申し上げます。
Project Gutenbergに携わった皆様に深くお礼申し上げます。
創設者Michael Hart氏の、"the greatest value created by computers would not be computing, but would be the storage, retrieval, and searching of what was stored in our libraries"の一節は、私がフリーのEPWING辞書に取り組んでいる動機の一つです。
欧州評議会議事録に携わった皆様に深くお礼申し上げます。
EPWING関係のソフトを精力的に開発されているhishida様に深くお礼申し上げます。
Java Wav File IOのAndrew Greensted博士に深くお礼申し上げます。とても使いやすいライブラリでした。
関連プロジェクト
私が行っているEPWING開発プロジェクトは、他にもあります。
Lailaps (Λαῖλαψ)って?
プロジェクト名をどうしようか、EuropeWINGにでもするか(う~~~ん)、Europeといえばエウローペーだ、と、『西洋古典学事典』を開いたらエウローペーはゼウスから猟犬ライラプスを譲り受けたとありました(由来や飼い主については諸説あるようです)。
ライラプス (「暴風・突風」の意)ギリシア神話中、追いかけた獲物は必ず捕らえるという駿足の猟犬 『西洋古典学事典』より
うん、まあ、そんな感じ、そうなればいいな、と。
(C) 大久保克彦, 2014-2022