|
|
データベース
InftyProject ではさらに多くの研究機関に置いて、科学文書用のOCRソフトウェアーの研究が行われることを願い、プロジェクトでもっているデータベースで、広く研究に役立つと思われるものを整理し、公開していくことにしました。
著作権の問題に配慮し、また拙速に陥ることがないよう、十分に吟味したものだけを公開しますので、信頼性の高いデータベースになっていると期待していますが、使用してみて問題点などに気がついた方はご連絡頂ければ幸いです。
1.InftyCDB-1 (数学文書の文字・記号・単語・数式データベース第1回配布版、2005年3月18日公開)
- 説明: InftyCDB-1 には、30の英文数学論文、全476ページから採集した、688,580個の文字・記号の画像と正解文字コードが収納されている。
文字・記号は単語単位、数式単位で収納され、数式には数式構造を示すリンク構造も収納されています。
単語データベース、数式データベースとしても利用可能。
収納されている単語数は108,914, 数式数は21,056.詳しくはこちらを参照。
- 使用条件: 科学文書用のOCRソフトウェアーの研究・開発目的(製品開発を含む)であれば、原則、無償。
- 入手法: 次のリンク先からユーザー登録を行ってください.登録されたメールアドレスに InftyCDB-1 のダウンロードページ(URL)を記載したメールが届きます.User Registration
2.InftyCDB-2 (数学文書の文字・記号・単語・数式データベース第2回配布版、2006年12月27日更新)
- 説明: 上記 InftyCDB-1 の続きで、規模も同程度です。尚、InftyCDB-2 も欧文論文(若干、ドイツ語、フランス語の論文を含む)のみです。
英語論文における文字数662,147個、フランス語論文における文字数37,441個、ドイツ語論文における文字数77,813個です。
詳しい論文のリストはこちら
上記データは2006年5月18日公開当時のもので、最新版(2006年12月27日更新版)は、
英語論文における文字数662,142個、フランス語論文における文字数37,439個、ドイツ語論文における文字数77,812個です。
更新情報に関する詳しいことはこちら
- 使用条件: InftyCDB-1と同様です。
- 入手法: 次のリンク先からユーザー登録を行ってください。
登録されたメールアドレスに InftyCDB-2 のダウンロードページ(URL) を記載したメールが届きます。
User Registration
3.InftyCDB-3 (数学文書の文字・記号・単語・数式データベース第3回配布版、2006年10月24日公開)
- 説明: InftyCDB-3 は2つのデータセットで構成された英数字と数学記号の 単文字画像データベース です。InftyCDB-1 やInftyCDB2 とは異なり、単語や数式構造は含まれていません。単文字認識のエンジン開発や実験がしやすいように字形が同じ記号(例えば級数記号と大文字のシグマなど)には同じ文字コードが割り振られています。
- 「InftyCDB-3-A.txt」には188,752文字、「InftyCDB-3-B.txt」には70,637文字のデータが入っています。
- InftyCDB-3-A は現在のInftyReader(Ver.2.0〜Ver.2.5.0) の文字認識エンジン開発に用いた学習データです。300余の異なるソースから出来るだけ多くの文字記号の種類をカバーするように採集したもので、約19万文字が含まれています。異なる出版社の本や論文、和書の数式、出版社の印字見本、PCに含まれる内蔵フォント、LaTeXのフォントなど、多様なソースから採集した文字画像データです。
- InftyCDB-3-B はInftyCDB-1の中の20論文から抽出した文字記号セットです。各論文から同一コードで文字サイズ・字形が全く同じ文字が過度に重複しないようにクラスタリングして間引きしてあります。全体で約7万文字が含まれています。実験がしやすいように、IftyCDB-3-A と同じ形式でデータを納めてあります。
- データ形式についての詳しいことはこちらの InftyCDB-3説明書 を見てください。
- 注意: 今回のデータセットではドイツ文字(Fractur)は除外してあります。
- 使用条件: InftyCDB-1と同様です。
- 入手法: 次のリンク先からユーザー登録を行ってください。
登録されたメールアドレスに InftyCDB-3 のダウンロードページ(URL) を記載したメールが届きます。
User Registration
|