データベースの構築

データのデジタル化が完了すると、それをデータベースとして整備する作業に入ります。データ入力時点でデータベースの主要な構造はでき上がっていますが、入力された各データの標準化の作業が残されています。特に、一般の研究者に親しまれているファイルメーカーは、使いやすい一方で項目の設定が曖昧になりがちで、項目内のデータ形態も自由度が高い反面、不ぞろいのデータになりがちです。データベースとしての完成度を上げるためには、入力データに基づいて、構造の再検討と入力データの修正が必要です。


項目設定とリレーションの設定(入力用データベース)

標本一枚一枚を単位とした「Siebold.fmp」と、画像を単位とした「Photo.fmp」を作成し、基本的な入力項目とリレーションを図のように設定しました。

ここでは、実数値のSpecimenIDとphotoNoがそれぞれプライマリーのキーとなっています。(ファイルメーカーでは実際には内部処理で各レコードにプライマリキーが自動的に添付されますので、プライマリーキーが無くてもデータベーステーブルの維持管理が可能です。)

2つのデータベーステーブルはspecimenIDによって1:Nでリレーションされます。つまり、一つの標本番号に対して複数の画像の登録が可能です。

入力データの修正

  1. 空白スペースの処理
    ファイルメーカーでは「入力制限」機能が乏しいために、しばしばデータとして半角・全角のスペースが侵入しがちです。特に、項目の末尾に空白スペースが追加されていると、同じ名前のはずの標本が検索では検索できなかったりします。重複スペースや文末の余計なスペースは全て「全置換」機能で計算式を用いいて削除します。
    また邦文表記で有るべき箇所に「全角」のスペースが入力されていたり、その逆の場合がしばしば見受けられます。データの大量入力を行っている時に、目に見えない文字をチェックする事は不可能に近いので、最終的に一括処理を行う必要が有ります。
  2. 改行の処理
    同様に、項目データの末尾に余計な「改行」コードが入力されている場合が多く見受けられます。これらも、その後の予想外の検索結果に繋がり兼ねません。空白スペースと同様に余計な改行コードは取り除く作業が必要になります。
  3. 長過ぎるデータの処理
    例えば、和名の項目に改行付きで、10種類もの和名が書かれている様なケースが見られます。ファイルメーカーではディフォルトでは文字長のチェックを行わないため、本来文字数が限定されたデータが入力されるべき項目に、力ずくで冗長なデータ入力が行われてしまいます。確かに、データ入力時点ではこの柔軟性は楽ですが、最終出力を整える時に厄介な存在となります。
    こう言った例外的な項目は、メモのような自由記述項目をうまく活用しながらデータ長の調整を行う事になります。
  4. 増え過ぎた項目数の統合
    ファイルメーカーでは、データ入力者が必要に応じて簡単に新たなデータ項目を設定する事が可能です。パーソナルデータベースとしては一見快適ですが、他人が見ても、また時間を経ると自分で見てもデータ項目数が増え過ぎて収集が付かなくなります。増え過ぎた項目は、或る時点で整理して統合すべきでしょう。
  5. 印刷出力による構成
    誤字や脱字、文章の不整合はモニター上だとなかなか判り難いものです。最終的なデータの構成は印刷出力した紙で行うべきでしょう。うまくフォーマットを整えて、効率的に印刷出力できる方式を見いだす事がコツです。


著作:牧野シーボルト標本データベース作製グループ 2004年