テキスト化時 もしくはOCR作業においての注意点
救急関連ジャーナルのWEB化作業に当たられている皆様、ご苦労様です。 WEB化に当たってはいささか注意していただきたい事柄があります。インターネットの世界では常識とされているものもありますが、ここで再掲させていただきます。よろしくお願いいたします。 TXT化にあたっての注意点を再度確認させていただきます。

◎トピックスに関しまして、テキスト化するのは、ページの上に崩した文字で 「TOPICS」と記載のあるページのみといたします。

◎ 図や表は入れないことといたしましょう。(あまりに多すぎる)

◎「主役登場」等において、年月日、地域の特定された救急事例が掲載 されていますが、とりあえず原文どおりテキスト化してください。

機種依存文字に気をつける
  @(←丸に1の数字)  → (1)
  u(←平方メートル)  → 平方メートル
  同じく1文字になった「p」(センチメートル)や「g」(リットル)などもあります。
  U課程の時計数字は、半角ローマ字の「II 課程」
  V度熱傷も、同じく「III度」ですね。
    これらはMACでは表示されません。
    同じくMACで書かれた上記の文字は、dosV/nec98では表示されませ ん。そのほか機種依存文字に関しては下記URLをご参照ください。

http://apex.wind.co.jp/tetsuro/izonmoji/

半角カタカナは使わない。
 半角カタカナは文字化けする可能性が大です。

OCRが吐き出したテキストは要チェック
 (1)段落の全角1字下げは省かないでください。(文脈上及びHTML化作業時に重要です)
 (2)句読点「。」「、」その他カンマ、ピリオドなどに注意してください。
 (3)1ページをまるごとOCRすると、中見出しによって記事が分断される場合があり、中途で前後してしまうことがあります。
 (4)機械読み取りによる誤字チェック
   1(イチ),l(エル),I(アイ)
   ー(のばす),一(イチ),―(ハイフォン),
   人工呼吸,人エ呼吸(ジンコウコキュウ・ジンエコキュウ)
   人口・人ロ(ジンコウ・ジンロ) 開口部・開ロ部・
   そのほか 夕食・タ食(ユウショク・タショク)、ツとッ、などの小文字など。
   ボート・ボー卜(ボート・ボーウラナイ)
   100・1OO(ヒャク・イチオーオー)
   人名・地名・電話番号なども、WEBで公開されてしまうわけですので、細心の注意をはらってください。

以上、私もHTML化の段階でチェックしていますが、漏れることもありますので 皆様もご注意のほどお願い致します。
WEB管理者


ホームページへ