2008-01-29から1日間の記事一覧

Rubyで pdf から text 抽出してみる

ところが寝る前に HMDT3版を読んでいたら RubyCocoa*1 で pdf からの text 抽出が載っていた ので、ちょっと Nature とかの pdf から text 抽出して doi を抜き出せるか試してみた。 #!/usr/bin/env ruby # # Created by mako on 2008-01-29. # What? # This…

ってどうやるの?

文献管理ソフトは、pdf ファイルの名前を pmid.pdf にするのが多そうだけど、手作業はめんどい。 => 誰か変換スクリプトを〜。 => ktkr http://www.geocities.jp/researcherinus/perl1 => うまく text 抽出できない場合がある => 自分で書けないもんだろうか…