10月112012
0
ACM Portalの論文をDLした
Category: 未分類 | Tags: extract_links | Author: shokai
こういう論文pdfがいっぱいあるページを見つけて http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat
extract_linksする
extract_links "http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat" | grep "dl.acm.org/ft_gateway" | xargs -n1 wget -U gesai
後ろにパラメータが付いた変なファイル名になっているので削除する
ls | ruby -lane 'res=$_.split("?")[0]; File.rename($_, res)'
別のサーバーでやったら、wgetがリダイレクト後のURLをファイル名にしてくれなかったので
hugeurlで展開してからwgetに渡した。
gem install hugeurl
extract_links "http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat" | grep "dl.acm.org/ft_gateway" | hugeurl | xargs -n1 wget -U gesai
さっき3つ同時に並列DLし続けていたらアク禁喰らってトップページ以外何も見えなくなったので、気をつけてください。