0

ACM Portalの論文をDLした

こういう論文pdfがいっぱいあるページを見つけて http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat

extract_linksする

extract_links "http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat" | grep "dl.acm.org/ft_gateway" | xargs -n1 wget -U gesai

後ろにパラメータが付いた変なファイル名になっているので削除する
ls | ruby -lane 'res=$_.split("?")[0]; File.rename($_, res)'


別のサーバーでやったら、wgetがリダイレクト後のURLをファイル名にしてくれなかったので
hugeurlで展開してからwgetに渡した。
gem install hugeurl
extract_links "http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat" | grep "dl.acm.org/ft_gateway" | hugeurl | xargs -n1 wget -U gesai


さっき3つ同時に並列DLし続けていたらアク禁喰らってトップページ以外何も見えなくなったので、気をつけてください。

0

壁紙を7000枚集めてGyaTVに登録した

GyaTV: 壁紙まとめのまとめに登録しておいた。


壁紙まとめスレのまとめに大量の壁紙が掲載されているwebページがまとめられてたので収集した。

まずURLを渡したらaタグを抜き出すスクリプト (extract_links)を用意して


2段階pipeして画像を抜き出す

extract_links "http://queltide.com/matome/index.php?%E5%A3%81%E7%B4%99" | grep "queltide.com" -v | xargs -n1 -P10 extract_links | grep ".\(jpe\?g\|gif\|png\|bmp\)$" > wallpaper.txt