橋本商会

10月112012

ACM Portalの論文をDLした

Category: 未分類 | Tags: extract_links | Author: shokai

こういう論文pdfがいっぱいあるページを見つけて http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat

extract_linksする

extract_links "http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat" | grep "dl.acm.org/ft_gateway" | xargs -n1 wget -U gesai

後ろにパラメータが付いた変なファイル名になっているので削除する

ls | ruby -lane 'res=$_.split("?")[0]; File.rename($_, res)'

別のサーバーでやったら、wgetがリダイレクト後のURLをファイル名にしてくれなかったので
hugeurlで展開してからwgetに渡した。

gem install hugeurl

extract_links "http://dl.acm.org/citation.cfm?id=2141512&preflayout=flat" | grep "dl.acm.org/ft_gateway" | hugeurl | xargs -n1 wget -U gesai

さっき3つ同時に並列DLし続けていたらアク禁喰らってトップページ以外何も見えなくなったので、気をつけてください。

10月112012

壁紙を7000枚集めてGyaTVに登録した

Category: 未分類 | Tags: extract_links, Ruby | Author: shokai

GyaTV: 壁紙まとめのまとめに登録しておいた。

壁紙まとめスレのまとめに大量の壁紙が掲載されているwebページがまとめられてたので収集した。

まずURLを渡したらaタグを抜き出すスクリプト (extract_links)を用意して

2段階pipeして画像を抜き出す

extract_links "http://queltide.com/matome/index.php?%E5%A3%81%E7%B4%99" | grep "queltide.com" -v | xargs -n1 -P10 extract_links | grep ".\(jpe\?g\|gif\|png\|bmp\)$" > wallpaper.txt

橋本商会

ACM Portalの論文をDLした

壁紙を7000枚集めてGyaTVに登録した

Author

Search

最近の投稿

アーカイブ