5

いかにしておっぱい画像をダウンロードするか〜2012 をRubyで書いた

元ネタ:いかにしておっぱい画像をダウンロードするか〜2012 – ゆーすけべー日記


昔、yusukebeさんとは大学で同じ研究室だった。
俺がまともにプログラムを書けるようになったのは、研究室に入った時に新入生向けのyusukebeサブゼミに入って、Flashで実装されたRSSリーダーのソースコードを見せてもらったあたりがきっかけだった気がする。

俺も高校生が(Rubyで)プログラミングをはじめるきっかけになりたいので、Ruby版を作ってみました。
Rubyもこういうwebクローラーを作るのに向いている言語だし、最近のMacなんかには最初からインストールされているので試してみると良いよ。


まずjson gemをインストールする。

sudo gem install json


oppai.rb
#!/usr/bin/env ruby
require 'rubygems'
require 'open-uri'
require 'json'
require 'digest/md5'
require 'uri'
require 'kconv'

APP_ID = '' ## https://ssl.bing.com/webmaster/developers/appids.aspx から取得
API_URI = 'http://api.bing.net/json.aspx'

out_dir = './data'
Dir.mkdir out_dir unless File.exists? out_dir

page_count = 0
dl_count = 0

loop do
params = {
:AppId => APP_ID,
:Version => 2.2,
:Market => 'ja-JP',
:Sources => 'Image',
'Image.Count' => 50,
'Image.Offset' => page_count * 50,
:Adult => 'off',
:Query => 'おっぱい'
}

url = API_URI + '?' + params.map{|k,v| "#{URI.encode k.to_s}=#{URI.encode v.to_s}"}.join('&')
data = JSON.parse open(url).read.toutf8

data['SearchResponse']['Image']['Results'].each do |entry|
next unless entry['MediaUrl'] =~ /\.jpe?g$/i
dl_count += 1
fname = Digest::MD5.hexdigest(entry['MediaUrl'])+'.jpg'
fpath = "#{out_dir}/#{fname}"
next if File.exists? fpath

puts "#{dl_count} : Download... #{entry['MediaUrl']}"
img = open(URI.encode entry['MediaUrl']) rescue next
img.close
next unless img.content_type =~ /^image\/.+/i
next if img.path.to_s.size < 1
File.rename(img.path, fpath)
end
page_count += 1
end



並列ダウンロード版。parallelを使って10並列ダウンロードする。

gem install parallel


oppai_paralle.rb
#!/usr/bin/env ruby
require 'rubygems'
require 'open-uri'
require 'json'
require 'digest/md5'
require 'uri'
require 'kconv'
require 'parallel'

APP_ID = '' ## https://ssl.bing.com/webmaster/developers/appids.aspx から取得
API_URI = 'http://api.bing.net/json.aspx'

out_dir = './data'
Dir.mkdir out_dir unless File.exists? out_dir

page_count = 0
dl_count = 0

loop do
params = {
:AppId => APP_ID,
:Version => 2.2,
:Market => 'ja-JP',
:Sources => 'Image',
'Image.Count' => 50,
'Image.Offset' => page_count * 50,
:Adult => 'off',
:Query => 'おっぱい'
}

url = API_URI + '?' + params.map{|k,v| "#{URI.encode k.to_s}=#{URI.encode v.to_s}"}.join('&')
data = JSON.parse open(url).read.toutf8

Parallel.each(data['SearchResponse']['Image']['Results'], :in_threads => 10) do |entry|
next unless entry['MediaUrl'] =~ /\.jpe?g$/i
dl_count += 1
fname = Digest::MD5.hexdigest(entry['MediaUrl'])+'.jpg'
fpath = "#{out_dir}/#{fname}"
next if File.exists? fpath

puts "#{dl_count} : Download... #{entry['MediaUrl']}"
img = open(URI.encode entry['MediaUrl']) rescue next
img.close
next unless img.content_type =~ /^image\/.+/i
next if img.path.to_s.size < 1
File.rename(img.path, fpath)
end
page_count += 1
end

0

webページを印刷できるようにキャプチャしてPDFファイルにまとめる

webkit2pngを使うとwebページをキャプチャして画像にできるので、さらにImageMagickでA4サイズでの印刷用に加工してpdfjamで1つのPDFファイルにまとめるようにしてみた。
こんなpdfができる

■準備
必要なツールをhomebrewとrubygemsでインストールする

brew install webkit2png imagemagick pdfjam
gem install ArgsParser


■キャプチャする
ruby capture_webpage.rb -url http://shokai.org/blog -out tmp/shokai-blog.pdf

–landscapeオプションを付けるとA4横長ページにできる。

■コード
capture_webpage.rb
#!/usr/bin/env ruby
## capture webpage and make PDF
## brew install webkit2png imagemagick pdfjam

require 'rubygems'
require 'ArgsParser'
require 'FileUtils'

parser = ArgsParser.parser
parser.bind(:help, :h, 'show help')
parser.comment(:url, 'URL')
parser.bind(:width, :w, 'page width', 1200)
parser.comment(:landscape, 'landscape layout', false)
parser.bind(:out, :o, 'output file', 'out.pdf')
first, params = parser.parse(ARGV)

if parser.has_option(:help) or !parser.has_params([:url])
puts parser.help
puts "e.g. ruby #{$0} -url http://shokai.org/blog/ -out shokai-blog.pdf"
exit 1
end

tmp_fname = "#{Time.now.to_i}_#{Time.now.usec}"
tmp_dname = File.dirname(params[:out])+'/'+tmp_fname

FileUtils.mkdir_p(tmp_dname) unless File.exists? tmp_dname
puts cmd = "webkit2png --dir '#{tmp_dname}' -o #{tmp_fname} -F -W #{params[:width].to_i} '#{params[:url]}'"
system cmd

unless png = Dir.glob("#{tmp_dname}/#{tmp_fname}*-full.png")[0]
STDERR.puts "capture failed"
exit 1
end

x,y = `identify '#{png}'`.split(/\s/).select{|i|
i =~ /^\d+x\d+$/
}.first.split('x').map{|i| i.to_i}

w = x
h = params[:landscape] ? (w/1.41).to_i : (w*1.41).to_i

parts = 0.upto(y/h).map{|i|
fname = "#{tmp_dname}/#{i}.png"
puts cmd = "convert -crop #{w}x#{h}+0+#{h*i} '#{png}' '#{fname}'"
system cmd
fname
}

scape = params[:landscape] ? 'landscape' : 'no-landscape'
puts cmd = "pdfjam --#{scape} --outfile '#{params[:out]}' --pdftitle '#{params[:url]}' #{parts.join(' ')}"
system cmd

Dir.glob("#{tmp_dname}/*").each{|f|
File.delete f
}
Dir.rmdir tmp_dname



PDFならlprとlpstatコマンドで印刷できるので、URLを入力したら目の前のプリンタからでてくるとかできる。

0

地震のデータを取得する

最近地震の悪夢を見たので地震のデータを取ってみることにした。

気象庁のページで日付をURLで指定してデータが取れるので、Rubyの配列で震源地名、緯度経度、時刻、震源の深さ、マグニチュードを返すやつを作った


quake.rb

require 'rubygems'
require 'open-uri'
require 'kconv'
require 'date'

class Quake
def self.get(date=Date.today-1)
url = "http://www.seisvol.kishou.go.jp/eq/daily_map/japan/#{date.to_s.gsub('-','')}_list.shtml"
page = open(url).read.toutf8
page.scan(/<pre>(.+)<\/pre>/im).first.first.split(/[\r\n]/).map{|i|
i.strip
}.delete_if{|i|!(i =~ /^\d+/)}.map{|i|
tmp = i.split(/[^\d\.]+/)
{
:place => i.split(/\s+/).last,
:time => Time.mktime(tmp.shift.to_i, tmp.shift.to_i, tmp.shift.to_i, tmp.shift.to_i, tmp.shift.to_i, tmp.shift.to_i),
:lat => tmp.shift.to_i+tmp.shift.to_f/60,
:lon => tmp.shift.to_i+tmp.shift.to_f/60,
:depth => tmp.shift.to_i,
:magnitude => tmp.shift.to_f
}
}
end
end

if $0 == __FILE__
## ruby -Ku quake.rb
## ruby -Ku quake.rb 20120102

date = ARGV.empty? ? Date.today-1 : Date.parse(ARGV.shift)
p Quake.get(date)
end


結果


とりあえず毎日、地震データを蓄積してみよう。そのうち解析する。

0

githubのリポジトリ数が100超えた

去年のゴールデンウィークの増井研合宿でgithubの使い方を山プルギス氏に教えてもらってから18ヶ月、ついに公開リポジトリ数が100個に達した。


ぜんぜんgithub上で他人のプロジェクトに首を突っ込んだりしていなかったので、100個のうちほぼ全てが自分で開始したプロジェクトという事になる。だいたい週1つのペースでリポジトリが増えていったわけか


100個目のプロジェクトは、notify-lightだった。
これは家の電灯が点いているかどうかを明るさのセンサーで監視して、Skypeのshokai_botというアカウントが俺に通知してくれるシステム。便利である。防犯的な意味で。
60行ぐらいのRubyスクリプト1ファイルだけで実装されている。


botからSkypeのグループチャットでこういうのが来る。


センサーを使うのもSkypeへの通知も、すでに便利なツールが作ってあって全部HTTPでできる。
ruby notify-light.rb -light http://localhost:8783/ -skype http://localhost:8787/
という風に実行すればセンサーを定期的に監視してSkypeに送信できる。


■しくみ
CdSという明るさが検出できるセンサーをArduino等に適当に接続し、シリアル通信してMacやLinuxに送る。
serial-http-gatewayというプロジェクトを以前作ってあるので、これを使うとシリアルポートから受信したデータを溜めてjson形式で吐き出すHTTPサーバーが作れる。


読んだjsonにはタイムスタンプとセンサーの値(明るさが)入っているので、一定時間内の平均値を計算してノイズを消し、Skypeに通知する。

Skypeへの通知は先日作ったskype-chat-gatewayというのを使っている。
1年ぐらい前にskype-socket-gatewayというのを作ったけどwindows用だったのでもう使わなくなったし、socketよりもhttpから使えたほうが便利なのと、chat_idという概念がわかりにくいので1チャット1プロセス1portが対応するように作りなおした。
また、MacとLinuxでSkype APIを使う仕組みが違うので、それぞれ別々に実装した。

Linux版はまだちょっと微妙なんだけど、Mac版は出来がよくてWebブラウザからSkype Chatができるサーバーとかも付いているので便利です。

0

Rubyでcometサーバー作る

最近cometとかいう最新技術が流行っているらしいので、eventmachine_httpserverで作ってみた。


ここにサーバーとクライアントの例がある。どっちも50行ぐらいで実装できた。
comet at master from shokai/eventmachine-study – GitHub

サーバー起動して、タイムアウトを10秒に指定。
このサーバーは、POSTされた値を保持して、GETされたら返す。GETに対してはレスポンスを遅らせて返す。

ruby server.rb 8080 10


クライアントを起動。GETしてから25秒後にPOST
ruby client.rb 25
GET(comet) -> wait 25 sec -> POST
* GET
sleep 25 sec
404 ## 10秒経過、切断された

* GET ## 再接続
404

* GET ## 3回目
* POST kazusuke
POST success
200
kazusuke
200 ## 5秒待ってようやく値が返ってきた
kazusuke
* GET

サーバー側のログはこんなんなってた
http server start, port:8080, comet_timeout:10(sec)
load: 2.20 cmd: ruby 11481 waiting 0.45u 0.32s
request_method : GET
path_info : /message
query_str :
post_content :
request_method : GET
path_info : /message
query_str :
post_content :
request_method : POST
path_info : /message
query_str :
post_content : kazusuke
kazusuke
request_method : GET
path_info : /message
query_str :
post_content :

cometサーバー、接続が不安定なクライアントにpush通知するのに便利。