Ruby 初心者スレッド Part 19

Ruby 初心者スレッド Part 19at TECH

Ruby 初心者スレッド Part 19 - 暇つぶし2ch924:デフォルトの名無しさん
08/06/22 16:36:28
めんどくさいなあ

>>916
どうして例外が起こったかはわかる？
残念だけど、Web のスクレイピングは文字通り例外との戦いだぞ
サイトごとに調整しなければならないと思ってくれていい
HTML や HTTP の知識はあるかな？
たとえば以下の方法だと 142 のリンクが抽出されてるけど、本当に必要なのは数個だろ？

require 'rubygems'
require 'hpricot'
require 'open-uri'

uri = URI.parse('URLﾘﾝｸ(www.ruby-lang.org)')
doc = Hpricot.parse(uri.read)
puts doc.search('a').map{|e| e['href']}.compact.map{|e| uri + e}.find_all{|e| e.scheme =~ /\Ahttp/}.uniq

次ページ

続きを表示

1を表示