【node.js】サーバサイドjavascript 5【Nashorn】at TECH【node.js】サーバサイドjavascript 5【Nashorn】 - 暇つぶし2ch■コピペモード□スレを通常表示□オプションモード□このスレッドのURL■項目テキスト85:デフォルトの名無しさん 18/04/04 14:38:08.10 dci/EUEW.net 参考までに。 Ruby で、Selenium WebDriver で、Chrome のHeadless mode で、 5ch をスクレイピングしたら、文字化けもせずに、テキストが取得できた ブラウザが、CP932 を自動的に、UTF-8 に変換しているのかな? driver.navigate.to "https://mao.5ch.net/test/read.cgi/linux/1479499953/8-9" element = driver.find_element(:css, 'div[data-id="8"] > div.message > span') puts "内容 :#{element.text}" 86:デフォルトの名無しさん 18/04/04 14:45:50.99 YO5zcEko.net 以前ならnodeでスクレイプはjsdomとjqueryが定番だったイメージ 最近は知らんけど 87:デフォルトの名無しさん 18/04/04 15:49:11.75 jx2XXyxV.net 最近はヘッドレスChrome使う。(puppeteerなどのラッパーを使って) seleniumと比べて挟むレイヤーが少なくて同じ以上の事ができる。 他のブラウザでやんなきゃならないときはSeleniumだね。セットアップが非常にめんどくさいけど。 次ページ最新レス表示レスジャンプ類似スレ一覧スレッドの検索話題のニュースおまかせリストオプションしおりを挟むスレッドに書込スレッドの一覧暇つぶし2ch