09/05/26 13:38:16 0
【続き】
bash-2.05$ wget URLリンク(www.virgin-bike.com) ← wget コマンドで対象ホームページを取得する
--12:17:42-- URLリンク(www.virgin-bike.com)
=> `index.html'
Connecting to www.virgin-bike.com:80... connected!
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
0K .......... .......... .......... ... @ 160.53 KB/s
12:17:43 (157.53 KB/s) - `index.html' saved [34520]
bash-2.05$ ls ← ダウンロードされたファイルを確認する
index.html
bash-2.05$ cat index.html | grep -e "charset" ← HTMLヘッダーの文字コード情報「charset」を確認する
<meta http-equiv="Content-Type" content="text/html; charset=euc-jp" />
~~~~~~↑~~~~~~
HTMLヘッダーの文字コード情報は「EUC-JP」が指定されている
bash-2.05$ cat index.html | nkf -g ← ダウンロードしたHTMLソース本体の文字コードを確認する
UTF-8 (CR) ← ダウンロードしたHTMLソース本体の文字コードは「UTF-8」だった
bash-2.05$
以上、長文失礼