2013-08-08

HTMLをテキストに変換する

HTMLデータをプレーンテキストに変換する方法。w3mコマンドを使う。w3mはテキストベースのWebブラウザーだが、フィルターとしてHTMLからTEXTへの変換にも使える。

$ cat input.html | w3m -T text/html -dump > output.txt

w3mコマンドの引数にURLを指定することで、ネットからHTMLデータを取得してプレーンテキストに変換することもできる。1行を80文字とする例。

$ w3m -dump -cols 80 http://www.example.com/ > output.txt

入力ファイル名を指定してもよい。ついでに出力する文字コードをShift JISにする例。

$ w3m -dump -o display_charset=SJIS input.html > output.txt

w3mはMac OS X標準のコマンドではないので、MacPortsなどを使ってインストールすること。

0 件のコメント:

コメントを投稿