HTMLデータをプレーンテキストに変換する方法。w3mコマンドを使う。w3mはテキストベースのWebブラウザーだが、フィルターとしてHTMLからTEXTへの変換にも使える。
$ cat input.html | w3m -T text/html -dump > output.txt
w3mコマンドの引数にURLを指定することで、ネットからHTMLデータを取得してプレーンテキストに変換することもできる。1行を80文字とする例。
$ w3m -dump -cols 80 http://www.example.com/ > output.txt
入力ファイル名を指定してもよい。ついでに出力する文字コードをShift JISにする例。
$ w3m -dump -o display_charset=SJIS input.html > output.txt
w3mはMac OS X標準のコマンドではないので、MacPortsなどを使ってインストールすること。
0 件のコメント:
コメントを投稿