2013-08-08

HTMLをテキストに変換する

HTMLデータをプレーンテキストに変換する方法。w3mコマンドを使う。w3mはテキストベースのWebブラウザーだが、フィルターとしてHTMLからTEXTへの変換にも使える。

$ cat input.html | w3m -T text/html -dump > output.txt

w3mコマンドの引数にURLを指定することで、ネットからHTMLデータを取得してプレーンテキストに変換することもできる。1行を80文字とする例。

$ w3m -dump -cols 80 http://www.example.com/ > output.txt

入力ファイル名を指定してもよい。ついでに出力する文字コードをShift JISにする例。

$ w3m -dump -o display_charset=SJIS input.html > output.txt

w3mはMac OS X標準のコマンドではないので、MacPortsなどを使ってインストールすること。

2013-08-03

完了したジョブを消す方法

OS X Mountain Lionで印刷後、「完了したジョブ」リストの内容を消去しようと試みたのだが、あれ? 消せないではないか。

はて、昔(Leopardくらいまで?)は削除できていたように思うのだが……

いつまでも印刷履歴が残ってしまうのはイヤだ。

アップルに問い合わせたところ2013年8月3日時点では「GUIから削除する方法はない」そうである。

でもって消す方法だが、この完了したジョブリストは /var/spool/cups/ ディレクトリーに格納されているファイルに基づいて表示されているので、このディレクトリー内のファイルを削除してやれば表示されなくなる。

$ sudo sh -c 'rm /var/spool/cups/*'

「プリントシステムをリセット...」して消すという方法もあるが、これでは再度プリンターを登録し直さなくてはならない。