“Tidy”でHTML添削・変換

勉強になるリンク

本家(開発者)サイト
オープンソース化にともない、ダウンロードはSourceForgeに移ったようですが、ここにはかなり詳細な解説があるようです(英語だからちゃんと読んでない)。
開発・最新版のダウンロード
最新ベータ版(?)のダウンロードは、ちょっと見つけにくいかもしれないけど、“Documentation”の見出しの上にある“Here are the builds for〜”のところ。
あさだたくやさんによる本家サイト邦訳
Tidyの使い方やオプションは、ここを見るととりあえずわかります。でも古いので、最新の機能については触れられていないようです。
清水 和佳さんによる本家サイト邦訳
あさたくさんのより比較的新しい。
sugakenさんによる解説
ドラッグ&ドラッグでTidyを動かす“tidycover”を公開されています。
hidetoさんの“XHTML化計画”
TidyをGUIで使うためのソフト“TidyGUI”の使い方が書いてあります。

Tidyで複数のファイルを一度にXHTMLに変換する

コマンドプロンプトで
C:\tidy\Tidy.exe -asxml -iso2022 -m *.html
tidy [[options] filename] オプションの一例 -f 以外の一文字のオプションは、他と組み合わせて使うことができる。 例:tidy -errs.txt -imu foo.html 詳しくは tidy -help | more

オプション一覧(helpの超訳)

原文を置いておくので、間違いに突っ込んだり嘲笑ったりしてください。

C:\TIDY\TIDY.EXE [option...] [file...] [option...] [file...]
Utility to clean up and pretty print HTML/XHTML/XML
see http://tidy.sourgeforge.net/
(俺註:typo発見。正しいURLはhttp://tidy.sourceforge.net/)

HTML Tidy 2003年2月1日版のオプション

ファイル操作
-----------------
  -out or -o <file> 変換した内容を <file> に出力
  -config <file>    <file> の設定を使用
  -f      <file>    エラーの内容を <file> に書く
  -modify or -m     入力ファイルを書き換える

Processing directives
---------------------
  -indent  or -i    エレメントの内容をインデントする
  -wrap <column>    <column>で改行(デフォルトでは68バイト)
  -upper   or -u    タグを大文字にする(デフォルトでは小文字)
  -clean   or -c    FONT, NOBR, CENTER タグを CSS に置き換える
  -bare    or -b    smart quotes and em dashes なんかはそのまま
  -numeric or -n    名づけられたエンティティを数字に置き換える
  -errors  or -e    エラー表示のみ
  -quiet   or -q    suppress nonessential output
  -omit    or -o    省略可能な終了タグを省く
  -xml              XML を入力する際に指定
  -asxml            HTML を XHTML に変換
  -asxhtml          HTML を XHTML に変換
  -ashtml           XHTML を HTML に変換
  -access <level>   アクセシビリティのチェックをする (<level> = 1, 2, 3)

Character encodings
-------------------
  -raw              128 以上の文字は出力時に変換しない
  -ascii            ISO-8859-1 のファイルを ASCII で出力
  -latin0           ISO-8859-1 のファイルを ASCII で出力
(俺註:ちょっと意図が分からない。もしかして記述ミス?)
  -latin1           入出力ともに ISO-8859-1
  -iso2022          入出力ともに ISO-2022
  -utf8             入出力ともに UTF-8
  -mac              MacRoman のファイルを US-ASCII で出力
  -win1252          Windows-1252 のファイルを US-ASCII で出力
  -ibm858           IBM-858 (CP850+Euro) のファイルを US-ASCII で出力
  -utf16le          入出力ともに UTF-16LE
  -utf16be          入出力ともに UTF-16BE
  -utf16            入出力ともに UTF-16
  -win1252          Windows-1252 のファイルを US-ASCII で出力
  -big5             入出力ともにBig5
  -shiftjis         入出力ともに Shift_JIS
  -language   その他2バイト文字の利用をで設定(未実装)

Miscellaneous
-------------
  -version  or -v   バージョンを見る
  -help, -h or -?   コマンドラインのオプション一覧(俺註:この一覧を表示)
  -help-config      設定ファイルの一覧表示
  -show-config      現在使われている設定の一覧表示

Use --blah blarg for any configuration option "blah" with argument "blarg"

入/出力のデフォルトは、標準入力/標準出力です。
-f 以外の1文字のオプションは組み合わせて使うことができます。
例:tidy -f errs.txt -imu foo.html
(俺註:この場合だと、「foo.html をインデントあり、オリジナルの書き換え、
 タグ大文字で添削、エラーの内容を errs.txt に書き込む」となる)
HTML についての詳細は http://www.w3.org/MarkUp を見てね。
更新:2003-02-11
先人の知恵をコージが拝借しました。