Apache Commons HttpClientのTips
Apache Commons HttpClient関連で自分のブログに到達している方が多いらしいので、Tipsを少々まとめておきます。
・タイムアウト
以前の記事をご参考に
・リダイレクト
リダイレクトする場合など、アクセスするURLと実際のURLが違う場合があります。
そちらの取得方法は
URI uri = method.getURI();
String url = uri.getEscapedURI();
このような感じです。
・エンコード
HttpMethodBase#getResponseCharSetにて取得可能ですが、Httpヘッダにセットされていないサイトなどではiso-8859になりますので、ここだけ見ていてはNGです。
やはり、HTMLのheadタグないのContent-Typeをパースするほうが無難です。
・HTMLコンテンツ
HttpMethodBase#getResponseBodyAsString()で文字列が取得可能です。
ただ、これもエンコードがHttpMethodBase#getResponseCharSetを見ているためサイトによっては文字化けしてしまいます。
Posted in Java |
