JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック

機械学習、画像認識、形態素解析、マルコフ連鎖、ベイジアンフィルタ、 GoogleCharts、各種SNSのWebAPIアクセス、HTML解析、リンク抽出、画像抽出 他

クローラーっていう世界を知って、いろいろ知識を集めておく。

データの文字コードと変換について

HTMLの文字コードは、shift-jisやeucとかいろんなものが使われる。絵文字とかも悩ましい。
JSの場合は、utf16らしい。だから、webサイトの文字コードを判断して、utf8に都度変換することで、基本的には正しい文字列をみることができる。