スクレイピング時のパースエラーについて
今回スクレイピングしたいページは複数あるのだが、それらをBeautifulSoupに食わせてみたところ、いくつかのページでパースエラーとなってしまった。中身を見てみると、対象ページに埋め込まれたjavascriptがこんなかんじになっているのが原因だった。
<script type="text/javascript"> <!-- document.write('<scr' + 'ipt type="text/javascr' + 'ipt" src="http://なにがし"></scr' + 'ipt>'); --> </script>
こちらなどで、html5libを使った対処方法が提案されてて、それを試しかけたのだが、よく考えたら、そもそも今回やろうとしている処理では、tableタグとかaタグとかに入っている内容が取りたいのであって、javascript部分は無視してよいわけだから、scriptタグで囲まれた部分を正規表現とかで除外してから、パースしてやればいいのではないだろうか。