今更クローラを C で組みたくないな、と思い始めた。
XML と違って HTML は独特の書き方をするサイトもあるので、結構クローリングは大変なのである。N-gram を収容するファイルのフォーマットは大体決まったので、python か何かのクローリングライブラリを使おうかと思う。
明日は仕事が休みらしいので、ヒマがあれば片付けてしまおう。
気ままな技術者生活から人生について考える
今更クローラを C で組みたくないな、と思い始めた。
XML と違って HTML は独特の書き方をするサイトもあるので、結構クローリングは大変なのである。N-gram を収容するファイルのフォーマットは大体決まったので、python か何かのクローリングライブラリを使おうかと思う。
明日は仕事が休みらしいので、ヒマがあれば片付けてしまおう。
“検索エンジン(2)” への1件の返信