GitHub.com に検索エンジンのソースコードを追加しました。
まだ N-gram ベースのプログラムしかありませんが、おいおい他のテクノロジーベースのエンジンも収録していきたいと思っています。
詳細はそのうちホームページに記述したいと思いますが、プログラムは以下のような構成になっています。
- scayping.py: トップページを指定するとその下にある全てのページを取得し、検索用の3つのファイルを作ります。(ただし、ブログは収録しないようになっています。)
- search.php: 検索エンジンのラッパーで、UI を与えるためのプログラムです。
- search_engine.php: 検索エンジンの本体で、bi-gram による検索を実行します。
なお、前の記事にも書いたとおり、まだ And/Or 検索条件が書けません。