2007年11月26日月曜日

300万件のデータで全文検索

お仕事でやらざるを得ない状況に迫られて色々と思索を巡らせている。現在日本語での検索が可能で活動が活発、且つフリーな全文検索環境と言えば
  • namazu
  • MySQL + Senna = Tritonnプロジェクト
  • PostgreSQL + Senna = Ludia
  • Lucene + N-gram or Senna
  • MySQL + HyperEstraier(mixiはこの組み合わせみたい。ついでにHyperEstraierの開発者もmixi在職中)
くらいしかない。とりあえず手軽に試せるTritonnを30万件でテスト中。ここまで大規模なデータになるとDBチューニングの大切さを身を持って体感できる。ホント、勉強になります。

0 コメント: