Lucene3.1 メモその6 – 日本語のドキュメントを検索する

基本その6，日本語の検索

Luceneで日本語を検索するにはsenのJapaneseAnalyzerを使えば良い、という情報を良く見かけます。
が、JapaneseAnalyzerは最近メンテナンスされていないようで、mavenizeもLucene3.1対応も行われていないみたいです。
最後のコミットは2006年でした。

日本語にはとりあえずCJKAnalyzerを使うと良いみたい。CJKAnalyzerはlucene-coreには入っていなくて、lucene-analyzers artifactに入っています。

試してみたらStandardAnalyzerでも一応検索はできました。
本当に「一応」みたい↓
・2006年02月22日の記事 | 関口宏司のLuceneブログ

インデックスのサイズは大きくなりそうだけどNGramTokenizerというのを使うとより柔軟に検索できるようになるみたいです。
・NGramTokenizerとEdgeNGramTokenFilter | 関口宏司のLuceneブログ

    @Test
    public void index() throws Exception {
        RAMDirectory directory = new RAMDirectory();
        Analyzer analyzer = new CJKAnalyzer(Version.LUCENE_31);

        IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_31, analyzer);
        IndexWriter writer = new IndexWriter(directory, iwc);

        Document doc = new Document();
        doc.add(new Field("str_field", "quick brown fox jumped over the lazy dog.",
                Field.Store.YES, Field.Index.ANALYZED));
        writer.addDocument(doc);
        Document doc2 = new Document();
        doc2.add(new Field("str_field", "貴社の記者が汽車で帰社した",
                Field.Store.YES, Field.Index.ANALYZED));
        writer.addDocument(doc2);
        writer.close();
        IndexSearcher searcher = new IndexSearcher(directory, true);
        QueryParser parser = new QueryParser(Version.LUCENE_31, "str_field", analyzer);
        TopDocs td = searcher.search(parser.parse("記者"), 1000);
        assertThat(td.totalHits, is(1));
        searcher.close();
        directory.close();
    }

すぐ試せるmavenベースのソースコードはここに置いてあります。
Lucene3.1、JUnit4.8を使っています。

[amazonjs asin=”4774127809″ locale=”JP” tmpl=”Small”]

[amazonjs asin=”4774141755″ locale=”JP” tmpl=”Small”]

yusuke.blog

プログラムと、ゲームと、諸々と

Lucene3.1 メモその6 – 日本語のドキュメントを検索する

関連