SOLR 한글 웹문서 색인을 위한 Tokenizer, Filter세팅방법
HTML로 구성된 웹문서를 색인하기 위해서는 기본적으로 HTML테그의 내용을 제거하는 필터링 작업이 필요하다. solr는 이미 HTMLStripWhitespaceTokenizerFactory라는 HTML의 테그를 제거하고 색인할 수 있는 방법을 제공한다.schema.xml파일 하지만, 위의 그림과 같이 한글의 경우에는 space단위로 token이 나누어 지기 때문에 CJKTokenizerFactory와 같은 검색결과를 얻을 수가 없다. 하여, solr 1.3에서 새롭게 추가된 NGramFilterFactory를 추가로 이용하여 ngram색인을 해보기로 하였다.schema.xml파일 CJKTokenizerFactory와 같지는 않지만 그런대로 결과는 만족!!!하지만, 영문도 ngram을 해버리기 때문에 다..