본문으로 바로가기

IT PROGRAM & 가상화폐 SINCE 2006

현재위치 :: HOME BLOG CATEGORY SEARCH ARCHIVE TAGS MEDIA LOCATION GUESTBOOK

네비게이션

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록
관리자
  • 블로그 이미지
    영진은정아빠

    프로그래밍 언어 관련 지식 & 가상화폐 관련 내용 공유 블로그 입니다.

    링크추가
  • 글쓰기
  • 환경설정
  • 로그인
  • 로그아웃

형태소 검색 결과

해당 글 1건

SOLR 한글 웹문서 색인을 위한 Tokenizer, Filter세팅방법

HTML로 구성된 웹문서를 색인하기 위해서는 기본적으로 HTML테그의 내용을 제거하는 필터링 작업이 필요하다. solr는 이미 HTMLStripWhitespaceTokenizerFactory라는 HTML의 테그를 제거하고 색인할 수 있는 방법을 제공한다.schema.xml파일 하지만, 위의 그림과 같이 한글의 경우에는 space단위로 token이 나누어 지기 때문에 CJKTokenizerFactory와 같은 검색결과를 얻을 수가 없다. 하여, solr 1.3에서 새롭게 추가된 NGramFilterFactory를 추가로 이용하여 ngram색인을 해보기로 하였다.schema.xml파일 CJKTokenizerFactory와 같지는 않지만 그런대로 결과는 만족!!!하지만, 영문도 ngram을 해버리기 때문에 다..

색인/Apache Solr 2017. 10. 24. 11:45
  • 이전
  • 1
  • 다음

사이드바

반응형

NOTICE

  • 전체 보기
MORE+

CATEGORY

  • 분류 전체보기 (32)
    • 가상화폐 (2)
    • JAVA (9)
      • Spring (1)
    • JAVASCRIPT (2)
      • Node.js (2)
    • WEB Scraping(Crawling) (1)
    • 색인 (3)
      • Apache Solr (3)
    • WAS (3)
      • Apache Tomcat (3)
    • 인터넷 전화기 (2)
    • Tool (1)
      • Eclipse (1)
    • DBMS (3)
      • MySQL (2)
      • MongoDB (1)
    • 안드로이드 (0)
    • 웹 보안 (CC인증) (1)

RECENTLY

  • 최근 글
  • 최근 댓글

최근 글

최근댓글

Trackback

  • 홈으로
  • 방명록
  • 로그인
  • 로그아웃
  • 맨위로
SKIN BY COPYCATZ COPYRIGHT IT PROGRAM & 가상화폐 SINCE 2006, ALL RIGHT RESERVED.
IT PROGRAM & 가상화폐 SINCE 2006
블로그 이미지 영진은정아빠 님의 블로그
MENU
  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록
CATEGORY
  • 분류 전체보기 (32)
    • 가상화폐 (2)
    • JAVA (9)
      • Spring (1)
    • JAVASCRIPT (2)
      • Node.js (2)
    • WEB Scraping(Crawling) (1)
    • 색인 (3)
      • Apache Solr (3)
    • WAS (3)
      • Apache Tomcat (3)
    • 인터넷 전화기 (2)
    • Tool (1)
      • Eclipse (1)
    • DBMS (3)
      • MySQL (2)
      • MongoDB (1)
    • 안드로이드 (0)
    • 웹 보안 (CC인증) (1)
VISITOR 오늘 / 전체
  • 글쓰기
  • 환경설정
  • 로그인
  • 로그아웃
  • 취소

검색

티스토리툴바