Web Site 본문 추출(요약)

프로젝트 첫 번째.

Web Site 본문 추출에 대한 프로젝트를 진행 하려고 합니다.

무수히 많은 Web Site에서 무작위 Crawling을 통한 웹사이트의 정보를 추출하기란 매우 어려운 일 입니다.

가령 특정 사이트만을 전재로 한다면 별 어려움 없이 개발이 가능 할 수도 있겠습니다.

예를 들어 java의 open LIB인 jsoup을 활용한다면, 불과 몇 줄의 코딩 만으로도 웹사이트 내용을 불러올 수 도 있겠지요.

제가 진행하려고 하는 내용은 아래와 같습니다.

1. 특정 도메인으로 한정되지 않아야 한다.

2. 웹 사이트의 title, description, 대표 이미지, 본문 내용 추출

3. 본문 내용은 html 태그가 포함된 내용과 텍스트 내용과 분리 추출

4. 사이트 별 내용을 DB 저장 및 색인 처리

다음에 올릴 내용은 에버 노트의 웹페이지 클립 기능에 대한 내용을 다뤄볼까 합니다.

IT PROGRAM & 가상화폐 SINCE 2006