Web Site 본문 추출(요약)
프로젝트 첫 번째. Web Site 본문 추출에 대한 프로젝트를 진행 하려고 합니다. 무수히 많은 Web Site에서 무작위 Crawling을 통한 웹사이트의 정보를 추출하기란 매우 어려운 일 입니다.가령 특정 사이트만을 전재로 한다면 별 어려움 없이 개발이 가능 할 수도 있겠습니다.예를 들어 java의 open LIB인 jsoup을 활용한다면, 불과 몇 줄의 코딩 만으로도 웹사이트 내용을 불러올 수 도 있겠지요. 제가 진행하려고 하는 내용은 아래와 같습니다. 1. 특정 도메인으로 한정되지 않아야 한다.2. 웹 사이트의 title, description, 대표 이미지, 본문 내용 추출3. 본문 내용은 html 태그가 포함된 내용과 텍스트 내용과 분리 추출4. 사이트 별 내용을 DB 저장 및 색인 처리 다..