Lucene Application Structure
* 색인(Indexing) - 원본 텍스트 분석 -> 사용자가 원하는 정보를 빠르게 찾아낼 수 있게 재구성하는 절차 검색 대상 텍스트 확보 - 문서 수집기(Crawler, Spider)를 통해 대상 문서 수집 - 문서 수집기 종류 - Solr, Nutch, Grub, Heritrix, Droids, Aperture, Google Enterprise Connector Manager Lucene 문서(Document) 생성 - 여러개의 필드로 구성(제목, 본문, 요약, 저자, 링크 등) - 문서나 필드 단위로 중요도(Boost) 값 지정 문서 텍스트 분석 - 텍스트를 토큰(Token) 단위로 분할 * Token : 사람이 눈으로 보는 단어 - 토큰 추출 작업 = 텍스트 분석 과정의 중요한 작업 색인에 문서 ..
2020. 6. 22.