본문 바로가기

SearchEngine/Lucene3

Core Class Core Class For Indexing - IndexerWriter, Directory, Analyzer, Document, Field - Document(Fields) -> Analyzer -> IndexWriter -> Directory IndexWriter - 색인을 새로 생성하거나 기존 색인에 Document를 추가/삭제/변경하는 기능 담당 Directory - Lucene의 색인을 저장하는 공간 - Abstract Class * 저장 공간에 따라 Directory Class를 상속받아 Method로 구현 - IndexWriter Class 생성 시 Method에 Directory 지정 Analyzer - 텍스트를 단어 단위로 분리, 불필요 단어 제거 기능 담당 - Abstract Class .. 2020. 6. 23.
Lucene Application Structure * 색인(Indexing) - 원본 텍스트 분석 -> 사용자가 원하는 정보를 빠르게 찾아낼 수 있게 재구성하는 절차 검색 대상 텍스트 확보 - 문서 수집기(Crawler, Spider)를 통해 대상 문서 수집 - 문서 수집기 종류 - Solr, Nutch, Grub, Heritrix, Droids, Aperture, Google Enterprise Connector Manager Lucene 문서(Document) 생성 - 여러개의 필드로 구성(제목, 본문, 요약, 저자, 링크 등) - 문서나 필드 단위로 중요도(Boost) 값 지정 문서 텍스트 분석 - 텍스트를 토큰(Token) 단위로 분할 * Token : 사람이 눈으로 보는 단어 - 토큰 추출 작업 = 텍스트 분석 과정의 중요한 작업 색인에 문서 .. 2020. 6. 22.
About Lucene Lucene : 고성능 정보 검색(IR, Information Retrieval) 라이브러리 * IR : 문서 검색, 문서 내용 검색, 연관된 메타 정보 검색 과정 * Doug Cutting이 개발 * 2001년 9월 아파치 재단의 Jakarta 프로젝트에 합류 Licenese : Apache Software License Full-text 색인과 검색 기능 * txt, ms-office, xml, html, pdf 등 다양한 파일 색인, 검색 가능 핵심 JAR 파일 외에 추가 기능을 담당하는 여러 개의 확장 JAR 파일 존재 * 확장 모듈은 contrib 디렉토리에 존재 2020. 6. 22.