검색 용어S.. 용-ILE/잡다구리2008. 5. 15. 19:24
2006 10
여기 저기 짜집기 검색 용어 정리 ㅋㅋ 믿거나 말거나~~~~
용어 이름<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><?xml:namespace prefix = o /> |
설명 | |
전문 검색 |
(FTR) Full Text Retrieval |
어떤 정보의 본문 전체 내용을 색인 형태로 제공함으로써 각종 데이터를 신속 정확하게 검색할 수 있도록 지원하는 시스템 이다. |
색인 |
INDEXING |
색인이란 입력 문서를 형태소 분석하여 그 문서를 효과적으로 표현하는 색인어를 추출하는 과정이다 입력 문서를 구성하는 다양한 유형의 어절 및 문자열을 그 형태에 따라 구분하여 그 유형에 맞는 분석 방법을 선택하게 된다. |
형태소 분석 |
Morphological Analysis |
형태소분석이란 사전과 형태소 분석 문법을 이용하여 주어진 입력 문장을 최소 의미 단위인 형태소로 분리하는 과정을 말한다. |
|
|
|
웹 크롤링 |
Web Crawling |
웹 페이지들을 방문하여 모든 내용을 읽고 웹 페이지에 링크되어 있는 페이지들을 차례로 방문한다. 그리고 일정한 기간을 주기로 자신이 과거에 방문했던 웹 페이지들을 다시 방문함으로써 해당 페이지의 갱신여부를 체크하는 과정을 크롤링이라 한다. |
|
| |
공유 메모리 |
Shared Memory |
한 개의 메모리를 여러 처리장치(프로세서)가 공동으로 사용하는 형태의 기억장치 또는 다중처리(multiprocessing) 시스템을 사용할 때 여러 프로세서가 하나의 기억장치를 공유하여 사용하는 것을 의미한다. 검색 시스템은 빠른 속도의 문서 검색을 위해 색인 볼륨에 저장된 정보를 공유 메모리에 캐쉬하여 사용한다 |
유사도 |
Similarity |
검색엔진에서 검색된 각 결과 레코드에 부여한 검색 질의의 빈도수 이다. |
|
|
|
|
|
자연어 검색 |
Natural Language Searching |
일반 문장으로 입력한 내용을 형태소 분석하여 검색 결과를 얻어 온다. |
불리언 검색 |
Boolean Searching |
불리언(boolean) 연산자 AND, OR , OR(벤더사마다 다름)를 이용하여 자세하게 검색을 수행한다. AND : 해당 단어가 모두 포함된 문서를 검색 OR : 해당 단어 중 하나라도 포함하는 문서를 검색. NOT : 해당 단어 중 NOT 이하 단어를 포함하지 않는 문서를 검색 |
불용어 |
Stopword |
검색 용어로 사용하지 않는 단어. 관사, 전치사, 조사, 접속사 등 검색 색인 단어로 의미가 없는 단어 해당하는 불용어는 색인은 하지 않는다. |
유사어 검색 |
Similarity Searching |
정보 검색의 유사단어 추천 시스템은 한글 및 영어 단어에 대한 유사철자 단어를 추천하는 시스템이다. 예를 들어, "떡"이라고 검색한 경우, 보다 다양한 검색어로 "가래떡", "시루떡", "개떡" 등의 유사 철자 단어들을 추천하는 시스템이다. |
웹 로봇 |
Web Robot |
스파이더(spider) 혹은 웹크롤러(crawler)라고도 불리는 로봇은 웹에 있는 웹페이지를 방문해서 모든 내용을 읽어 온다. 이 때 한 페이지만 방문하고 마는 것이 아니라 그 페이지에 링크되어 있는 또 다른 페이지를 차례로 방문한다. 이처럼 링크를 따라 웹(web 거미줄)을 돌아다니는 모습이 마치 거미와 비슷하다고 해서 스파이더라고 부른다. |
절단 검색 |
Truncation Searching |
검색시에 입력된 문자열로 시작하는 단어는 모두 검색해 준다든가 하는 기능을 절단검색이라고 한다. 절단검색에는 검색어 뒷부분의 변화를 허용하는 우측절단을 비롯하여 앞부분의 변형을 허용하는 좌측절단 검색 등이 있다 절단 적용은 '*' (벤더사마다 다름) - 우측 절단 검색 Right-Truncation ex) 정보* 정보검색, 정보수집,정보시스템 - 좌측절단 검색 : Left-Truncation ex) *정보 시스템정보,상황정보, - 양측 절단 검색 : Both-Truncation 우측절단과 좌측절단을 함께 적용 ex) *정보* 정보화, 검색정보시스템. |
n-gram |
n-gram |
n-gram이란 입력된 문자열을 n개의 음절단위로 절단하는 방법이다. 예를 들어 "정보검색" 이란 문자열을 절단할 때. 1-gram : 정, 보, 검, 색 으로 분리 2-gram : 정보, 보검, 검색 으로 분리 3-gram : 정보검, 보검색 으로 분리 … |
첨부파일 필터 |
Document Filter |
검색엔진 색인시에 문서 데이터(pdf, doc, xls, ppt, hwp 등)를 추출하여 TEXT 형태로 변환하고 이를 색인 하여 검색에 활용할 수 있도록 한다. |
메타 검색 |
<?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" /><?xml:namespace prefix = st1 /> |
메타 검색이란 여러 검색사이트들의 검색 결과페이지를 받아와 적절히 가공하여 검색 결과를 공통 포맷으로 일반화 한 후 이를 다시 정제하여 보다 나은 검색 페이지를 제공하는 것이다. META 검색 솔루션 검색엔진은 자체적인 검색기능은 갖고 있지 않다. |
'용-ILE > 잡다구리' 카테고리의 다른 글
해당 포트 용도와 사용중인 pid 알아내기 (0) | 2008.05.15 |
---|---|
AWK 숫자 구별 ? | awk 문자열 길이 한글자 이상 (0) | 2008.05.15 |
유닉스/리눅스 아이피 정보 알아내기 (0) | 2008.05.15 |
[ VI ] vi 알면 좀 쓸만한 명령어들 .. (0) | 2008.05.15 |
rsync 와 ssh 를 이용한 파일 전송 (0) | 2008.05.15 |