달력

5

« 2024/5 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
2008. 5. 15. 19:24

검색 용어S.. 용-ILE/잡다구리2008. 5. 15. 19:24

http://suite.tistory.com/

2006 10 


여기 저기 짜집기 검색 용어 정리 ㅋㅋ 믿거나 말거나~~~~


용어 이름<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><?xml:namespace prefix = o />

설명

전문 검색

(FTR) Full Text Retrieval

어떤 정보의 본문 전체 내용을 색인 형태로 제공함으로써 각종 데이터를 신속 정확하게 검색할 수 있도록 지원하는 시스템 이다.

색인

INDEXING

색인이란 입력 문서를 형태소 분석하여 그 문서를 효과적으로 표현하는 색인어를 추출하는 과정이다 입력 문서를 구성하는 다양한 유형의 어절 및 문자열을 그 형태에 따라 구분하여 그 유형에 맞는 분석 방법을 선택하게 된다.

형태소 분석

Morphological Analysis

형태소분석이란 사전과 형태소 분석 문법을 이용하여 주어진 입력 문장을 최소 의미 단위인 형태소로 분리하는 과정을 말한다.

 

 

 

웹 크롤링

Web Crawling

웹 페이지들을 방문하여 모든 내용을 읽고 웹 페이지에 링크되어 있는 페이지들을 차례로 방문한다. 그리고 일정한 기간을 주기로 자신이 과거에 방문했던 웹 페이지들을 다시 방문함으로써 해당 페이지의 갱신여부를 체크하는 과정을 크롤링이라 한다.


 

 

공유 메모리

Shared Memory

한 개의 메모리를 여러 처리장치(프로세서)가 공동으로 사용하는 형태의 기억장치 또는 다중처리(multiprocessing) 시스템을 사용할 때 여러 프로세서가 하나의 기억장치를 공유하여 사용하는 것을 의미한다.

검색 시스템은 빠른 속도의 문서 검색을 위해 색인 볼륨에 저장된 정보를 공유 메모리에 캐쉬하여 사용한다

유사도

Similarity

검색엔진에서 검색된 각 결과 레코드에 부여한 검색 질의의 빈도수 이다.

 

 

 

 


 


































자연어 검색

Natural Language Searching

일반 문장으로 입력한 내용을 형태소 분석하여 검색 결과를 얻어 온다.

불리언 검색

Boolean Searching

불리언(boolean) 연산자 AND, OR , OR(벤더사마다 다름)를 이용하여 자세하게 검색을 수행한다.

AND : 해당 단어가 모두 포함된 문서를 검색

OR : 해당 단어 중 하나라도 포함하는 문서를 검색.

NOT : 해당 단어 중 NOT  이하 단어를 포함하지 않는 문서를 검색

불용어

Stopword

검색 용어로 사용하지 않는 단어. 관사, 전치사, 조사, 접속사 등 검색 색인 단어로 의미가 없는 단어 해당하는 불용어는 색인은 하지 않는다.

유사어 검색

Similarity Searching

정보 검색의 유사단어 추천 시스템은 한글 및 영어 단어에 대한 유사철자 단어를 추천하는 시스템이다.

예를 들어, ""이라고 검색한 경우, 보다 다양한 검색어로 "가래떡", "시루떡", "개떡" 등의 유사 철자 단어들을 추천하는 시스템이다.

웹 로봇

Web Robot

스파이더(spider) 혹은 웹크롤러(crawler)라고도 불리는 로봇은 웹에 있는 웹페이지를 방문해서 모든 내용을 읽어 온다. 이 때 한 페이지만 방문하고 마는 것이 아니라 그 페이지에 링크되어 있는 또 다른 페이지를 차례로 방문한다. 이처럼 링크를 따라 웹(web 거미줄)을 돌아다니는 모습이 마치 거미와 비슷하다고 해서 스파이더라고 부른다.

절단 검색

Truncation Searching

검색시에 입력된 문자열로 시작하는 단어는 모두 검색해 준다든가 하는 기능을 절단검색이라고 한다. 절단검색에는 검색어 뒷부분의 변화를 허용하는 우측절단을 비롯하여 앞부분의 변형을 허용하는 좌측절단 검색 등이 있다

절단 적용은 '*' (벤더사마다 다름)

- 우측 절단 검색 Right-Truncation

ex) 정보*

정보검색, 정보수집,정보시스템

- 좌측절단 검색 : Left-Truncation

ex) *정보

 시스템정보,상황정보,

- 양측 절단 검색 : Both-Truncation

우측절단과 좌측절단을 함께 적용

ex) *정보*

정보화, 검색정보시스템.













































n-gram

n-gram

n-gram이란 입력된 문자열을 n개의 음절단위로 절단하는 방법이다.

예를 들어 "정보검색" 이란 문자열을 절단할 때.

1-gram : , , , 색 으로 분리

2-gram : 정보, 보검, 검색 으로 분리

3-gram : 정보검, 보검색 으로 분리

첨부파일 필터

Document Filter

검색엔진 색인시에 문서 데이터(pdf, doc, xls, ppt, hwp )를 추출하여 TEXT 형태로 변환하고 이를 색인 하여 검색에 활용할 수 있도록 한다.

메타 검색

<?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" /><?xml:namespace prefix = st1 />Meta Searching

메타 검색이란 여러 검색사이트들의 검색 결과페이지를 받아와 적절히 가공하여 검색 결과를 공통 포맷으로 일반화 한 후 이를 다시 정제하여 보다 나은 검색 페이지를 제공하는 것이다. META 검색 솔루션 검색엔진은 자체적인 검색기능은 갖고 있지 않다.


 

:
Posted by mastar