Information Retrieval - Pangyoalto Blog

Sign in Subscribe

Information Retrieval

A collection of 9 posts

How Do Search Engines Handle Case-Insensitive Search?

How Do Search Engines Handle Case-Insensitive Search?

What Does "Same Character" Mean? When building a search engine, you quickly realize that the concept of "same character" is far from simple. Should a search for `cafe` also find documents containing `café`? In most cases, yes. Should a search for `ＡＢＣ` (full-width characters) also return

검색 엔진은 어떻게 대소문자 구분 없이 검색할까?

Information Retrieval

검색 엔진은 어떻게 대소문자 구분 없이 검색할까?

"같은 문자"란 무엇인가? 검색 엔진을 만들다 보면 "같은 문자"라는 개념이 생각보다 단순하지 않다는 사실을 깨닫게 된다. 사용자가 `cafe`를 검색했을 때 `café`가 포함된 문서도 찾아야 할까? 대부분의 경우 그래야 한다. `ＡＢＣ`(전각 문자)를 검색했을 때 `ABC`(반각 문자)가 포함된 문서도 나와야

[논문 리뷰] HNSW를 위한 벡터 압축 방식 - Flash

[논문 리뷰] HNSW를 위한 벡터 압축 방식 - Flash

이 글은 논문 Accelerating Graph Indexing for ANNS on Modern CPUs 을 리뷰합니다. 이번 논문은 HNSW 및 Product Quantization을 알고 있어야 이해하기 편합니다. 블로그에서 이미 다룬 적이 있으니, 익숙하지 않으신 분들은 아래 글을 먼저 읽고 오시는 것을 추천합니다. 벡터 검색 알고리즘 살펴보기(1): Similarity Search와 HNSW벡터 검색 알고리즘 살펴보기(2)

[Paper review] Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations

[Paper review] Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations

The paper we'll be discussing, Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations, was one of papers which won the Best Papers Award at SIGIR 2024. This paper proposed an algorithm that performs vector searches in the inverted index solution often used in traditional search engines,

[논문 리뷰] 효율적인 sparse 벡터 검색을 위한 새로운 역색인 구조

Information Retrieval

[논문 리뷰] 효율적인 sparse 벡터 검색을 위한 새로운 역색인 구조

이번에 다룰 논문인 Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations 는 SIGIR 2024에서 Best Papers에 선정된 논문 중 하나입니다. 벡터 검색에서 자주 사용되는 그래프 방식이 아닌 기존 전통적인 검색 엔진에서 자주 사용되는 역색인 방식으로 벡터 검색을 하는 알고리즘을 제안합니다. 들어가며 검색은 사용자의 질의에 가장 적합한 문서들을 가져오는

벡터 검색 알고리즘 살펴보기(2): HNSW, SPANN

Information Retrieval

벡터 검색 알고리즘 살펴보기(2): HNSW, SPANN

벡터 검색 알고리즘 중 HNSW와 SPANN에 대해 알아봅니다. 들어가며 이전 “Similarity Search와 HNSW”라는 글에서 Voronoi diagram, Product Quantization, HNSW에 대해 간단히 다뤄보았다. 해당 글에서 HNSW을 자세히 다루지 못하였고 다른 ANN 알고리즘과 비교를 하지 못하여 아쉬웠었다. 이번 글은 현재 가장 많이 쓰이는 벡터 검색 알고리즘 HNSW(2016)을 살펴보고 Microsoft에서

RAG의 짧은 역사 훑어보기(첫 논문부터 최근 동향까지)

RAG의 짧은 역사 훑어보기(첫 논문부터 최근 동향까지)

[요약] * RAG는 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(2020)에서 처음 등장하였고 모델과 Retriever을 학습시키는데 사용되었다. * 최근 RAG는 모델의 학습이 아닌 모델의 Inference 성능을 레버리지하기 위해 주로 사용되고 있다. * RAG는 문서를 어떻게 잘 검색해서 가져오고 LLM에 잘 넘겨주는지 중요하다. * RAG를 도와주는 구글의 Vertex AI는 문서 검색에 벡터 검색뿐만 아니라 전통적인

벡터 검색 알고리즘 살펴보기(1): Similarity Search와 HNSW

Information Retrieval

벡터 검색 알고리즘 살펴보기(1): Similarity Search와 HNSW

벡터 검색 알고리즘 살펴보기(2): HNSW, SPANN 도 같이 읽으시면 이해하는데 HNSW를 이해할 때 도움이 됩니다. [요약] 1. FAISS는 similarity search를 도와주는 Facebook에서 만든 라이브러리다. 2. Voronoi diagram은 데이터 셋을 region으로 나누어 벡터 검색 인덱스를 만들 수 있다. 3. Product Quantization은 데이터 벡터를 압축하여 스토리지를 아낄 수 있다. Voronoi diagram과

[논문 리뷰] ColBERT, ColBERTv2

[논문 리뷰] ColBERT, ColBERTv2

[요약] ‌1. IR의 랭킹 방법은 BM25가 널리 쓰이고 있지만 2016년부터 Neural Network를 사용한 랭킹 방법들이 등장하기 시작했다. 2. Neural IR은 대체로 높은 MRR을 보여주었지만 계산이 비싸다는 단점이 있었다. 특히 BERT는 월등한 MRR을 보이지만 서비스에 적용하기에 너무 느리다. 3. ColBERT는 BERT보다 약간 모자란 MRR을 보이지만 훨씬 빠른 성능을 보여주었다. 4. ColBERTv2는