Guide for Vectorizing Content for Internal Search & Analytics | Notion

1. Preprocessing & Chunking

Text cleaning:

Strip HTML tags, remove special characters, normalize whitespace.
Chunking:

Divide texts into coherent chunks of approximately 100-400 words. Overlap slightly (~50 words) for context continuity.

2. Vector Embedding Generation

Use advanced embedding models such as:
- OpenAI embeddings (e.g., text-embedding-3-large)
- Cohere Embed v3
- SentenceTransformers (open-source option) (e.g., all-MiniLM-L6-v2)
Generate embeddings via API or locally using GPU inference:

# Example: OpenAI embeddings API call
import openai

response = openai.embeddings.create(
    input=["chunk of text"],
    model="text-embedding-3-large"
)
embedding_vector = response.data[0].embedding

3. Database Storage & Retrieval

Use a dedicated vector database for storage and querying:
- Weaviate
- Pinecone
- Chroma
- Qdrant
- FAISS (local/offline usage)
Recommended storage schema:

{
  "id": "unique_chunk_id",
  "metadata": {
    "title": "Article Title",
    "url": "https://...",
    "date": "YYYY-MM-DD",
    "chunk_number": 3
  },
  "vector": [0.123, -0.456, ...],
  "text": "The actual chunk text for reference"
}

4. Semantic Search Implementation

Queries converted into embeddings:

query_embedding = model.encode("demographic trends 2025")

Vector database similarity search: