向量数据库作为一种新兴的数据存储和检索技术，近年来受到了广泛关注。它能够高效地存储和查询高维向量数据，这使得在文本相似性搜索、推荐系统、图像检索等领域有着广泛的应用前景。

在使用向量数据库进行语义检索之前，文本是怎么一步步变成存储在向量数据库中代表语义信息的向量呢？主要有以下的几个步骤

Chunking (分块)：将长文本分割成更小的、更易于处理的片段。
Tokenization (分词)：将文本片段分解成一个个独立的词或子词（token）。
Embedding (向量化)：将每个 token 转换为一个高维的向量表示，捕捉其语义信息。
Embedding Pooling (向量池化)：将一个文本片段中所有 token 的 embedding 聚合成一个代表该片段的向量。
存储 Embedding 和 Meta 信息：将生成的向量以及相关的元数据存储到向量数据库中。

Chunk (分块)

当处理较长的文本时，直接进行 embedding 可能会遇到以下问题：

超出模型处理长度限制：许多 embedding 模型对输入文本的长度有限制。
语义关联性降低：过长的文本可能包含多个主题，导致生成的 embedding 难以准确表示特定主题。
检索效率降低：对整个长文本进行相似性搜索的效率较低。

因此，我们需要将长文本分割成更小的块（chunk）。一个简单的 chunking 方法是按照固定的字符长度进行分割。

def simple_chunk(text, chunk_size=28):
  """
  简单分块方法：按固定字符长度分割文本。
  """
  chunks = [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]
  return chunks

text = "This is an example sentence Each sentence is converted"
chunks = simple_chunk(text)
print(chunks)

但是这样会导致切分出来的chunk语义不完整等问题，可以按照下面的方案继续优化：

基于句子的分割: 使用句号、问号、感叹号等标点符号作为分割符，可以更好地保持语义完整性。可以使用 nltk 或 spaCy 等 NLP 工具库进行句子分割。
滑动窗口式分割: 为了避免信息丢失，可以采用滑动窗口的方式，让相邻的 chunk 之间存在一定的重叠。这有助于在检索时保留上下文信息。
语义分块: 更高级的方法是利用语义信息进行分块，例如识别文本中的主题或关键信息，并以此为依据进行分割。这通常需要更复杂的 NLP 技术。