分词器 | Notion

概述

分词器的主要作用是将用户输入的一段文本，按照一定逻辑，分析成多个词语的一种工具。

顾名思义，文本分析就是把全文本转换成一系列单词（term/token）的过程，也叫分词。在 ES 中，Analysis 是通过分词器（Analyzer）来实现的，可使用 ES 内置的分析器或者按需定制化分析器。

举一个分词简单的例子：比如你输入 Mastering Elasticsearch，会自动帮你分成两个单词，一个是 mastering，另一个是 elasticsearch，可以看出单词也被转化成了小写的。

分词器是专门处理分词的组件，由以下三部分组成：

组成部分	描述
character filter	接收原字符流，通过添加、删除或者替换操作改变原字符流。例如：去除文本中的html标签，或者将罗马数字转换成阿拉伯数字等。一个字符过滤器可以有`零个或者多个`
tokenizer	简单的说就是将一整段文本拆分成一个个的词。例如拆分英文，通过空格能将句子拆分成一个个的词，但是对于中文来说，无法使用这种方式来实现。在一个分词器中，`有且只有一个` tokenizeer
token filters	将切分的单词添加、删除或者改变。例如将所有英文单词小写，或者将英文中的停词`a`删除等，在`token filters`中，不允许将`token(分出的词)`的`position`或者`offset`改变。同时，在一个分词器中，可以有零个或者多个`token filters`

Analyzer 三个部分的执行顺序依次为：Character Filters → Tokenizer → Token Filters。

这个顺序比较好理解：一个文本进来先对文本数据进行处理，再进行分词，最后对分词结果进行过滤。

文本分词会发生在两个地方：