- ~~百度~~
- Bing
- Google
- ~~百度百科~~
- Wikipedia
- 知网
- Google Scholar
- Semantic Scholar
魏则西
-v-
### 搜索引擎的原理
- 分词 (Tokenization)
- 去除停用词 (Stop Words)
- 倒排索引
- 排序 (PageRank 等)
> To be or not to be, that is the question
-v-
### 搜索引擎的原理
> 为我出于该课程的教学目的,用 Python 实现一个简单的搜索引擎的前半部分(输入查询文本,包含 Tokenization 与 Stop Words 去除流程,输出处理后的 list),供我演示搜索引擎的基本原理。简洁明了为主,不必添加冗长的注释与异常处理,可以使用你想使用的任何库(例如 jieba 等)。
GPT-5: `preprocess.py`
-v-
### 分词
- 如何在 Python 中读取文件
- Python 读取文件
- Python read file