Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

bruceren8/Mini-Search-Engine

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

5 Commits

Repository files navigation

Mini-Search-Engine

迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。

关键技术

###1.网络爬虫爬网页 从配置文件中读取初始url 将初始url存入一个用于广度遍历的队列中 开始广度优先遍历队列 对每个出队的url提取需要的信息(怎么解析HTML) 对从网页中爬取到的每一个url判断是否重复,若不重复则入列。(怎么url去重) ###2.初始化系统 从配置文件中读系统信息,例如服务器ip、端口号、页面文件位置、停用词文件位置等。 ###3.建索引 在网页库中每找到一个查询词同时得到偏移量,存入索引文件中。 ###4.网页去重并存于内存中 用top10和特征码LCS两种方法实现,在内存中的结果集:<query, <docid,offset> > ###5.网页文本聚类 K-means算法 ###6.提供查询服务

About

迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

AltStyle によって変換されたページ (->オリジナル) /