LIXNA / Distributed_spider_pku_java Public

forked from PkuJavaGroupCzz/Distributed_spider_pku_java

Notifications You must be signed in to change notification settings
Fork 0
Star 1

1. 主要分为三个模块,一个爬虫抓取模块,一个是数据处理模块,一个是用户模块。 2. 爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论,利用集群HADOOP抓取网页,分析得出URL集,提取特征URL 3. 网页linux脚本过滤得到原始网页,然后二次过滤得到文本,并使用分布式储存。 4. 处理模块主要是根据训练集规则一和规则二,得到分词器,然后对文本进行操作,得出训练结果。 5. 通过特征脚本得到训练结果的特征词分类,然后提取出球队模糊集和球星模糊集。 6. 过滤得到球队精确集和球星精确集,并存入MYSQL数据库。 7. 从数据库中提取球星和球队的信息进行图表分析,并动态显示WIKI信息,调入显示模块中和用户进行交换

1 star 102 forks Branches Tags Activity

Star

Notifications

LIXNA/Distributed_spider_pku_java

Branches Tags

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 71 Commits
.idea		.idea
.settings		.settings
Java大作业		Java大作业
src		src
.classpath		.classpath
.gitignore		.gitignore
.project		.project
README.md		README.md

Repository files navigation

Distributed_spider_pku_java

主要分为三个模块,一个爬虫抓取模块,一个是数据处理模块,一个是用户模块。 2. 爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论,利用集群HADOOP抓取网页,分析得出URL集,提取特征URL 3. 网页linux脚本过滤得到原始网页,然后二次过滤得到文本,并使用分布式储存。 4. 处理模块主要是根据训练集规则一和规则二,得到分词器,然后对文本进行操作,得出训练结果。 5. 通过特征脚本得到训练结果的特征词分类,然后提取出球队模糊集和球星模糊集。 6. 过滤得到球队精确集和球星精确集,并存入MYSQL数据库。 7. 从数据库中提取球星和球队的信息进行图表分析,并动态显示WIKI信息,调入显示模块中和用户进行交换

About

Releases

No releases published

Packages

No packages published

Languages

Java 100.0%

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LIXNA/Distributed_spider_pku_java

Folders and files

Latest commit

History

Repository files navigation

Distributed_spider_pku_java

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Languages

LIXNA/Distributed_spider_pku_java

Folders and files

Latest commit

History

Repository files navigation

Distributed_spider_pku_java

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages