Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

IceFlameWorm/NLP_Datasets

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

4 Commits

Repository files navigation

中文NLP数据集

这是一个各类中文NLP数据集的集合,旨在把各种不同用途的中文语料收集起来,方便自己以及亲们使用^_^。

已收录数据集

ATEC语义相似度学习赛数据集

比赛链接:https://dc.cloud.alipay.com/index#/topic/ranking?id=8
数据集类型:语义相似度
保存目录:ATEC

CCKS 2018 微众银行智能客服问句匹配大赛数据集

比赛链接:https://biendata.com/competition/CCKS2018_3/leaderboard/
数据集类型:语义相似度
保存目录:CCKS_2018_3

ATEC + CCKS 2018 组合数据集

由于ATEC比赛和CCKS 2018比赛提供的语料都是互金客服场景下的语料,所以把两个数据集的语料合并到了一起,基于分层抽样划分了出了训练集、验证集和测试集,其中:

  • 训练集、验证集和测试集的正类比例均为34%左右
  • 训练集:约24W样本
  • 验证集:1W样本
  • 测试集:1W样本

数据集类型:语义相似度
保存目录:ATEC_CCKS

哈工大BQ_corpus数据集

数据集地址:http://icrc.hitsz.edu.cn/info/1037/1162.htm
数据集类型:语义相似度
保存目录:BQ_corpus

哈工大LCQMC数据集

数据集地址:http://icrc.hitsz.edu.cn/Article/show/171.html
数据集类型:语义相似度
保存目录:LCQMC

About

中文NLP数据集

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

AltStyle によって変換されたページ (->オリジナル) /