Skip to content
/ MNBVC Public
forked from esbatmop/MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T网页数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

License

Notifications You must be signed in to change notification settings

zzm88/MNBVC

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

71 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集

响应符尧博士的号召,危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给AI。

中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:

在英明神武的里屋管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集

MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。

进度

目前总数据量1228.89GB,目标是达到chatGPT的40T数据,目前进度3.1%。

数据说明

压缩包密码为253874

压缩包内中文语料均清洗为txt和json(包括jsonl)格式

压缩包根目录的links.txt里有每个子文件夹数据来源的url

每个子文件夹内有一张png格式的图片,是数据来源的网页截图

收录的数据将去掉大于等于8位的数字串进行脱敏

压缩包内数据只做了粗加工,例如html&xml转txt、csv&tsv转json等

我们有一个小组负责将数据精加工成huggingface上开箱即用的语料集,但目前整个项目的算力和人力更优先用于堆量。

索引和分类

我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲,不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用,拜托大家低调的使用数据。

下载信息:

通过p2p微力同步全部压缩包并接收更新,密钥: B4K4JJK3TDGND2PBXV4IG6PNXXBPCI44UBSZZSRLIZMGM5YYWXYZBA

20221224.zip 压缩包4.57GB,原始13.45GB
百度网盘 提取码: dh2n

20221225.zip 压缩包7.53GB,原始17.68GB
百度网盘 提取码: gr63

20230101.zip 压缩包7.34GB,原始17.11GB
百度网盘 提取码: 78uq

20230102.zip 压缩包22.14GB,原始29.58GB
百度网盘 提取码: kvuz

20230103.zip 压缩包12.35GB,原始27.97GB
百度网盘 提取码: 71rj

20230104.zip 压缩包12.36GB,原始28.54GB
百度网盘 提取码: pkwy

20230105.zip 压缩包15.32GB,原始35.18GB
百度网盘 提取码: fk62

20230106.zip 压缩包8.87GB,原始19.45GB
百度网盘 提取码: upyg

20230107.zip 压缩包6.2GB,原始13.14GB
百度网盘 提取码: eape

20230108.zip 压缩包9.56GB,原始25.84GB 此包小文件众多,解压很慢
百度网盘 提取码: kywq

20230109.zip 压缩包7.63GB,原始20.84GB
百度网盘 提取码: 441t

20230110.zip 压缩包5.79GB,原始15.6GB
百度网盘 提取码: 8vf9

20230112.zip 压缩包11.26GB,原始23.92GB
百度网盘 提取码: b9sr

20230113.zip 压缩包8.21GB,原始17.54GB
百度网盘 提取码: fa49

20230114.zip 压缩包5.65GB,原始14.79GB
百度网盘 提取码: i6sd

20230115.zip 压缩包7.53GB,原始23.1GB
百度网盘 提取码: 2qnj

20230116.zip 压缩包3.29GB,原始10.81GB
百度网盘 提取码: ysqy

20230117.zip 压缩包11.71GB,原始29.54GB
百度网盘 提取码: biew

20230118.zip 压缩包11.71GB,原始31.47GB
百度网盘 提取码: x9yu

20230119.zip 压缩包11.21GB,原始31.33GB
百度网盘 提取码: xsa9

20230120.zip 压缩包12.32GB,原始31.45GB
百度网盘 提取码: kr3f

20230121.zip 压缩包13.44GB,原始32.08GB
百度网盘 提取码: 82cs

20230122.zip 压缩包12.49GB,原始29.5GB
百度网盘 提取码: bjnj

20230123.zip 压缩包11.84GB,原始28.08GB
百度网盘 提取码: issx

20230124.zip 压缩包10.57GB,原始27.16GB
百度网盘 提取码: fuyi

20230125.zip 压缩包4.41GB,原始15.42GB
百度网盘 提取码: vy5x

20230126.zip 压缩包9.12GB,原始26.44GB
百度网盘 提取码: mzte

20230127.zip 压缩包10.73GB,原始27.12GB
百度网盘 提取码: 47kr

20230128.zip 压缩包10.78GB,原始26.12GB
百度网盘 提取码: je3u

20230129.zip 压缩包13.72GB,原始31.09GB
百度网盘 提取码: isqm

20230130.zip 压缩包7.61GB,原始19.97GB
百度网盘 提取码: k8ue

20230131.zip 压缩包8.13GB,原始20.53GB
百度网盘 提取码: 79ti

20230132.zip 压缩包7.28GB,原始18.52GB
百度网盘 提取码: aabc

20230133.zip 压缩包6.95GB,原始17.54GB
百度网盘 提取码: 97dd

20230134.zip 压缩包5.20GB,原始21.87GB
百度网盘 提取码: u3fi

20230135.zip 压缩包4.57GB,原始18.55GB
百度网盘 提取码: xn2a

20230136.zip 压缩包5.16GB,原始20.94GB
百度网盘 提取码: xiwd

20230137.zip 压缩包4.99GB,原始20.39GB
百度网盘 提取码: vitu

20230138.zip 压缩包4.06GB,原始16.35GB
百度网盘 提取码: v6v6

20230139.zip 压缩包4.60GB,原始18.58GB
百度网盘 提取码: djef

20230140.zip 压缩包4.45GB,原始17.95GB
百度网盘 提取码: f3we

20230141.zip 压缩包4.59GB,原始20.41GB
百度网盘 更新中

20230142.zip 压缩包9.48GB,原始23.9GB
百度网盘 更新中

20230143.zip 压缩包12.16GB,原始27.23GB
百度网盘 更新中

20230144.zip 压缩包6.42GB,原始32.05GB
百度网盘 更新中

20230145.zip 压缩包6.41GB,原始32.03GB
百度网盘 更新中

20230146.zip 压缩包6.39GB,原始31.91GB
百度网盘 提取码: 5gkm

20230147.zip 压缩包6.40GB,原始32GB
百度网盘 更新中

20230148.zip 压缩包6.42GB,原始32.1GB
百度网盘 更新中

20230149.zip 压缩包6.40GB,原始31.91GB
百度网盘 更新中

20230150.zip 压缩包6.43GB,原始32.1GB
百度网盘 更新中

About

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T网页数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%