GitHub - jaaack-wang/ccnc: CCNC: A Comprehensive Chinese Name Corpus (3.65M name samples). 大型中文姓名语料库 (内含365万姓名语例)。

基本数据 (Basic statistics)

姓名数 (names)	姓的数量 (last names )	名的数量 (first names)	男性数量 (M)	女性数量 (F)	未知性别 (Unknown)
3658109	808	710594	2054134	1509650	94325

样图：

拼音版 (Pinyin Version)

由于源文件比较大，这里提供用于为语料库注音的源码。运行源码前，你必须首先将Ch-Last-Names-Dict中的两个json文件下载下来，并与源码放置于同一个文件夹下。或者，你也可以点击这里下载本语料库的三个版本（纯中文版，两个拼音版，一个有声调，另外一个没有声调)。

拼音版的姓，用我自己制作的中文姓氏注音字典标注的；而名的拼音则直接用pypinyin。分开注音的主要原因是，pypinyin对一些罕见姓氏的注音并不很准确。当然，由于某些姓氏可能有多种读音，完全正确的注音是不可能。

做拼音版的主要想法是，拼音版可以用来做英文文献中中文人名(不包括港澳台，这些地方的中文名转英文的规则不一样。)的实体识别。拼音版的全名中，姓和名都用空格隔开。

来源 (Sources)

语料库来自以下两个渠道:

姓名大全, 贡献了2513097条语例。抓取代码/Script
中文人名语料库, 贡献了1145012条语例。

另外需要注意的是：

中文人名语料库的姓名原本不分，这里做了区分。
两个来源大约有三十万的重叠语例，都被删减掉了。
两个人如果姓名一样，但是性别不一样，在这里也当作两个不同的语例来处理。
本语料库的未知性别语例均来自于第二个来源，即中文人名语料库。

中文姓氏注音字典 (Romanized Chinese Last Names Dictionary)

中文姓氏拼音字典收集了1606条中文姓氏及其拼音。其中1534条姓氏及其注音抓取自名霸百家姓，剩下的72条则见于本语料库的具体语例，并由我自己手动注音，包括：滕, 刁, 牧, 欧阳, 徐离, 傲, 宾, 博, 采, 恩, 凡, 格, 冠, 好, 昊, 浩, 荷, 恒, 鸿, 湖, 化, 基, 继, 见, 杰, 静, 菊, 俊, 卡, 科, 奎, 立, 丽, 刘付, 绿, 麦, 曼, 美, 梦, 名, 默, 沐, 娜, 乃, 尼, 日, 如, 润, 若, 上, 升, 桃, 天, 拓, 旺, 未, 溪, 夏候, 湘, 晓, 雄, 雅, 岩, 彦, 艳, 依, 远, 悦, 忠, 珠。

中文姓氏博大精深。通过构建这个姓氏注音字典，我第一次了解到有的人姓：第，第一，第三，第四，第五，第六，第七，第八...稍微以某字 + “姓“查了下百度，罕见的姓确实能罕见得超乎想象。

训练集/测试集/预测集 (train/dev/test set)

这里提供一段简单的代码将ccnc语料库切分成训练集，测试集和预测集。默认的切分比例为6:2:2，这个是针对全汉字版的已经切分好的压缩文件。切分两个拼音版的语料库可以如法炮制。

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
Ch-Last-Names-Dict		Ch-Last-Names-Dict
Scripts		Scripts
LICENSE		LICENSE
README.md		README.md
README_EN.md		README_EN.md
ccnc.txt.zip		ccnc.txt.zip
sample_img_ch.png		sample_img_ch.png
sample_img_en.png		sample_img_en.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

基本数据 (Basic statistics)

拼音版 (Pinyin Version)

来源 (Sources)

中文姓氏注音字典 (Romanized Chinese Last Names Dictionary)

训练集/测试集/预测集 (train/dev/test set)

About

Releases

Packages

Languages

License

jaaack-wang/ccnc

Folders and files

Latest commit

History

Repository files navigation

基本数据 (Basic statistics)

拼音版 (Pinyin Version)

来源 (Sources)

中文姓氏注音字典 (Romanized Chinese Last Names Dictionary)

训练集/测试集/预测集 (train/dev/test set)

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages