姓名数 (names) | 姓的数量 (last names ) | 名的数量 (first names) | 男性数量 (M) | 女性数量 (F) | 未知性别 (Unknown) |
---|---|---|---|---|---|
3658109 | 808 | 710594 | 2054134 | 1509650 | 94325 |
由于源文件比较大,这里提供用于为语料库注音的源码。运行源码前,你必须首先将Ch-Last-Names-Dict中的两个json文件下载下来,并与源码放置于同一个文件夹下。或者,你也可以点击这里下载本语料库的三个版本(纯中文版,两个拼音版,一个有声调,另外一个没有声调)。
拼音版的姓,用我自己制作的中文姓氏注音字典标注的;而名的拼音则直接用pypinyin。分开注音的主要原因是,pypinyin对一些罕见姓氏的注音并不很准确。当然,由于某些姓氏可能有多种读音,完全正确的注音是不可能。
做拼音版的主要想法是,拼音版可以用来做英文文献中中文人名(不包括港澳台,这些地方的中文名转英文的规则不一样。)的实体识别。拼音版的全名中,姓和名都用空格隔开。
语料库来自以下两个渠道:
- 姓名大全, 贡献了2513097条语例。抓取代码/Script
- 中文人名语料库, 贡献了1145012条语例。
另外需要注意的是:
- 中文人名语料库的姓名原本不分,这里做了区分。
- 两个来源大约有三十万的重叠语例,都被删减掉了。
- 两个人如果姓名一样,但是性别不一样,在这里也当作两个不同的语例来处理。
- 本语料库的未知性别语例均来自于第二个来源,即中文人名语料库。
中文姓氏拼音字典收集了1606条中文姓氏及其拼音。其中1534条姓氏及其注音抓取自名霸百家姓,剩下的72条则见于本语料库的具体语例,并由我自己手动注音,包括:滕, 刁, 牧, 欧阳, 徐离, 傲, 宾, 博, 采, 恩, 凡, 格, 冠, 好, 昊, 浩, 荷, 恒, 鸿, 湖, 化, 基, 继, 见, 杰, 静, 菊, 俊, 卡, 科, 奎, 立, 丽, 刘付, 绿, 麦, 曼, 美, 梦, 名, 默, 沐, 娜, 乃, 尼, 日, 如, 润, 若, 上, 升, 桃, 天, 拓, 旺, 未, 溪, 夏候, 湘, 晓, 雄, 雅, 岩, 彦, 艳, 依, 远, 悦, 忠, 珠。
中文姓氏博大精深。通过构建这个姓氏注音字典,我第一次了解到有的人姓:第,第一,第三,第四,第五,第六,第七,第八...稍微以某字 + “姓“查了下百度,罕见的姓确实能罕见得超乎想象。
这里提供一段简单的代码将ccnc语料库切分成训练集,测试集和预测集。默认的切分比例为6:2:2,这个是针对全汉字版的已经切分好的压缩文件。切分两个拼音版的语料库可以如法炮制。