Skip to content
View pfchai's full-sized avatar

Block or report pfchai

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Please don't include any personal information such as legal names or email addresses. Maximum 100 characters, markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Stars

DataSet

22 repositories

中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset)

419 45 Updated Feb 10, 2020

非常全的文言文(古文)-现代文平行语料

Python 1,163 267 Updated Apr 21, 2024

中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/模型/论文/etc

2,152 361 Updated Jan 17, 2024

Collections of Chinese NLP corpus

Python 869 208 Updated Dec 28, 2020

搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。

Jupyter Notebook 5,854 1,397 Updated Jan 29, 2019

Pytorch-NLU,一个中文文本分类、序列标注工具包,支持中文长文本、短文本的多类、多标签分类任务,支持中文命名实体识别、词性标注、分词、抽取式文本摘要等序列标注任务。 Ptorch NLU, a Chinese text classification and sequence annotation toolkit, supports multi class and multi labe…

Python 328 52 Updated Jul 18, 2024

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、…

Python 68,511 14,468 Updated May 10, 2024

医学影像数据集列表 『An Index for Medical Imaging Datasets』

2,579 359 Updated Aug 15, 2024

DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。

654 111 Updated Aug 30, 2021

📚中文突发事件语料库(Chinese Emergency Corpus)-上海大学-语义智能实验室

688 165 Updated Sep 26, 2019

中文自然语言推理与语义相似度数据集

337 75 Updated Jan 5, 2022

收集了目前为止中文领域的MRC抽取式数据集

119 14 Updated Jun 20, 2024

The official site of paper MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

Python 190 7 Updated Sep 3, 2023

Chinese Mathematical Formula Detection (MFD) Dataset 中文文档数学公式检测数据集

Python 29 2 Updated Dec 21, 2022

微博热搜榜,记录从 2020-11-24 日开始的微博热门搜索。每小时抓取一次数据,按天归档。

TypeScript 582 98 Updated Oct 21, 2024

T2Ranking: A large-scale Chinese benchmark for passage ranking.

Python 148 9 Updated Jul 3, 2023

所有小初高、大学PDF教材。

Roff 1,766 442 Updated Sep 8, 2024

知乎热搜榜,记录从 2020-11-24 日开始的知乎热搜榜单。每小时抓取一次数据,按天归档。

TypeScript 163 35 Updated Oct 21, 2024

农业知识图谱(AgriKG):农业领域的信息检索,命名实体识别,关系抽取,智能问答,辅助决策

Python 3,993 1,563 Updated Jul 19, 2024

🚁 保险行业语料库,聊天机器人

Python 1,017 345 Updated Jul 12, 2024

史上最大规模1.4亿中文知识图谱开源下载

Python 4,924 725 Updated Dec 6, 2023

A tutorial and implement of disease centered Medical knowledge graph and qa system based on it。知识图谱构建,自动问答,基于kg的自动问答。以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。

Python 6,273 2,142 Updated Aug 8, 2024