Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

data_release.jsonl 里有一些数据有问题 #25

Open
Zbaoli opened this issue Apr 10, 2024 · 0 comments
Open

data_release.jsonl 里有一些数据有问题 #25

Zbaoli opened this issue Apr 10, 2024 · 0 comments

Comments

@Zbaoli
Copy link

Zbaoli commented Apr 10, 2024

用 datasets 加载数据,输出第一个样本,下面的是输出:

{'question_id': 1, 'category': '专业能力', 'subcategory': '音乐', 'question': '高音单簧管和高音萨克斯的调性相同吗?如果相同,请说出他们的调性,如果不同,请分别说出他们的调性', 'reference': '高音单簧管和高
音萨克斯的调性不同。高音单簧管的调性通常为E♭,而高音萨克斯的调性则为B♭。\n', '29': None, '295': None, '352': None, '633': None, '638': None, '640': None, '643': None, '670': None, '675': None, '398': None
, '423': None, '425': None, '433': None, '434': None, '458': None, '460': None, '531': None}

因为发现多了很多 None 值,所以进一步分析了文件,发现这些这些数字加一的行号对应的样本都有问题,例如这是第 296 行的样本,里面多了一个 295 的 key 值,value 值是第 295 行的样本:

{"question_id": 296, "category": "基本任务", "subcategory": "信息抽取", "question": "根据文本回答我的几个问题,然后把你的答案包装成一个json返回给我。问题1:A银行是一家什么样的公司?问题2:A银行成立于几几年?问题3:给A银行写一个标语文本:A银行自2001年成立之日起,就将自己定位为“银行联合信息中心”,一直以来持续而专注于银行的经营管理和经济领域的金融需求,旨在帮助银行“了解自己的客户及客户的业务”,为银行业提供全方位优质的信息和咨询服务。经过十年的磨砺,铸就了今天的辉煌。十年来,A银行全面致力于推动中国银行改革与管理创新发展。从开展市场调研和项目评估的咨询,到全面参与银行战略变革方案的设计与实施,从协助部分银行开展贷后风险信息监测,到对上百家银行提供市场营销和风险管理咨询服务,A银行以其领先的技术,卓越的服务,始终走在银行信息和咨询服务的前列。A银行目前拥有全职研究与咨询人员160余人,其中95%的分析师具有硕士以上学位。公司每年定期出版各类研究报告200多种,长期服务的客户包括国内外700多家银行。A银行形成了独具特色的银行市场监测、客户定位、产品研发、人才培养和网络服务体系。你的 json:", "reference": " {  \n  \"question1\": \"A银行是一家银行信息和咨询服务公司,定位为'银行联合信息中心',专注于银行的经营管理和经济领域的金融需求。\",  \n  \"question2\": \"A银行成立于 2001 年。\",  \n  \"question3\": \"A银行的标语可以是:'致力于推动中国银行改革与管理创新发展'。\"  \n}", "295": {"question_id": 296, "category": "基本任务", "subcategory": "信息抽取", "question": "根据文本回答我的几个问题,然后把你的答案包装成一个json返回给我。问题1:公司A是一家什么样的公司问题2:公司A成立于几几年?问题3:给公司A写一个标语文本:公司A自2001年成立之日起,就将自己定位为“银行联合信息中心”,一直以来持续而专注于银行的经营管理和经济领域的金融需求,旨在帮助银行“了解自己的客户及客户的业务”,为银行业提供全方位优质的信息和咨询服务。经过十年的磨砺,铸就了今天的辉煌。十年来,公司A全面致力于推动中国银行改革与管理创新发展。从开展市场调研和项目评估的咨询,到全面参与银行战略变革方案的设计与实施,从协助部分银行开展贷后风险信息监测,到对上百家银行提供市场营销和风险管理咨询服务,公司A以其领先的技术,卓越的服务,始终走在银行信息和咨询服务的前列。公司A目前拥有全职研究与咨询人员160余人,其中95%的分析师具有硕士以上学位。公司每年定期出版各类研究报告200多种,长期服务的客户包括国内外700多家银行。公司A形成了独具特色的银行市场监测、客户定位、产品研发、人才培养和网络服务体系。你的 json:", "reference": " {  \n  \"question1\": \"公司A是一家银行信息和咨询服务公司,专注于银行的经营管理和经济领域的金融需求。\",  \n  \"question2\": \"公司A成立于 2001 年。\",  \n  \"question3\": \"公司A的标语可以是:'致力于推动中国银行改革与管理创新发展'。\"  \n}"}}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant