TGEA 2.0

Datasets and codes for the paper "TGEA 2.0: A Large-Scale Diagnostically Annotated Dataset with Benchmark Tasks for Text Generation of Pretrained Language Models".

Data License

Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) license. (License URL: https://creativecommons.org/licenses/by-sa/4.0/)

Quick Start

Data Preprocessing

Converting raw data to the format of each task

unzip data.zip
python data/convert_raw_data_to_benchmarks.py 
python data/convert_gec_format.py

Benchmarks

Erroneous Text Detection

sh Diagnosis_tasks/train_b1.sh

MiSEW Extraction

sh Diagnosis_tasks/train_b2.sh

Erroneous Span Location

sh Diagnosis_tasks/train_b3.sh

Error Type Classification

sh Diagnosis_tasks/train_b4.sh

Error Correction

sh Diagnosis_tasks/train_b5.sh

m2scorer is used to evaluate results of error correction.

Generation Pathology Mitigation

sh Generation_Pathology_Mitigation/train_b6.sh
python Generation_Pathology_Mitigation/evaluate.py

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
Diagnosis_tasks		Diagnosis_tasks
Generation_Pathology_Mitigation		Generation_Pathology_Mitigation
README.md		README.md
data.zip		data.zip

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TGEA 2.0

Data License

Quick Start

Data Preprocessing

Benchmarks

About

Releases

Packages

Languages

tjunlp-lab/TGEA

Folders and files

Latest commit

History

Repository files navigation

TGEA 2.0

Data License

Quick Start

Data Preprocessing

Benchmarks

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages