kunishou/oasst2-135k-jaの日本語訳テキストを手作業で修正するためのアプリです。
python 3.12.2で動作確認しています。
# create virtural environment (first time only)
$ python3 -m venv env
$ source env/bin/activate
# install dependencies (first time only)
(env) $ pip install -U pip setuptools
(env) $ pip install -r requirements.txt
# start the annotation app
(env) $ streamlit run annotation_app.py --browser.serverAddress localhost
編集したデータはedited_data_flat.jsonに保存されます。変更は自動で保存されませんので、忘れずにSave thread
ボタンを押すようにしてください。
アプリに表示されるデータは事前にkunishou/oasst2-135k-jaから、品質の低いデータを取り除いたのものみを使っています。翻訳元のoasst2あるlabelsのデータを使って品質の低いデータをフィルタリングしています。詳しくはこちらのnotebookを参照してください。