Skip to content
This repository has been archived by the owner on Jul 6, 2023. It is now read-only.

cawandmilk/gas

Folders and files

NameName
Last commit message
Last commit date

Latest commit

ย 

History

47 Commits
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 

Repository files navigation

KoBART Summarization for DACON Competition

๋ณธ ์ €์žฅ์†Œ๋Š” ํ•œ๊ตญ๊ฐ€์Šค๊ณต์‚ฌ์—์„œ ์ฃผ์ตœ ๋ฐ ์ฃผ๊ด€ํ•˜๊ณ , ๋ฐ์ด์ฝ˜์—์„œ ์šด์˜ํ•˜๋Š” ๊ฐ€์Šคใƒป์—๋„ˆ์ง€๋ถ„์•ผ ๋ฌธ์„œ์š”์•ฝ ๋ชจ๋ธ๊ฐœ๋ฐœ ๊ฒฝ์ง„๋Œ€ํšŒ์— ์ฐธ์—ฌํ•œ ์ด์•ผ๊ธฐ์—ฐ๊ตฌ์†Œ ์ฃผ์‹ํšŒ์‚ฌํŒ€์˜ ๊ฒฐ๊ณผ ๋ฐœํ‘œ ์ž๋ฃŒ์ž…๋‹ˆ๋‹ค. SKT-AI์—์„œ ๋ฐฐํฌํ•œ KoBART PLM์— ๋Œ€ํ•ด, AI Hub์—์„œ ์ œ๊ณตํ•˜๋Š” ๋ฌธ์„œ์š”์•ฝ ํ…์ŠคํŠธ์˜ ์‹ ๋ฌธ๊ธฐ์‚ฌ ์•ฝ 30๋งŒ๊ฑด์œผ๋กœ Fine Tuning์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ฒฝ์ง„๋Œ€ํšŒ๊ฐ„ ์ˆ˜ํ–‰ ๋‚ด์šฉ์„ ๋ณธ ์ €์žฅ์†Œ๋ฅผ ํ†ตํ•ด ๊ณต์œ ํ•˜๋Š” ์ฃผ์š” ๋ชฉ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • ๊ฒฝ์ง„๋Œ€ํšŒ 1์ฐจํ‰๊ฐ€ ์ œ์ถœ
  • ๋Œ€ํšŒ์—์„œ ์ˆ˜ํ–‰ํ•œ ์‹คํ—˜ ๊ณผ์ • ๋ฐ ๊ฒฐ๊ณผ์˜ ์‹ ๋ขฐ์„ฑ ํ•จ์–‘
  • ์ž๋ฃŒ ๋ฐ ์ฝ”๋“œ์˜ ํˆฌ๋ช…ํ•œ ๊ณต์œ ๋ฅผ ํ†ตํ•ด ๊ด€๋ จ ๋ถ„์•ผ์— ๋Œ€ํ•œ ์‹ ์ง„ ์—ฐ๊ตฌ์ž๋“ค์˜ ์ ‘๊ทผ ์žฅ๋ฒฝ ์™„ํ™”

๊ฒฝ์ง„๋Œ€ํšŒ ๊ฐ„ ์ง„ํ–‰ํ–ˆ๋˜ ์„ธ๋ถ€์ ์ธ ๋‚ด์šฉ์€ 2์ฐจ ํ‰๊ฐ€ ๋ฐœํ‘œ์ž๋ฃŒ์—์„œ ํ™•์ธํ•˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Preliminary

Github ์ €์žฅ์†Œ๋ฅผ ๋‚ด๋ ค๋ฐ›์•„ ๊ด€๋ จ๋œ ์ฝ”๋“œ๋ฅผ ์ค€๋น„ํ•ฉ๋‹ˆ๋‹ค.

$ git clone https://github.com/cawandmilk/gas.git
$ cd gas

์ดํ›„, ํŒŒ์ด์ฌ ๊ฐ€์ƒ ํ™˜๊ฒฝ์„ ๋งŒ๋“ค๊ณ , ํ•„์š”ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์„ค์น˜ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ๋ณธ์ ์œผ๋กœ, ์‚ฌ์šฉ์ž๋Š” Python 3.8 ์ด์ƒ์˜ ๋ฒ„์ „์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

$ python -m venv venv
$ source ./venv/bin/activate
$ pip install -r rquirements.txt

Prepare Dataset

๋ณธ ์ €์žฅ์†Œ์—์„œ ํ›ˆ๋ จ ๋ฐ ๊ฒ€์ฆ์šฉ์œผ๋กœ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ์„ธํŠธ๋Š” ๊ณผํ•™๊ธฐ์ˆ ์ •๋ณดํ†ต์‹ ๋ถ€๊ฐ€ ์ฃผ๊ด€ํ•˜๊ณ  ํ•œ๊ตญ์ง€๋Šฅ์ •๋ณด์‚ฌํšŒ์ง„ํฅ์›์ด ์ง€์›ํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์‚ฌ์—…์œผ๋กœ ๊ตฌ์ถ•๋œ ๋ฐ์ดํ„ฐ๋กœ, ์ €์ž‘๊ถŒ ๋ฐ ๊ด€๋ จ ์ด์šฉ์ •์ฑ…์— ๋”ฐ๋ผ ๊ฐœ์ธ์ด ์ž„์˜๋กœ ๋ฐฐํฌํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘ ๊ณต์‹ ํ™ˆํŽ˜์ด์ง€์—์„œ ์Šน์ธ์„ ๋ฐ›์•„ ํŒŒ์ผ์„ ๋‚ด๋ ค๋ฐ›๊ณ , ์••์ถ•์„ ํ•ด์ œํ•˜๋Š” ๊ณผ์ •์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

ํ‰๊ฐ€์šฉ ๋ฐ์ดํ„ฐ๋Š” ๋ฐ์ด์ฝ˜ ๊ฒฝ์ง„๋Œ€ํšŒ ํ™ˆํŽ˜์ด์ง€์—์„œ ๋ฐ›์•˜์ง€๋งŒ, ๋Œ€ํšŒ ๊ทœ์น™์ƒ ๊ณต์‹์ ์ธ ์ฐธ์—ฌ์ž๊ฐ€ ์•„๋‹Œ ๊ฒฝ์šฐ ๋‹ค์šด๋กœ๋“œ๊ฐ€ ์ œํ•œ๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์••์ถ• ํ•ด์ œ๋˜์–ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.

$ tree ./data
./data
โ””โ”€โ”€ [  52]  raw
    โ”œโ”€โ”€ [  94]  Test
    โ”‚   โ”œโ”€โ”€ [129K]  new_sample_submission.csv
    โ”‚   โ”œโ”€โ”€ [ 21M]  new_test_.json
    โ”‚   โ”œโ”€โ”€ [ 34M]  new_test.jsonl
    โ”‚   โ””โ”€โ”€ [  53]  old
    โ”‚       โ”œโ”€โ”€ [ 81K]  sample_submission.csv
    โ”‚       โ””โ”€โ”€ [ 19M]  test.jsonl
    โ”œโ”€โ”€ [ 231]  Training
    โ”‚   โ”œโ”€โ”€ [ 90M]  ๋ฒ•๋ฅ _train_original.json
    โ”‚   โ”œโ”€โ”€ [346M]  ์‚ฌ์„ค์žก์ง€_train_original.json
    โ”‚   โ”œโ”€โ”€ [1.2G]  ์‹ ๋ฌธ๊ธฐ์‚ฌ_train_original.json
    โ”‚   โ”œโ”€โ”€ [ 18M]  ๋ฒ•๋ฅ _train_original.zip
    โ”‚   โ”œโ”€โ”€ [ 83M]  ์‚ฌ์„ค์žก์ง€_train_original.zip
    โ”‚   โ””โ”€โ”€ [296M]  ์‹ ๋ฌธ๊ธฐ์‚ฌ_train_original.zip
    โ””โ”€โ”€ [ 231]  Validation
        โ”œโ”€โ”€ [8.5M]  ๋ฒ•๋ฅ _valid_original.json
        โ”œโ”€โ”€ [ 35M]  ์‚ฌ์„ค์žก์ง€_valid_original.json
        โ”œโ”€โ”€ [140M]  ์‹ ๋ฌธ๊ธฐ์‚ฌ_valid_original.json
        โ”œโ”€โ”€ [1.6M]  ๋ฒ•๋ฅ _valid_original.zip
        โ”œโ”€โ”€ [7.9M]  ์‚ฌ์„ค์žก์ง€_valid_original.zip
        โ””โ”€โ”€ [ 34M]  ์‹ ๋ฌธ๊ธฐ์‚ฌ_valid_original.zip

5 directories, 17 files

Preprocess

๋ชจ๋ธ์— ๋ถ€์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ์ผ๋ถ€ ํ…์ŠคํŠธ์— ๋Œ€ํ•œ ์ •์ œ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋ชจ๋ธ์— ๋ถ€์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๋“ค์€ ์–ด๋””๊นŒ์ง€๋‚˜ ๊ฐœ๋ฐœ์ž์˜ ์ฃผ๊ด€์— ์˜์กดํ•˜๋ฏ€๋กœ, ๊ทธ ๋ฒ”์œ„๋ฅผ ์ ์ ˆํžˆ ์กฐ์ •ํ•ด๊ฐ€๋ฉฐ ์—ฌ๋Ÿฌ ๋ฒˆ ํ›ˆ๋ จ์„ ์ง„ํ–‰ํ•ด์•ผ ํ•  ํ•„์š”์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ€๋ น, ์•„๋ž˜์™€ ๊ฐ™์€ ๋‚ด์šฉ์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ผ๋ถ€ ๊ธฐ์‚ฌ์—์„œ๋Š”, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ด‘๊ณ  ๋ฌธ๊ตฌ๋“ค์ด ๊ธฐ์‚ฌ ๋งˆ์ง€๋ง‰์— ์ถ”๊ฐ€๋˜์–ด ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

    • <"id": "350912775", "media_name": "๋ถ€์‚ฐ์ผ๋ณด">
      • โ–ถ ๋„ค์ด๋ฒ„์—์„œ ๋ถ€์‚ฐ์ผ๋ณด ๊ตฌ๋…ํ•˜๊ธฐ ํด๋ฆญ!
      • โ–ถ ๋ถ€์‚ฐ์ผ๋ณด ๊ตฌ๋…ํ•˜๊ณ  ์Šคํƒ€๋ฒ…์Šค Get ํ•˜์ž!
    • <"id": "329454903", "media_name": "์ด๋ฐ์ผ๋ฆฌ">
      • ๋„ค์ด๋ฒ„์—์„œ ์ด๋ฐ์ผ๋ฆฌ [๊ตฌ๋…ํ•˜๊ธฐโ–ถ]
      • ๋นก์นจํ•ด์†Œ! ์ฒญ์ถ˜๋‰˜์šฐ์Šค~ [์Šค๋ƒ…ํƒ€์ž„โ–ถ]
  • ์ผ๋ถ€ ์–ธ๋ก ์‚ฌ์—์„œ๋Š”, ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์–ธ๋ก ์‚ฌ์— ์ข…์†์ ์ธ ๋ฌธ๊ตฌ๊ฐ€ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค.

    • <"media_name": "์ถฉ์ฒญ์ผ๋ณด">
      • ์˜จ๋ผ์ธ์ถฉ์ฒญ์ผ๋ณด
    • <"media_name": "์ค‘๋ถ€์ผ๋ณด">
      • ์—ฐํ•ฉ
    • <"media_name": "์ „๋‚จ์ผ๋ณด">
      • ๋‰ด์‹œ์Šค
      • ํŽธ์ง‘์—๋””ํ„ฐ
  • ์ƒ๋‹น์ˆ˜์˜ ๊ธฐ์‚ฌ์—์„œ๋Š”, ๊ธฐ์ž ์ •๋ณด(์ด๋ฆ„, ์ด๋ฉ”์ผ์ฃผ์†Œ)๋ฅผ ํฌํ•จํ•˜์—ฌ ๋‹ค๋Ÿ‰์˜ ๊ฐœ์ธ์ •๋ณด๊ฐ€ ํ˜ผ์žฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ์ฝ”๋“œ์—์„œ๋Š”, ๋ชจ๋“  ์‹ ๋ฌธ ๊ธฐ์‚ฌ์— ์ ์šฉ๋˜๋Š” ๊ณตํ†ต์ ์ธ ์ „์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ• ๋ฐ media_name์— ์ข…์†์ ์ธ ์„ธ๋ถ€ ์ „์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์„ ๊ตฌํ˜„ ๋ฐ ์ ์šฉํ•˜์˜€์œผ๋‚˜, ๊ทธ ์„ฑ๋Šฅ์ด ์ค€์ˆ˜ํ•˜์ง€ ์•Š์•„ ์ตœ์ข…์ ์œผ๋กœ๋Š” ๋ฐ˜๋“œ์‹œ ํ•„์š”ํ•œ ์ „์ฒ˜๋ฆฌ๋งŒ ํฌํ•จ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, ์•„๋ž˜ ๋‚ด์šฉ์ด ์ •๊ทœํ‘œํ˜„์‹(regular expression)์„ ์ด์šฉํ•˜์—ฌ ์ ์šฉํ•จ์œผ๋กœ์จ ๋ฏผ๊ฐ์ •๋ณด ์ด์Šˆ๊ฐ€ ๋ฐœ์ƒํ•˜์ง€ ์•Š๊ฒŒ ๋…ธ๋ ฅํ•˜์˜€์ง€๋งŒ ์‹ค์ œ ์„ฑ๋Šฅ(rouge score)์ด ์ข‹์ง€ ์•Š์•„ ์ตœ์ข…์ ์œผ๋กœ๋Š” ์ ์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ตฌํ˜„ ๋‚ด์šฉ๋“ค์€ ์—ฌ๊ธฐ์—์„œ ํ™•์ธ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์ž ์ด๋ฉ”์ผ์„ ํŒŒ์‹ฑํ•˜์—ฌ ํ•ด๋‹น ์ค„(line)์— ํฌํ•จ๋˜์–ด ์žˆ๋Š” ๊ธฐ์ž ์ •๋ณด๊นŒ์ง€ ๊ฐ™์ด ์‚ญ์ œ
  • ์›น ํŽ˜์ด์ง€ ๋งํฌ(URL) ์ œ๊ฑฐ
  • ์ „ํ™”๋ฒˆํ˜ธ ์ œ๊ฑฐ (์ง€์—ญ๋ฒˆํ˜ธ, ํœด๋Œ€ํฐ๋ฒˆํ˜ธ ๋ชจ๋‘ ํฌํ•จ)

์ดํ›„ Dataloader ๊ตฌ์„ฑ์„ ์œ„ํ•ด ํ›ˆ๋ จ, ๊ฒ€์ฆ, ํ‰๊ฐ€์šฉ tsv ํŒŒ์ผ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ํŠน๋ณ„ํžˆ tsv ํŒŒ์ผ๋กœ ๋งŒ๋“œ๋Š” ์ฃผ์š” ์ด์œ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • ๋‹ค์ˆ˜์˜ ๋ฌธ์žฅ์ด ํ•˜๋‚˜์˜ ์ž…๋ ฅ์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ฌธ์„œ ์š”์•ฝ ํ…Œ์Šคํฌ์˜ ํŠน์„ฑ์ƒ ์ฝค๋งˆ(,)๋ฅผ ๊ตฌ๋ถ„์ž๋กœ ํ•˜๋Š” csv ํŒŒ์ผ์€ ์ ์ ˆํ•˜์ง€ ์•Š๋‹ค๊ณ  ํŒ๋‹จ
  • ์ถ”ํ›„ pandas.DataFrame๋กœ tsv ํŒŒ์ผ์„ ํ˜ธ์ถœํ•จ์œผ๋กœ์จ ์ž…๋ ฅ(text) ๋ฐ ์ถœ๋ ฅ(summary) ์Œ์ด ์–ด๊ธ‹๋‚˜์ง€ ์•Š์Œ์„ ๋ณด์žฅ
  • ๋ฌธ์„œ ์š”์•ฝ์„ ์œ„ํ•œ ํƒ€ ์ €์žฅ์†Œ์™€์˜ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ ํ˜ธํ™˜์„ฑ ์œ ์ง€
(venv) $ python preprocess.py \
    --raw_train ./data/raw/Training \
    --raw_valid ./data/raw/Validation \
    --raw_test ./data/raw/Test

์ „์ฒ˜๋ฆฌ๋œ ๋ฐ์ดํ„ฐ๋“ค์€ ์•„๋ž˜ ๋ช…๋ น์–ด๋ฅผ ํ†ตํ•ด ํ™•์ธํ•˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

$ wc -l ./data/*.tsv
     6597 ./data/test.tsv
   271086 ./data/train.tsv
    30123 ./data/valid.tsv
   307806 total

Training

ํ›ˆ๋ จ ๊ณผ์ •์€ HuggingFace์˜ Seq2SeqTrainingArguments ๋ฐ Trainer์™€ PyTorch๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ตฌํ˜„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์•„๋ž˜์™€ ๊ฐ™์€ ๋ช…๋ น์–ด๋กœ ํ›ˆ๋ จ์„ ์ง„ํ–‰ํ•˜์‹ค ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ธ์ž์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ์„ค๋ช…์€ ๋‹ค์Œ์„ ์ฐธ๊ณ ํ•ด์ฃผ์„ธ์š”.

(venv) $ python finetune_plm_hftrainer.py \
    --train ./data/train.tsv \
    --valid ./data/valid.tsv \
    --pretrained_model_name gogamza/kobart-base-v1 \
    --per_replica_batch_size 16 \
    --lr 5e-5 \
    --weight_decay 1e-2 \
    --gradient_accumulation_steps 8 \
    --n_epochs 10 \
    --model_fpath model

์‚ฌ์šฉ์ž๋Š” ์ž์‹ ์˜ ์ปดํ“จํ„ฐ ๋ฐ GPU ์‚ฌ์–‘์— ๋งž๊ฒŒ per_replica_batch_size์™€ epoch ์ˆ˜๋ฅผ ์ ์ ˆํ•˜๊ฒŒ ์กฐ์ •ํ•ด์ฃผ์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค. HuggingFace์˜ Trainer๋Š” ํ˜„์ œ ์‹œ์Šคํ…œ์—์‚ฌ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  GPU๋ฅผ ๋Œ์–ด๋‹ค๊ฐ€ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์—, GPU๊ฐ€ 2๊ฐœ ์ด์ƒ์ด๋ผ๋ฉด ์ž๋™์œผ๋กœ ๋ถ„์‚ฐ(distributed) ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ Mixed Precision Policy (=Automatic Mixed Precision)๊ฐ€ ์ ์šฉ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฐ„ ๋ฐœ์ƒ๋˜๋Š” ๋กœ๊ทธ๋Š” ๊ธฐ๋ณธ๊ฐ’์œผ๋กœ ./logs/{CURRENT_DATETIME}์—, ์ฒดํฌํฌ์ธํŠธ๋Š” ./ckpt/{CURRENT_DATETIME}์— ์ €์žฅ๋˜์–ด ์žˆ์œผ๋ฉฐ, ํ•™์Šต์ด ์ข…๋ฃŒ๋œ ์ดํ›„ ๊ฐ€์žฅ ์ข‹์•˜๋˜ latest model์„ ์ž๋™์œผ๋กœ ./ckpt/{CURRENT_DATETIME}/{MODEL_FPATH}.pth๋กœ ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. ํ•ด๋‹น ํŒŒ์ผ์—๋Š” ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜ ๊ฐ’(key=bart), configuration ํŒŒ์ผ(key=config), ํ† ํฌ๋‚˜์ด์ €(key=tokenizer)๊ฐ€ ๊ฐ™์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋‹จ์˜ ์ €์žฅ ์˜ˆ์‹œ๋ฅผ ํ™•์ธํ•ด์ฃผ์„ธ์š”.

torch.save({
    "bart": trainer.model.state_dict(),
    "config": config,
    "tokenizer": tokenizer,
}, Path(model_dir, ".".join([config.model_fpath, "pth"])))

TensorBoard

์‹คํ—˜ ์ง„ํ–‰์‚ฌํ•ญ์€ ์•„๋ž˜์™€ ๊ฐ™์€ ๋ช…๋ น์–ด๋ฅผ ์‚ฌ์šฉํ•œ ๋’ค {SERVER_IP}:8888์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ํ™•์ธ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋กœ์ปฌ์—์„œ ํ™•์ธํ•œ๋‹ค๋ฉด, bind_all ์ธ์ž๋ฅผ ์ œ๊ฑฐํ•˜์‹  ๋’ค localhost:8888๋กœ ์ ‘์†ํ•ด์ฃผ์„ธ์š”.

(venv) $ tensorboard \
    --logdir ./logs \
    --port 8888 \
    --bind_all

tensorboard

Inference (For DACON Competition Only)

๊ฒฝ์ง„๋Œ€ํšŒ์šฉ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ์˜ˆ์‹œ๋Š” ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

(venv) $ python summarize.py \
    --test ./data/test.tsv \
    --model_fpath ./ckpt/{SOME_DATETIME}/model.pth \
    --gpu_id 0 \
    --length_penalty 0.8 \
    --batch_size 64

model_fpath ์ธ์ž๋กœ๋Š” *.pth ํŒŒ์ผ์˜ ๊ฒฝ๋กœ๋ฅผ ์ „๋‹ฌํ•ด๋„ ๋˜์ง€๋งŒ, HuggingFace์˜ Trainer๋กœ ์ธํ•ด ์ƒ์„ฑ๋˜๋Š” ์ฒดํฌํฌ์ธํŠธ ๋””๋ ‰ํ† ๋ฆฌ๋ฅผ ์ง์ ‘ ์ „๋‹ฌํ•˜๋Š” ๋ฐฉ๋ฒ• ๋˜ํ•œ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

(venv) $ python summarize.py \
    --test ./data/test.tsv \
    --model_fpath ./ckpt/{SOME_DATETIME}/checkpoint-{SOME_ITERATIONS} \
    --gpu_id 0 \
    --length_penalty 0.8 \
    --batch_size 64

์ธ์ž์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ์„ค๋ช…์€ ๋‹ค์Œ์„ ์ฐธ๊ณ ํ•ด์ฃผ์„ธ์š”.

Generation Sample (for validation dataset)

  • id: 472779093
type text
source ์„ฑ์žฅ ์†๋„๊ฐ€ ๋”๋””๊ณ  ์ž”๋ณ‘์น˜๋ ˆ๊ฐ€ ๋งŽ์€ ์•„์ด ๋“ฑ๋“ฑ ๋ถ€๋ชจ ๋ˆˆ์—๋Š” ํ•ญ์ƒ ๊ฑฑ์ •์ด ์•ž์„ ๋‹ค. ์ด๋Ÿด ๋• ์ „๋ฌธ๊ฐ€์˜ ๋„์›€์„ ๋ฐ›์•„๋ณด๋Š” ๊ฒƒ๋„ ์ข‹๋‹ค. ๋‹ค๊ฐ€์˜ค๋Š” ๊ฒจ์šธ ๋ฐฉํ•™์€ ์•„์ด์˜ ์„ฑ์žฅ์„ ์ฒดํฌํ•ด ๋ณผ ์ข‹์€ ๊ธฐํšŒ๋‹ค. ์ด์— ๋ถ„๋‹น ์ž์ƒํ•œ๋ฐฉ๋ณ‘์›์˜ ๊น€๋™์šฐ ๋ณ‘์›์žฅ์„ ๋งŒ๋‚˜ '์•„๋™ ์„ฑ์žฅ'์— ๋Œ€ํ•œ ๊ถ๊ธˆ์ฆ์„ ํ’€์–ด๋ณด์•˜๋‹ค. ์šฐ์„  ์ „์‹  ์—‘์Šค๋ ˆ์ด๋ฅผ ์ฐ์–ด ์„ฑ์žฅํŒ ๊ฒ€์‚ฌ๋ฅผ ํ•˜๊ณ  ์ฒ™์ถ” ์ธก๋งŒ์ฆ๊ณผ ๊ฐ™์ด ์„ฑ์žฅ์— ๋ฐฉํ•ด ๋  ๋งŒํ•œ ์š”์ธ์„ ์ฐพ์•„๋ณด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์„ฑ์žฅ์ด ๋”๋”˜ ์•„์ด๋“ค์€ ์„ฑ์žฅํŒ์˜ ๋ผˆ ๋‚˜์ด๊ฐ€ ์ƒ๋ฆฌ์ ์ธ ๋‚˜์ด๋ณด๋‹ค ๋†’์€ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ณ  ํ‰์†Œ ์ž์„ธ๊ฐ€ ์ข‹์ง€ ์•Š์•„ ์„ฑ์žฅ์˜ ํšจ์œจ์„ฑ์„ ๋–จ์–ด๋œจ๋ฆฌ๋Š” ๊ฒฝ์šฐ๊ฐ€ ํ”ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๋ฐ–์— ์„ฑ์žฅ์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ์ƒํ™œ ์Šต๊ด€๋„ ์ฒดํฌํ•ฉ๋‹ˆ๋‹ค. ์–ธ์ œ ์„ฑ์žฅ๊ฒ€์‚ฌ๋ฅผ ํ•ด ๋ณด๋Š” ๊ฒƒ์ด ์ข‹์„๊นŒ์š”? ์š”์ฆ˜ ์•„์ด๋“ค์€ ์„ฑ์žฅ์ด ๋น ๋ฅด๋ฏ€๋กœ 2์ฐจ ์„ฑ์ง•์ด ๋‚˜ํƒ€๋‚˜๊ธฐ ์ „์— ํ•˜๋Š” ๊ฒƒ์ด ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. ์ผ๋‹จ ์„ฑํ˜ธ๋ฅด๋ชฌ์ด ๋ถ„๋น„๋˜๋ฉด ์„ฑ์žฅํ˜ธ๋ฅด๋ชฌ ๋ถ„๋น„๊ฐ€ ์ค„์–ด๋“ค๋ฏ€๋กœ ํŠนํžˆ ์—ฌํ•™์ƒ์˜ ๊ฒฝ์šฐ ์ฒซ ์ƒ๋ฆฌ ์ด์ „์— ๋ฐ›๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ํ† ์–‘์ด ๋น„์˜ฅํ•ด์•ผ ์ƒ์žฅ์ด ์ข‹๋“ฏ, ์•„์ด ๋ชธ๋„ ๊ธฐํ˜ˆ์ด ์ถฉ์‹คํ•˜๋ฉด ์„ฑ์žฅ์„ ์ž˜ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋•Œ๋ฌธ์— ์กฐ๊ธˆ์ด๋ผ๋„ ์–ด๋ฆด ๋•Œ ๊ด€๋ฆฌ๋ฅผ ํ•˜๋ฉด ์‹œ๊ฐ„์ ์ธ ์ œ์•ฝ๋„ ๋œํ•˜๊ณ  ํšจ๊ณผ๋„ ๋” ํฌ๊ณ  ์ข‹๊ฒŒ ๋‚˜ํƒ€๋‚˜์ง€์š”. ๋งŒ์•ฝ ์„ฑ์žฅ์ด ์ž˜ ๋˜๊ณ  ์žˆ์ง€ ์•Š๋‹ค๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ํ• ๊นŒ์š”? ํ•œ๋ฐฉ์—์„œ๋Š” ์–‘์ƒ(้คŠ็”Ÿ)์„ ๊ธฐ๋ณธ์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰ ๋ชธ๊ณผ ๋งˆ์Œ์„ ๊ฑด๊ฐ•ํ•˜๊ฒŒ ํ•˜์—ฌ ์งˆ๋ณ‘์„ ์˜ˆ๋ฐฉํ•˜๊ณ  ์ƒ๋ช…๋ ฅ์„ ๊ธธ๋Ÿฌ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๋ฅผ ์ œ๊ฑฐํ•จ์œผ๋กœ์„œ ์„ฑ์žฅ์„ ๋•๋Š” ๊ฒƒ์ธ๋ฐ์š”. ์—ฌ๊ธฐ์— ๊ฐœ์ธ ๊ฐœ์ธ๋งˆ๋‹ค ๋‹ค๋ฅด๊ฒŒ ์ ์šฉ๋˜๋Š” ์ตœ์ ์˜ ์น˜๋ฃŒ์š”๋ฒ•์„ ๋™์›ํ•ฉ๋‹ˆ๋‹ค. ์นจ ์น˜๋ฃŒ, ์ถ”๋‚˜์š”๋ฒ•, ์•ฝ, ์šด๋™ ๋“ฑ ์—ฌ๋Ÿฌ ๋ฐ•์ž๋ฅผ ๋งž์ถ”๊ฒŒ ๋˜์ง€์š”. ๋‹จ์ˆœํžˆ ์–‘์  ์„ฑ์žฅ๋งŒ์„ ์ถ”๊ตฌํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ „๋ฐ˜์ ์ธ ๋ชธ์˜ ์ƒํƒœ๋ฅผ ์ข‹๊ฒŒ ํ•ด์ฃผ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ž”๋ณ‘์น˜๋ ˆ๋‚˜ ์†Œํ™”๋ถˆ๋Ÿ‰ ๋“ฑ์„ ํšŒ๋ณต์‹œ์ผœ ํ‰์†Œ ์„ฑ์žฅ์„ ๋ฐฉํ•ดํ•˜๋Š” ์š”์†Œ๋ฅผ ์—†์• ์ค๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ƒํ™œ ์Šต๊ด€๋„ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ง‘์—์„œ ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณจ๊ฒฉ์œ ์ง€์šด๋™, ์‹ ์ฒด์˜ ๋ฐœ๋ž€์Šค๋ฅผ ์žก์•„์ฃผ๋Š” ์šด๋™, ์‹์Šต๊ด€, ์ˆ˜๋ฉด, ์ŠคํŠธ๋ ˆ์Šค ๋“ฑ์„ ์ฒดํฌํ•˜๊ณ  ๋ณด์™„ํ•˜์—ฌ ๋ฐฉํ–ฅ์„ ์žก์•„์ค๋‹ˆ๋‹ค. ๊ฒจ์šธ ๋ฐฉํ•™์— ์„ฑ์žฅ ์น˜๋ฃŒ๋ฅผ ๋ฐ›์œผ๋ฉด ์ข‹์€ ์ ์ด ์žˆ๋‚˜์š”? ์ผ๋‹จ ์‹œ๊ฐ„์  ์—ฌ์œ ๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ง‘์ค‘์ ์ธ ์น˜๋ฃŒ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ณ„์ ˆ ์ค‘ ๊ฒจ์šธ์€ ์„ฑ์žฅ์ด ๋”๋”˜ ๊ณ„์ ˆ์ž…๋‹ˆ๋‹ค. ํฌ๊ฒŒ ์„ฑ์žฅํ•˜๊ธฐ ์œ„ํ•ด ์ €์žฅ์„ ํ•˜๋Š” ์‹œ๊ธฐ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด ์‹œ๊ธฐ์— ์น˜๋ฃŒ๋ฅผ ๋ฐ›๊ฒŒ ๋˜๋ฉด ์„ฑ์žฅ์— ํ•„์š”ํ•œ ์š”์†Œ๋“ค์„ ์Œ“์•„๋‘๋ฉด์„œ ๋‚˜์ค‘์— ํฐ ๋„์›€์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. Tip ์šฐ๋ฆฌ์•„์ด ์„ฑ์žฅ ์ ์‹ ํ˜ธ ์ฒดํฌ๋ฆฌ์ŠคํŠธ 1. ์ž…์ด ์งง๊ณ , ํŽธ์‹์„ ํ•œ๋‹ค. 2. ๊ณ ๊ธฐ, ๊ธฐ๋ฆ„์ง„ ์Œ์‹, ์ฐฌ ์Œ์‹์„ ๋จน์œผ๋ฉด ์†Œํ™”๊ฐ€ ์ž˜ ์•ˆ ๋œ๋‹ค. 3. ์–ด๊นจ ๋†’์ด๊ฐ€ ๋‹ค๋ฅด๊ฑฐ๋‚˜ ๋“ฑ์ด ๊ตฌ๋ถ€์ •ํ•˜๋Š” ๋“ฑ ์ฒดํ˜•์ด ๋ถˆ๊ท ํ˜•ํ•ด ๋ณด์ธ๋‹ค. 4. ์ˆ˜๋ฉด ์Šต๊ด€์ด ๋ถˆ๊ทœ์น™ํ•˜๊ณ  ๋Šฆ๊ฒŒ ์ž”๋‹ค. 5. ๊ต์šฐ๊ด€๊ณ„๋‚˜ ํ•™๊ต์ƒํ™œ์—์„œ ์ŠคํŠธ๋ ˆ์Šค๋ฅผ ๋งŽ์ด ๋ฐ›๋Š”๋‹ค. 6. ์นœ๊ตฌ๋“ค์— ๋น„ํ•ด ์‰ฝ๊ฒŒ ์ง€์น˜๊ณ , ์ถ”์œ„๋ฅผ ๋งŽ์ด ํƒ„๋‹ค. 7. (๊ฐ๊ธฐ, ์ฒด ๋“ฑ)์ž”๋ณ‘์น˜๋ ˆ๊ฐ€ ์ž์ฃผ ๋‚˜๊ณ  ์ž˜ ๋‚ซ์ง€ ์•Š๋Š”๋‹ค.
label ๋ถ„๋‹น ์ž์ƒํ•œ๋ฐฉ๋ณ‘์›์— ๋”ฐ๋ฅด๋ฉด ๋‹ค๊ฐ€์˜ค๋Š” ๊ฒจ์šธ ๋ฐฉํ•™์€ ์‹œ๊ฐ„์  ์—ฌ์œ ๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ง‘์ค‘์ ์ธ ์น˜๋ฃŒ๊ฐ€ ๊ฐ€๋Šฅํ•ด ์•„์ด์˜ ์„ฑ์žฅ์„ ์ฒดํฌํ•ด ๋ณผ ์ข‹์€ ๊ธฐํšŒ์ด๋ฉฐ, ํ•œ๋ฐฉ์น˜๋ฃŒ๋ฅผ ํ•˜๊ธฐ ์ „์— ์ „์‹  ์—‘์Šค๋ ˆ์ด๋ฅผ ์ฐ์–ด ์„ฑ์žฅํŒ ๊ฒ€์‚ฌ์™€ ์„ฑ์žฅ๋ฐฉํ•ด์š”์ธ ๊ฒ€์‚ฌ๋ฅผ ํ•˜๋Š” ๋“ฑ ์„ฑ์žฅ๊ฒ€์‚ฌ๋ฅผ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.
prediction ์„ฑ์žฅ ์†๋„๊ฐ€ ๋”๋””๊ณ  ์ž”๋ณ‘์น˜๋ ˆ๊ฐ€ ๋งŽ์€ ์•„์ด ๋“ฑ๋“ฑ ๋ถ€๋ชจ ๋ˆˆ์—๋Š” ํ•ญ์ƒ ๊ฑฑ์ •์ด ์•ž์„  ๊ฐ€์šด๋ฐ ๋ถ„๋‹น ์ž์ƒํ•œ๋ฐฉ๋ณ‘์›์˜ ๊น€๋™์šฐ ๋ณ‘์›์žฅ์„ ๋งŒ๋‚˜ '์•„๋™ ์„ฑ์žฅ'์— ๋Œ€ํ•œ ๊ถ๊ธˆ์ฆ์„ ํ’€์–ด๋ณด์•˜๋Š”๋ฐ, ์„ฑ์žฅ์ด ๋”๋”˜ ์•„์ด๋“ค์€ ์„ฑ์žฅํŒ์˜ ๋ผˆ ๋‚˜์ด๊ฐ€ ์ƒ๋ฆฌ์ ์ธ ๋‚˜์ด๋ณด๋‹ค ๋†’์€ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ณ  ํ‰์†Œ ์ž์„ธ๊ฐ€ ์ข‹์ง€ ์•Š์•„ ์„ฑ์žฅ์˜ ํšจ์œจ์„ฑ์„ ๋–จ์–ด๋œจ๋ฆฌ๋Š” ๊ฒฝ์šฐ๊ฐ€ ํ”ํ•˜๋‹ค.
  • id: 472779095
type text
source ์ฃผ์š” ๊ธˆ์œต๊ทธ๋ฃน ํšŒ์žฅ ์‹ ๋…„์‚ฌ, ์˜ฌํ•ด ๊ฒฝ์ œ์ƒํ™ฉ ์‹ฌ๊ฐ ์ธ์‹ โ€ฆ ๊ณ„์—ด์‚ฌ๊ฐ„ ์‹œ๋„ˆ์ง€ ๋†’์ด๊ณ , ์‡„์‹  ์š”๊ตฌ ๊ธˆ์œต๊ถŒ์€ 2์ผ ์‹œ๋ฌด์‹์„ ์—ด๊ณ  ์ผ์ œํžˆ ์ƒˆํ•ด ์—…๋ฌด๋ฅผ ์‹œ์ž‘ํ–ˆ๋‹ค. ์ฃผ์š” ๊ธˆ์œต์ง€์ฃผํšŒ์‚ฌ ํšŒ์žฅ๋“ค์€ ์˜ฌํ•ด ์‹ ๋…„์‚ฌ๋ฅผ ํ†ตํ•ด ์–ด๋Š ๋•Œ๋ณด๋‹ค ํ—˜๋‚œํ•œ ๊ฒฝ์˜ํ™˜๊ฒฝ์— ์ฒ˜ํ–ˆ์Œ์„ ๊ฐ•์กฐํ•˜๋ฉด์„œ ๋‚ด๋ถ€์˜ 'ํ†ตํ•ฉ๊ณผ ํ˜์‹ '์„ ๊ฐ•์กฐํ–ˆ๋‹ค. ๋‹ค์ˆ˜์˜ ๊ธˆ์œต๊ถŒ ์ˆ˜์žฅ๋“ค์€ ์˜ฌํ•ด ์˜์—…ํ™˜๊ฒฝ์ด ์–ด๋ ค์šธ ๊ฒƒ์ž„์„ ์˜ˆ๊ณ ํ–ˆ๋‹ค. ์œค์ข…๊ทœ KB๊ธˆ์œต์ง€์ฃผ ํšŒ์žฅ์€ 2์ผ ์‹ ๋…„์‚ฌ์—์„œ ""์˜ฌ ํ•œํ•ด ๊ธˆ์œต์‹œ์žฅ์€ ๊ฒฝ์Ÿ์ด ๋”์šฑ ์‹ฌํ™”๋˜๊ณ , ์œ„๊ธฐ๊ฐ€ ์ผ์ƒํ™”๋˜๋Š” ๋“ฑ ์ง€๊ธˆ๊ป ์œ ๋ก€์—†๋Š” ์ „๋ฐฉ์œ„์  ์••๋ฐ•์ด ์ง€์† ๋  ๊ฒƒ""์ด๋ผ๋ฉฐ ""์•„๋งˆ์กด, ํ…์„ผํŠธ ๋“ฑ ๊ธ€๋กœ๋ฒŒ ICT๊ธฐ์—…์ด ๊ณ ๊ฐ๊ธฐ๋ฐ˜๊ณผ ๊ฐ•๋ ฅํ•œ ํ”Œ๋žซํผ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ธˆ์œต์—…์— ์ง„์ถœํ•˜๊ณ  ์žˆ์–ด ์ ์  ๋” ๊ฑฐ๋Œ€ํ•œ ์œ„ํ˜‘์œผ๋กœ ๋‹ค๊ฐ€์˜ค๊ณ  ์žˆ๋‹ค""๊ณ  ๋ฐํ˜”๋‹ค. ๊น€์ •ํƒœ ํ•˜๋‚˜๊ธˆ์œต์ง€์ฃผ ํšŒ์žฅ๋„ 1์ผ ๋ฐœํ‘œํ•œ ์‹ ๋…„์‚ฌ์—์„œ ""2018๋…„๋ถ€ํ„ฐ ์„ธ๊ณ„๊ฒฝ์ œ์˜ ๊ฒฝ๊ณ  ์‹ ํ˜ธ๊ฐ€ ๋‚˜ํƒ€๋‚˜๊ณ , 2019๋…„์—๋Š” ๊ธˆ์œต์‹œ์žฅ์ด ๋ถˆ์•ˆํ•ด์งˆ ๊ฒƒ์ด๋ผ๊ณ  ์–ธ๊ธ‰ํ–ˆ๋Š” ๋ฐ ํ˜„์‹ค๋กœ ๋‹ค๊ฐ€์˜ค๋Š” ๋“ฏํ•ด ์•ˆํƒ€๊น๋‹ค""๋ฉด์„œ ""์ž‘๋…„์— ์ด์–ด ์˜ฌํ•ด๋„ ๊ฐ•๋ ฅํ•œ DSR ๊ทœ์ œ์—ฌํŒŒ๋กœ ๊ฐ€๊ณ„๋Œ€์ถœ ์ฆ๊ฐ€์„ธ๋Š” ๋‘”ํ™”๋˜๊ณ , ์ค‘์†Œ๊ธฐ์—…๊ณผ ์ž์˜์—…์ž์˜ ํœดํ์—…์ด ๋Š˜์–ด๋‚˜๋ฉด์„œ ๋Œ€์†์ถฉ๋‹น๊ธˆ์€ ๋” ์ฆ๊ฐ€๋˜๊ณ , ์นด๋“œ์ˆ˜์ˆ˜๋ฃŒ ์ธํ•˜๋กœ ์ˆ˜์ต ์ถ•์†Œ๋„ ์˜ˆ์ƒ๋œ๋‹ค""๊ณ  ํ–ˆ๋‹ค. ๊ธˆ์œต๊ถŒ ๋ฆฌ๋”๋“ค์€ ์ด๋Ÿฌํ•œ ์œ„๊ธฐ์  ์ƒํ™ฉ์— ๋Œ€๋น„ํ•ด ๊ทธ๋ฃน๋‚ด ํ†ตํ•ฉ๊ณผ ํ˜‘๋ ฅ์„ ๊ฐ•์กฐํ–ˆ๋‹ค. ๊ธˆ์œต๊ถŒ 1์œ„ ์ž๋ฆฌ๋ฅผ ๋†“๊ณ  ๋‹คํˆฌ๋Š” KB๊ธˆ์œต๊ณผ ์‹ ํ•œ๊ธˆ์œต์€ ๋™์‹œ์— 'One KB'์™€ 'One ์‹ ํ•œ'์„ ๋‚ด๊ฑธ์—ˆ๋‹ค. ์กฐ์šฉ๋ณ‘ ์‹ ํ•œ๊ธˆ์œต์ง€์ฃผ ํšŒ์žฅ์€ 2์ผ ์˜ค์ „ ์‹œ๋ฌด์‹์—์„œ ๋ฐํžŒ ์‹ ๋…„์‚ฌ๋ฅผ ํ†ตํ•ด ""์ƒˆํ•ด์—๋„ ์กฐ์ง๊ณผ ์ฑ„๋„, ์ธ๋ ฅ, ์ƒํ’ˆยท์„œ๋น„์Šค ๋“ฑ ๋ชจ๋“  ๊ฒƒ์„ '์› ์‹ ํ•œ'์˜ ๊ด€์ ์—์„œ ํ†ตํ•ฉํ•ด ๊ทธ๋ฃน ์ „์ฒด๊ฐ€ 'ํ•˜๋‚˜์˜ ๋ชฉํ‘œ'์™€ 'ํ•˜๋‚˜์˜ ๋ฐฉํ–ฅ'์œผ๋กœ ์ผ๊ด€๋˜๊ฒŒ ๋‚˜์•„๊ฐ€์ž""๋ฉด์„œ ""์•ž์œผ๋กœ๋„ ๊ธ€๋กœ๋ฒŒ๋ถ€๋ฌธ๊ณผ ์ž์‚ฐ๊ด€๋ฆฌ๋ถ€๋ฌธ ๋“ฑ 'One ์‹ ํ•œ' ๋งคํŠธ๋ฆญ์Šค์˜ ์„ฑ๊ณผ๋ฅผ ๋†’์—ฌ ๊ทธ๋ฃน ์‹œ๋„ˆ์ง€๋ฅผ ๋”์šฑ ๋ฐœํœ˜ํ•˜๊ณ , ์ธ์ˆ˜์ž‘์—…์„ ์ง„ํ–‰ ์ค‘์ธ ์˜ค๋ Œ์ง€๋ผ์ดํ”„์™€ ์•„์‹œ์•„์‹ ํƒ ์—ญ์‹œ ์ตœ๊ณ ์˜ ์ „๋ฌธ์„ฑ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ธฐ์กด ๊ทธ๋ฃน์‚ฌ์™€ ๊ธด๋ฐ€ํžˆ ํ˜‘์—…์„ ๊ฐ•ํ™”์‹œํ‚ฌ ๊ฒƒ""์ด๋ผ๊ณ  ํ–ˆ๋‹ค. KB๊ธˆ์œต ์œค ํšŒ์žฅ๋„ ์ด๋‚  ์‹ ๋…„์‚ฌ์—์„œ ""์ง€๋‚œ ํ•œํ•ด ๊ธฐํ‹€์„ ๋‹ค์ง„ 'One KB'์˜ ๊ฐ€์‹œ์ ์ธ ์„ฑ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์••๋„์ ์ธ ๋ฆฌ๋”ฉ๊ธˆ์œต๊ทธ๋ฃน์œผ๋กœ ๋„์•ฝํ•ด์•ผ ํ•œ๋‹ค""๊ณ  ํ–ˆ๋‹ค. ๊ธˆ์œต๊ถŒ ์‹ ๋…„์‚ฌ์—์„œ ๊ฐ€์žฅ ๋ณดํŽธ์ ์ด๊ณ  ๊ฐ•๋ ฅํ•œ ์ฃผ๋ฌธ์‚ฌํ•ญ์œผ๋กœ ๋‹ด๊ฒจ์ง„ ๋‚ด์šฉ์€ '์‡„์‹ '์ด๋‹ค. ๋ชจ๋“  ๊ธˆ์œต์ง€์ฃผ ํšŒ์žฅ๋“ค์ด ์‹ ๋…„์‚ฌ์—์„œ ์Šค์Šค๋กœ ๋จผ์ € ํ˜์‹ ํ•˜์ง€ ์•Š์œผ๋ฉด ์‚ด์•„๋‚จ๊ธฐ ์–ด๋ ต๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ–ˆ๋‹ค. ๊น€๊ด‘์ˆ˜ ๋†ํ˜‘๊ธˆ์œต์ง€์ฃผ ํšŒ์žฅ์€ 1์ผ ๋ฐœํ‘œํ•œ ์‹ ๋…„์‚ฌ์—์„œ ""๊ณผ๊ฑฐ ๊ฒฝ์˜์ฒด์ œ์—์„œ๋Š” ํ™˜๊ฒฝ๋ณ€ํ™”๊ฐ€ ์กฐ์งยท์ธ๋ ฅ์˜ ํ™•์ถฉ์œผ๋กœ ์—ฐ๊ฒฐ๋ผ ์ด๊ฒƒ์ด ๊ด€๋ก€ํ™”๋˜๊ณ  ๊ณ ์ฐฉํ™”๋˜๋ฉด์„œ ๊ณ ์ •๋น„์˜ ์ฆ๊ฐ€๋กœ ์ด์–ด์ ธ ์ง€์†๊ฐ€๋Šฅ ๊ฒฝ์˜์˜ ๊ฑธ๋ฆผ๋Œ๋กœ ์ž‘์šฉํ–ˆ๋‹ค""๋ฉด์„œ ""๋””์ง€ํ„ธํ™”์— ๋”ฐ๋ผ ๋ฐœ์ƒํ•˜๋Š” ์ž‰์—ฌ ์ธ๋ ฅ์ž์›์€ ์ƒ์‚ฐ์„ฑ์„ ์ œ๊ณ ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐœ์„ ํ•˜๊ณ , ์œ ์‚ฌ ์‚ฌ์—…์„ ํ•˜๋Š” ๊ณ„์—ด์‚ฌ๊ฐ„ยท์‚ฌ์—…๋ถ€๋ฌธ๊ฐ„ ๊ฒฝํ•ฉ์  ์š”์†Œ๋ฅผ ์กฐ์ •ํ•˜๊ณ  ๋น„ํšจ์œจ์„ ์ œ๊ฑฐํ•˜๊ฒ ๋‹ค""๊ณ  ํ–ˆ๋‹ค. ์˜ฌํ•ด ์ดˆ ๊ธˆ์œต์ง€์ฃผ์‚ฌ๋กœ ์ „ํ™˜์„ ์•ž๋‘” ์†ํƒœ์Šน ์šฐ๋ฆฌ์€ํ–‰์žฅ๋„ 1์ผ ์‹ ๋…„์‚ฌ์—์„œ ""์˜ฌํ•ด ์ฐฝ๋ฆฝ 120์ฃผ๋…„์„ ๊ธฐ๋…ํ•ด 'ํ™”ํ์œตํ†ต(่ฒจๅนฃ่ž้€š)์€ ์ƒ๋ฌดํฅ์™•(ๅ•†ๅ‹™่ˆˆๆ—บ)์˜ ๋ณธ(ๆœฌ)'์ด๋ผ๋Š” ์šฐ๋ฆฌ์€ํ–‰์˜ ์ฐฝ๋ฆฝ ์ด๋…์„ ๋˜์ƒˆ๊ธฐ๊ณ  ๊ณ„์Šนํ•ด ๊ฒฝ์ œ์— ํ™œ๋ ฅ์„ ๋ถˆ์–ด๋„ฃ๊ณ  ์‚ฌํšŒ์™€ ์€ํ–‰, ์ง์› ๋ชจ๋‘๊ฐ€ ๊ฑด๊ฐ•ํ•ด์ง€๋Š” 2019๋…„์„ ๋งŒ๋“ค์–ด ๊ฐ€๊ฒ ๋‹ค""๊ณ  ๋ฐํ˜”๋‹ค. ํ•œํŽธ ๊น€ํƒœ์˜ ์€ํ–‰์—ฐํ•ฉํšŒ์žฅ์€ 1์ผ ์‹ ๋…„์‚ฌ๋ฅผ ํ†ตํ•ด '๋ฟŒ๋ฆฌ๊ฐ€ ๊นŠ์œผ๋ฉด ๊ฐ€์ง€๊ฐ€ ๋ฌด์„ฑํ•˜๋‹ค'๋Š” '๊ทผ์‹ฌ์ง€๋ฌด(ๆ นๆทฑๆž่Œ‚)'๋ผ๋Š” ์‚ฌ์ž์„ฑ์–ด๋ฅผ ํ†ตํ•ด ""์˜ฌํ•ด ์šฐ๋ฆฌ ๊ธˆ์œต์‚ฐ์—…์ด ๊ธ€๋กœ๋ฒŒ ๋น„์ฆˆ๋‹ˆ์Šค์˜ ์งˆ์  ์„ฑ์žฅ๊ณผ ๋””์ง€ํ„ธ ์ „ํ™˜ ์ง€์†์„ ํ†ตํ•ด ๋‚ด์‹ค์„ ํŠผํŠผํžˆ ๋‹ค์ ธ ํ•œ๊ตญ ๊ธˆ์œต์ด ์„ฑ์žฅ์„ ์ง€์†ํ•ด ๋‚˜๊ฐ€๋Š” ํ•œ ํ•ด๊ฐ€ ๋˜๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•œ๋‹ค""๊ณ  ๋ฐํ˜”๋‹ค.
label ์ฃผ์š” ๊ธˆ์œต์ง€์ฃผํšŒ์‚ฌ ํšŒ์žฅ๋“ค์€ ์˜ฌํ•ด ์˜์—…ํ™˜๊ฒฝ์ด ํž˜๋“ค ๊ฒƒ์ž„์„ ์˜ˆ๊ณ ํ•˜๊ณ , ์‹ ๋…„์‚ฌ๋ฅผ ํ†ตํ•ด ํ—˜๋‚œํ•œ '์œ„๊ธฐ'์  ๊ฒฝ์˜ํ™˜๊ฒฝ์—์„œ ๋จผ์ € ํ˜์‹ ํ•˜์ง€ ์•Š์œผ๋ฉด ์ƒ์กดํ•  ์ˆ˜ ์—†๋‹ค๋ฉฐ ๋‚ด๋ถ€์˜ 'ํ†ตํ•ฉ๊ณผ ํ˜์‹ '์„ ๊ฐ•์กฐํ–ˆ๋‹ค.
prediction ์ฃผ์š” ๊ธˆ์œต์ง€์ฃผํšŒ์‚ฌ ํšŒ์žฅ๋“ค์€ ์˜ฌํ•ด ์‹ ๋…„์‚ฌ๋ฅผ ํ†ตํ•ด ์–ด๋Š ๋•Œ๋ณด๋‹ค ํ—˜๋‚œํ•œ ๊ฒฝ์˜ํ™˜๊ฒฝ์— ์ฒ˜ํ–ˆ์Œ์„ ๊ฐ•์กฐํ•˜๋ฉด์„œ ๋‚ด๋ถ€์˜ 'ํ†ตํ•ฉ๊ณผ ํ˜์‹ '์„ ๊ฐ•์กฐํ•˜๋ฉด์„œ ์˜ฌํ•ด ์˜์—…ํ™˜๊ฒฝ์ด ์–ด๋ ค์šธ ๊ฒƒ์ž„์„ ์˜ˆ๊ณ ํ–ˆ๊ณ  ๊ธˆ์œต๊ถŒ 1์œ„ ์ž๋ฆฌ๋ฅผ ๋†“๊ณ  ๋‹คํˆฌ๋Š” KB๊ธˆ์œต๊ณผ ์‹ ํ•œ๊ธˆ์œต์€ ๋™์‹œ์— 'One KB'์™€'One ์‹ ํ•œ'์„ ๋‚ด๊ฑธ์—ˆ๋‹ค.
  • id: 472779096
type text
source ์„ ์›๋“ค ํœด๊ฒŒ ๋ฐ ์•ˆ์ „์„ ์œ„ํ•œ ๊ณต๊ฐ„์„ ํ™•๋Œ€ํ•œ ์–ด์„  ๊ฐœ๋ฐœ์ด ์™„๋ฃŒ๋๋‹ค. ์ง€๋‚œํ•ด ๋ง ํ•ด์–‘์ˆ˜์‚ฐ๊ณผํ•™๊ธฐ์ˆ ์ง„ํฅ์›(KIMST, ์›์žฅ ์กฐ์Šนํ™˜)์ด ํ•ด์–‘์ˆ˜์‚ฐ๋ถ€์™€ ํ•จ๊ป˜ ๊ฐœ๋ฐœํ•œ ์ฐจ์„ธ๋Œ€ ์•ˆ์ „ยท๋ณต์ง€ํ˜• ์–ด์„  ํ‘œ์ค€์„ ํ˜• ์‹œ์ œ์„ ์€ ์—ฐ์•ˆ๋ณตํ•ฉ(9.77ํ†ค) ์—ฐ์•ˆํ†ต๋ฐœ(9.77ํ†ค) ํŒจ๋ฅ˜ํ˜•๋ง(4ํ†ค) ๊ฐ 1์ฒ™์”ฉ 3์ฒ™์ด๋‹ค. ์ด๋ฒˆ์— ๊ฐœ๋ฐœํ•œ ์„ ๋ฐ•์€ ํ•ด์ˆ˜๋ถ€๊ฐ€ ์‹œ๋ฒ”์‚ฌ์—…์„ ํ†ตํ•ด ๊ฒ€์ฆํ•œ ์ƒˆ๋กœ์šด ์—ฐ์•ˆ์–ด์„  ๊ธธ์ด๊ธฐ์ค€์„ ์ ์šฉํ•ด ํญ๊ณผ ์„ ์ฒด ๊นŠ์ด๋ฅผ ํ‚ค์› ๊ณ , ์กฐ์—…์•ˆ์ „๊ณผ ๋ณต์ง€ ํ™•๋Œ€๋ฅผ ์œ„ํ•œ ๊ณต๊ฐ„๋ฐฐ์น˜ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ˜์˜ํ–ˆ๋‹ค. ์ด์— ๋”ฐ๋ผ ๊ฐ‘ํŒ ์•„๋ž˜ ์žˆ๋˜ ์„ ์›์‹ค์„ ๊ฐ‘ํŒ ์œ„๋กœ ๋ฐฐ์น˜ํ•˜๊ณ , ํ™”์žฅ์‹ค ์ƒค์›Œ์‹ค ์ฃผ๋ฐฉ๋„ ํ™•๋Œ€ํ–ˆ๋‹ค. ํ‘œ์ค€์„ ์€ ๊ณต๊ฐ„๋ฐฐ์น˜๋ฅผ ๋‹ฌ๋ฆฌํ•˜๋ฉด์„œ๋„ ์กฐ์—… ์•ˆ์ „์„ฑ๊ณผ ๋ณต์›์„ฑ, ๋ณต์ง€๊ณต๊ฐ„ ๋ฐฐ์น˜๊ฐ€ ์šฉ์ดํ•˜๋„๋ก ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ท„๋‹ค. ์–ด์—…์ธ ์ž‘์—…์ƒํ™ฉ์— ์ ํ•ฉํ•˜๊ฒŒ ํŽธ๋ฆฌ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ๋„ ์ง‘์ค‘ํ–ˆ๋‹ค. ๊ทธ๋™์•ˆ ์—ฐ์•ˆ์–ด์„ ์€ ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š๋˜ ๋ณต์›์„ฑ ํ‰๊ฐ€๋„ ๋งˆ์ณค๋‹ค. ์„ ์ฒด์žฌ์งˆ๋„ ๊ธฐ์กด์˜ ์œ ๋ฆฌ์„ฌ์œ  ๊ฐ•ํ™” ํ”Œ๋ผ์Šคํ‹ฑ(FRP) ์žฌ๋ฃŒ์—์„œ ์นœํ™˜๊ฒฝ์ ์ธ ์•Œ๋ฃจ๋ฏธ๋Š„ ๋ณตํ•ฉ์†Œ์žฌ๋กœ ๋ณ€๊ฒฝํ–ˆ๋‹ค. ์•Œ๋ฃจ๋ฏธ๋Š„๋ณตํ•ฉ์†Œ์žฌ๋กœ ์„ ์ฒด ์ค‘๋Ÿ‰์„ ์ค„์—ฌ ์œ ๋ฅ˜๋น„๋„ ์ค„์˜€๋‹ค. ์ตœ์žฌ์šฑ KIMST ์ˆ˜์‚ฐ์—ฐ๊ตฌ๊ด€๋ฆฌ์‹ค์žฅ์€ ""์ฐจ์„ธ๋Œ€ ์•ˆ์ „ยท๋ณต์ง€ํ˜• ์–ด์„  ๊ฐœ๋ฐœ์€ ๋…ธํ›„ํ™”๋œ ์–ด์„ ์˜ ๊ตฌ์กฐ๊ฐœ์„ ์„ ์œ„ํ•ด ํ•„์š”ํ•œ ์‚ฌ์—…""์ด๋ผ๋ฉฐ ""ํ‘œ์ค€์„ ํ˜• 3์ฒ™์„ ์–ด์—…์ธ์˜ ์‹ค์ œ ์กฐ์—…์— ํˆฌ์ž…ํ•ด ์–ด์—…๊ฒฝ๋น„ ์ ˆ๊ฐ ๋“ฑ์˜ ๊ฒฝ์ œ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ณ  ๋ฏธํกํ•œ ๋ถ€๋ถ„์ด๋‚˜ ๊ฐœ์„ ํ•  ๊ณณ์ด ๋‚˜ํƒ€๋‚˜๋ฉด ๋ณด์™„ํ•ด ํ‘œ์ค€์„ ํ˜•์— ๋ฐ˜์˜ํ•  ์˜ˆ์ •""์ด๋ผ๊ณ  ๋งํ–ˆ๋‹ค.
label ์ง€๋‚œํ•ด ๋ง ํ•ด์–‘์ˆ˜์‚ฐ๊ณผํ•™๊ธฐ์ˆ ์ง„ํฅ์›(KIMST)์ด ํ•ด์–‘์ˆ˜์‚ฐ๋ถ€์™€ ํ•จ๊ป˜ ๊ฐœ๋ฐœํ•œ ์ฐจ์„ธ๋Œ€ ์•ˆ์ „ยท๋ณต์ง€ํ˜• ์–ด์„  ํ‘œ์ค€์„ ํ˜• ์‹œ์ œ์„  3์ฒ™์— ์ด์–ด ์ด๋ฒˆ์— ๊ฐœ๋ฐœํ•œ ์„ ๋ฐ•์€ํญ๊ณผ ์„ ์ฒด ๊นŠ์ด๋ฅผ ํ‚ค์› ๊ณ , ์กฐ์—…์•ˆ์ „๊ณผ ๋ณต์ง€ ํ™•๋Œ€๋ฅผ ์œ„ํ•œ ๊ณต๊ฐ„๋ฐฐ์น˜ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ˜์˜ํ•˜๊ณ , ์„ ์ฒด์žฌ์งˆ๋„ ๊ธฐ์กด์˜ ์œ ๋ฆฌ์„ฌ์œ  ๊ฐ•ํ™” ํ”Œ๋ผ์Šคํ‹ฑ(FRP) ์žฌ๋ฃŒ์—์„œ ์นœํ™˜๊ฒฝ์ ์ธ ์•Œ๋ฃจ๋ฏธ๋Š„ ๋ณตํ•ฉ์†Œ์žฌ๋กœ ๋ณ€๊ฒฝํ–ˆ๋‹ค.
prediction ์ง€๋‚œํ•ด ๋ง ํ•ด์–‘์ˆ˜์‚ฐ๊ณผํ•™๊ธฐ์ˆ ์ง„ํฅ์›(KIMST, ์›์žฅ ์กฐ์Šนํ™˜)์ด ํ•ด์–‘์ˆ˜์‚ฐ๋ถ€์™€ ํ•จ๊ป˜ ๊ฐœ๋ฐœํ•œ ์ฐจ์„ธ๋Œ€ ์•ˆ์ „ยท๋ณต์ง€ํ˜• ์–ด์„  ํ‘œ์ค€์„ ํ˜• ์‹œ์ œ์„ ์€ ์—ฐ์•ˆ๋ณตํ•ฉ(9.77ํ†ค) ์—ฐ์•ˆํ†ต๋ฐœ ํŒจ๋ฅ˜ํ˜•๋ง(4ํ†ค) ๊ฐ 1์ฒ™์”ฉ 3์ฒ™์œผ๋กœ ์„ ์›๋“ค ํœด๊ฒŒ ๋ฐ ์•ˆ์ „์„ ์œ„ํ•œ ๊ณต๊ฐ„์„ ํ™•๋Œ€ํ•œ ์–ด์„  ๊ฐœ๋ฐœ์ด ์™„๋ฃŒ๋๋‹ค.

Results

๋ฐ์ด์ฝ˜ ๊ฒฝ์ง„๋Œ€ํšŒ์—์„œ๋Š” ์‹œ๊ฐ„ ๋ถ€์กฑ์œผ๋กœ ์‹คํ—˜์— ์‚ฌ์šฉ๋˜๋Š” ์ธ์ž๋“ค์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ ์ •ํ•œ ์ฑ„ ์ถ”๋ก ์šฉ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์•ฝ๊ฐ„์”ฉ ์กฐ์ •ํ•ด๊ฐ€๋ฉฐ ์„ฑ๋Šฅ ๋ณ€ํ™” ์ถ”์ด๋ฅผ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค.

  • Default

    • Pretrained language model (PLM): gogamza/kobart-base-v1
    • Pretrained tokenizer: gogamza/kobart-base-v1
  • Training

    • Batch size: 256 (=16x2x8)
      • Per replica batch size: 16 (Tesla V100 32GB VRAM)
      • # GPUs: 2
      • Gradient accumulate steps: 8
    • Learning rate: 5e-5
    • Warmup rate: 20%
      • Linear warm-up applied (default)
    • Optimizer: AdamW (default optimizer in huggingface)
    • Weight decay: 1e-2
    • Dataloader num workers: 4
    • Mixed Precision Policy: True (fp16 applied)
    • Shuffle
      • On training start: True (sort by length & descending)
      • On epoch end: False (only the once applied)
  • Inference

    • Batch size: 64 (only one GPU used)
    • Beam search size: 5
    • Trigram blocking: True (same as the argument "no_repeat_ngram_size=3")

์ด์— ๋”ฐ๋ฅธ Private Leader Board Score๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

Name Clean Bst./Ep. (*) Run T. (H) Tr-loss Vl-loss LP Min/Max ROUGE-1 ROUGE-2 ROUGE-N Note
20211206
-164445
X 7/10 (7) 10.7 1.0466 1.2471 1.2 64/256 0.3671 0.1801 0.2778
20211206
-164445
X 7/10 (7) 10.7 1.0466 1.2471 1.0 64/256 0.3672 0.1798 0.2785
20211206
-164445
X 7/10 (7) 10.7 1.0466 1.2471 0.8 64/256 0.3678 0.1803 0.2800
20211206
-185244
O 5/10 (5) 10.7 1.1843 1.3380 0.8 64/256 0.3640 0.1830 0.2711
20211206
-164445
X 7/10 (7) 10.7 1.0466 1.2471 0.8 64โ‰ฅ/โ‰ค256 0.3575 0.1760 0.2589 variable summary
20211207
-192805
X 5/10 (5) 7.9 1.1085 1.2265 0.8 128/512 0.2846 0.1442 0.2048 variable padding
20211207
-192805
X 5/10 (5) 7.9 1.1085 1.2265 0.8 64/256 0.3662 0.1811 0.2731 variable padding, final submission
20211207
-164445
X 7/10 (10) 10.7 0.9803 1.2599 0.8 64/256 0.3446 0.1689 0.2522
20211208
-144747
X 12/26 (12) 20.6 1.129 1.233 0.8 64/256 0.3613 0.1771 0.2688 Stop at 26/50
20211209
-125836
โ–ณ 7/10 (7) 7.8 1.0448 1.2311 0.8 64/256 0.3634 0.1781 0.2701
20211209
-125836
โ–ณ 7/10 (7) 7.8 1.0448 1.2311 0.8 64โ‰ฅ/โ‰ค256 0.3617 0.1768 0.2660 variable summary
20211206
-164445
โ–ณ 7/10 (7) 10.7 1.0466 1.2471 0.8 64/256 0.3439 0.1660 0.2480 unigram blocking
20211206
-164445
โ–ณ 7/10 (7) 10.7 1.0466 1.2471 0.5 64/256 0.3474 0.1721 0.2543
20211206
-164445
X 7/10 (7) 10.7 1.0466 1.2471 0.6 64/256 0.3469 0.1718 0.2538
  • Clean: ํ…์ŠคํŠธ ํด๋ฆฌ๋‹ ์—ฌ๋ถ€ (X: ์ „์ฒ˜๋ฆฌ ํ•˜์ง€ ์•Š์Œ, โ–ณ: ๋ฏผ๊ฐ์ •๋ณด๋งŒ ์ œ๊ฑฐ, O: ๋ฏผ๊ฐ์ •๋ณด ๋ฐ ์–ธ๋ก ์‚ฌ๋ณ„ ๋งž์ถค ์ •์ œ ์ถ”๊ฐ€)
  • Bst./Ep. (*): Validation loss๊ฐ€ ๊ฐ€์žฅ ์ข‹์•˜๋˜ Epoch / ์ „์ฒด ์—ํญ (์‹ค์ œ ์ถ”๋ก ์— ์‚ฌ์šฉํ•œ ์—ํญ)
  • LP: Length Penalty
  • Min/Max: ์š”์•ฝ๋ฌธ์˜ ์ตœ์†Œ, ์ตœ๋Œ€ ๊ธธ์ด (ํ† ํฌ๋‚˜์ด์ง• ๋œ ์š”์•ฝ๋ฌธ์˜ ๊ธธ์ด ๊ธฐ์ค€)
  • Variable Summary: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ๊ธธ์ด์— ๋”ฐ๋ผ ์š”์•ฝ๋ฌธ์˜ ๊ธธ์ด๋ฅผ ๊ฐ€๋ณ€์ ์œผ๋กœ ๊ฒฐ์ •
  • Variable Padding: ์ž…์ถœ๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํŒจ๋”ฉ์„ ๊ณ ์ •๋œ ๊ฐ’(e.g. 1024, 256 ๋“ฑ)์ด ์•„๋‹Œ, ๋ฐฐ์น˜ ๋‹จ์œ„์—์„œ์˜ ์ตœ๋Œ€ ๊ธธ์ด๋กœ ์ ์šฉ

๋Œ€ํšŒ ๊ธฐ๊ฐ„๋™์•ˆ ์ˆ˜ํ–‰๋œ ๋ชจ๋“  ์‹คํ—˜์˜ ๋กœ๊ทธ๋Š” TensorBoard.dev์— Commitํ•˜์˜€์œผ๋ฉฐ, Fine-tuning๋œ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜ ํŒŒ์ผ๋“ค์€ ๋ณ„๋„๋กœ ๊ณต์œ ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

TensorBoard.dev์— ๊ฒŒ์‹œํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์•„๋ž˜์™€ ๊ฐ™์œผ๋ฉฐ, ๋กœ์ปฌ์—์„œ ์ง„ํ–‰ํ•  ๊ฒฝ์šฐ ๋†’์€ ํ™•๋ฅ ๋กœ ์•ˆ๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์œผ๋ฏ€๋กœ ์ฝ”๋žฉ์œผ๋กœ ๋กœ๊ทธํŒŒ์ผ์„ ์˜ฎ๊ธด ๋’ค ํ•ด๋‹น ์ฐฝ์—์„œ ์•„๋ž˜ ๋ช…๋ น์–ด๋ฅผ ์‹คํ–‰์‹œํ‚ค์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

(venv) $ !tensorboard dev upload --logdir ./logs \
    --name "{SOME_NAME_OF_YOUR_LOGS}" \
    --description "{SOME_DESCRIPTION_OF_YOUR_LOGS}" \
    --one_shot

์„ธ๋ถ€์ ์ธ ์ˆ˜ํ–‰๋‚ด์šฉ์ด ์ ํžŒ 2์ฐจํ‰๊ฐ€ ๋ฐœํ‘œ์ž๋ฃŒ๋Š” ๋‹ค์Œ์—์„œ ํ™•์ธํ•˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Acknowledgement

๋ณธ ์—ฐ๊ตฌ๋Š” ์ •๋ณดํ†ต์‹ ์‚ฐ์—…์ง„ํฅ์›์—์„œ ์ง„ํ–‰ํ•œ "2021๋…„ ์ธ๊ณต์ง€๋Šฅ ๊ณ ์„ฑ๋Šฅ ์ปดํ“จํŒ… ์ž์› ์ง€์› ์‚ฌ์—…"์— ์„ ์ •๋˜์–ด ์ง€์›๋ฐ›์€ ์ปดํ“จํŒ… ์ž์›์„ ์ด์šฉํ•˜์—ฌ ์ˆ˜ํ–‰๋˜์—ˆ์Œ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Reference

Abstractive Text Summarization ๋ถ„์•ผ์— ๊ด€ํ•ด ์ข€ ๋” ๊ณต๋ถ€ํ•˜๊ณ ์ž ํ•˜์‹œ๋Š” ๋ถ„๋“ค์€, ์•„๋ž˜ ์‚ฌ์ดํŠธ๋ฅผ ์ฐธ์กฐํ•˜์‹œ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published