Revert "add table eval and predict script" (PaddlePaddle#3062)

Evezerest · Jun 9, 2021 · 3302a0b · 3302a0b
1 parent 85aeae7
commit 3302a0b
Show file tree

Hide file tree

Showing 32 changed files with 101 additions and 5,183 deletions.
diff --git a/MANIFEST.in b/MANIFEST.in
@@ -1,7 +1,7 @@
-include LICENSE
+include LICENSE.txt
 include README.md
 
-recursive-include ppocr/utils *.txt utility.py logging.py network.py
+recursive-include ppocr/utils *.txt utility.py logging.py
 recursive-include ppocr/data/ *.py
 recursive-include ppocr/postprocess *.py
 recursive-include tools/infer *.py

diff --git a/doc/table/1.png b/doc/table/1.png
diff --git a/paddleocr.py b/paddleocr.py
@@ -19,101 +19,102 @@
 sys.path.append(os.path.join(__dir__, ''))
 
 import cv2
-import logging
 import numpy as np
 from pathlib import Path
+import tarfile
+import requests
+from tqdm import tqdm
 
 from tools.infer import predict_system
 from ppocr.utils.logging import get_logger
 
 logger = get_logger()
 from ppocr.utils.utility import check_and_read_gif, get_image_file_list
-from ppocr.utils.network import maybe_download, download_with_progressbar
 from tools.infer.utility import draw_ocr, init_args, str2bool
 
 __all__ = ['PaddleOCR']
 
 model_urls = {
  'det': {
  'ch':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_det_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_det_infer.tar',
  'en':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/en_ppocr_mobile_v2.0_det_infer.tar'
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/en_ppocr_mobile_v2.0_det_infer.tar'
  },
  'rec': {
  'ch': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/ppocr_keys_v1.txt'
  },
  'en': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/en_number_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/en_number_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/en_dict.txt'
  },
  'french': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/french_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/french_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/french_dict.txt'
  },
  'german': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/german_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/german_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/german_dict.txt'
  },
  'korean': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/korean_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/korean_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/korean_dict.txt'
  },
  'japan': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/japan_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/japan_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/japan_dict.txt'
  },
  'chinese_cht': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/chinese_cht_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/chinese_cht_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/chinese_cht_dict.txt'
  },
  'ta': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/ta_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/ta_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/ta_dict.txt'
  },
  'te': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/te_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/te_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/te_dict.txt'
  },
  'ka': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/ka_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/ka_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/ka_dict.txt'
  },
  'latin': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/latin_ppocr_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/latin_ppocr_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/latin_dict.txt'
  },
  'arabic': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/arabic_ppocr_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/arabic_ppocr_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/arabic_dict.txt'
  },
  'cyrillic': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/cyrillic_ppocr_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/cyrillic_ppocr_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/cyrillic_dict.txt'
  },
  'devanagari': {
  'url':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/devanagari_ppocr_mobile_v2.0_rec_infer.tar',
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/devanagari_ppocr_mobile_v2.0_rec_infer.tar',
  'dict_path': './ppocr/utils/dict/devanagari_dict.txt'
  }
  },
  'cls':
-  'https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar'
+ 'https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar'
 }
 
 SUPPORT_DET_MODEL = ['DB']
@@ -122,6 +123,50 @@
 BASE_DIR = os.path.expanduser("~/.paddleocr/")
 
 
+def download_with_progressbar(url, save_path):
+ response = requests.get(url, stream=True)
+ total_size_in_bytes = int(response.headers.get('content-length', 0))
+ block_size = 1024 # 1 Kibibyte
+ progress_bar = tqdm(total=total_size_in_bytes, unit='iB', unit_scale=True)
+ with open(save_path, 'wb') as file:
+ for data in response.iter_content(block_size):
+ progress_bar.update(len(data))
+ file.write(data)
+ progress_bar.close()
+ if total_size_in_bytes == 0 or progress_bar.n != total_size_in_bytes:
+ logger.error("Something went wrong while downloading models")
+ sys.exit(0)
+
+
+def maybe_download(model_storage_directory, url):
+ # using custom model
+ tar_file_name_list = [
+ 'inference.pdiparams', 'inference.pdiparams.info', 'inference.pdmodel'
+ ]
+ if not os.path.exists(
+ os.path.join(model_storage_directory, 'inference.pdiparams')
+ ) or not os.path.exists(
+ os.path.join(model_storage_directory, 'inference.pdmodel')):
+ tmp_path = os.path.join(model_storage_directory, url.split('/')[-1])
+ print('download {} to {}'.format(url, tmp_path))
+ os.makedirs(model_storage_directory, exist_ok=True)
+ download_with_progressbar(url, tmp_path)
+ with tarfile.open(tmp_path, 'r') as tarObj:
+ for member in tarObj.getmembers():
+ filename = None
+ for tar_file_name in tar_file_name_list:
+ if tar_file_name in member.name:
+ filename = tar_file_name
+ if filename is None:
+ continue
+ file = tarObj.extractfile(member)
+ with open(
+ os.path.join(model_storage_directory, filename),
+ 'wb') as f:
+ f.write(file.read())
+ os.remove(tmp_path)
+
+
 def parse_args(mMain=True):
  import argparse
  parser = init_args()
@@ -149,12 +194,10 @@ def __init__(self, **kwargs):
  args:
  **kwargs: other params show in paddleocr --help
  """
- params = parse_args(mMain=False)
- params.__dict__.update(**kwargs)
- if params.show_log:
- logger.setLevel(logging.DEBUG)
- self.use_angle_cls = params.use_angle_cls
- lang = params.lang
+ postprocess_params = parse_args(mMain=False)
+ postprocess_params.__dict__.update(**kwargs)
+ self.use_angle_cls = postprocess_params.use_angle_cls
+ lang = postprocess_params.lang
  latin_lang = [
  'af', 'az', 'bs', 'cs', 'cy', 'da', 'de', 'es', 'et', 'fr', 'ga',
  'hr', 'hu', 'id', 'is', 'it', 'ku', 'la', 'lt', 'lv', 'mi', 'ms',
@@ -180,46 +223,46 @@ def __init__(self, **kwargs):
  lang = "devanagari"
  assert lang in model_urls[
  'rec'], 'param lang must in {}, but got {}'.format(
- model_urls['rec'].keys(), lang)
+  model_urls['rec'].keys(), lang)
  if lang == "ch":
  det_lang = "ch"
  else:
  det_lang = "en"
  use_inner_dict = False
- if params.rec_char_dict_path is None:
+ if postprocess_params.rec_char_dict_path is None:
  use_inner_dict = True
- params.rec_char_dict_path = model_urls['rec'][lang][
+ postprocess_params.rec_char_dict_path = model_urls['rec'][lang][
  'dict_path']
 
  # init model dir
- if params.det_model_dir is None:
- params.det_model_dir = os.path.join(BASE_DIR, VERSION,
+ if postprocess_params.det_model_dir is None:
+ postprocess_params.det_model_dir = os.path.join(BASE_DIR, VERSION,
  'det', det_lang)
- if params.rec_model_dir is None:
- params.rec_model_dir = os.path.join(BASE_DIR, VERSION,
+ if postprocess_params.rec_model_dir is None:
+ postprocess_params.rec_model_dir = os.path.join(BASE_DIR, VERSION,
  'rec', lang)
- if params.cls_model_dir is None:
- params.cls_model_dir = os.path.join(BASE_DIR, 'cls')
+ if postprocess_params.cls_model_dir is None:
+ postprocess_params.cls_model_dir = os.path.join(BASE_DIR, 'cls')
+ print(postprocess_params)
  # download model
- maybe_download(params.det_model_dir,
+ maybe_download(postprocess_params.det_model_dir,
  model_urls['det'][det_lang])
- maybe_download(params.rec_model_dir,
+ maybe_download(postprocess_params.rec_model_dir,
  model_urls['rec'][lang]['url'])
- maybe_download(params.cls_model_dir, model_urls['cls'])
+ maybe_download(postprocess_params.cls_model_dir, model_urls['cls'])
 
- if params.det_algorithm not in SUPPORT_DET_MODEL:
+ if postprocess_params.det_algorithm not in SUPPORT_DET_MODEL:
  logger.error('det_algorithm must in {}'.format(SUPPORT_DET_MODEL))
  sys.exit(0)
- if params.rec_algorithm not in SUPPORT_REC_MODEL:
+ if postprocess_params.rec_algorithm not in SUPPORT_REC_MODEL:
  logger.error('rec_algorithm must in {}'.format(SUPPORT_REC_MODEL))
  sys.exit(0)
  if use_inner_dict:
- params.rec_char_dict_path = str(
- Path(__file__).parent / params.rec_char_dict_path)
+ postprocess_params.rec_char_dict_path = str(
+ Path(__file__).parent / postprocess_params.rec_char_dict_path)
 
- print(params)
  # init det_model and rec_model
- super().__init__(params)
+ super().__init__(postprocess_params)
 
  def ocr(self, img, det=True, rec=True, cls=True):
  """

diff --git a/ppocr/data/imaug/operators.py b/ppocr/data/imaug/operators.py
@@ -81,7 +81,7 @@ def __call__(self, data):
  assert isinstance(img,
  np.ndarray), "invalid input 'img' in NormalizeImage"
  data['image'] = (
-  img.astype('float32') * self.scale - self.mean) / self.std
+ img.astype('float32') * self.scale - self.mean) / self.std
  return data
 
 
@@ -163,7 +163,7 @@ def resize_image_type0(self, img):
  img, (ratio_h, ratio_w)
  """
  limit_side_len = self.limit_side_len
- h, w, c = img.shape
+ h, w, _ = img.shape
 
  # limit the max side
  if self.limit_type == 'max':
@@ -174,18 +174,14 @@ def resize_image_type0(self, img):
  ratio = float(limit_side_len) / w
  else:
  ratio = 1.
- elif self.limit_type == 'min':
+ else:
  if min(h, w) < limit_side_len:
  if h < w:
  ratio = float(limit_side_len) / h
  else:
  ratio = float(limit_side_len) / w
  else:
  ratio = 1.
- elif self.limit_type == 'resize_long':
- ratio = float(limit_side_len) / max(h,w)
- else:
- raise Exception('not support limit type, image ')
  resize_h = int(h * ratio)
  resize_w = int(w * ratio)