實現text-detection-ctpn一路的坎坎坷坷

  小編在學習文本檢測,因為作者提供的caffe實現沒有訓練代碼(不過訓練代碼可以參考faster-rcnn的訓練代碼),所以我打算先使用tensorflow實現,主要是復現前輩的代碼,主要是對文本檢測模型進行訓練。

  代碼的GitHub地址:https://github.com/eragonruan/text-detection-ctpn

  主要寫一下自己實現的過程,因為原文給的步驟,小編沒有完全實現,所以首先打算解讀一下原文步驟,然後加上自己的理解,寫下自己可以實現的步驟。

文本檢測概述

  文本檢測可以看成特殊的目標檢測,但是它有別與通過目標檢測,在通用目標檢測中,每個目標都有定義好的邊界框,檢測出的bbox與當前目標的groundtruth重疊率大於0.5就表示該檢測結果正確,文本檢測中正確檢出需要覆蓋整個文本長度,且評判的標準不同於通用目標檢測,具體的評判方法參見(ICDAR 2017 RobustReading Competition).所以通用的目標檢測方法並不適用文本檢測。

1,參數設置

parameters

there are some parameters you may need to modify according to your requirement, you can find them in ctpn/text.yml

  • USE_GPU_NMS # whether to use nms implemented in cuda or not
  • DETECT_MODE # H represents horizontal mode, O represents oriented mode, default is H
  • checkpoints_path # the model I provided is in checkpoints/, if you train the model by yourself,it will be saved in output/

1.1  對其進行翻譯如下:

  根據我們的一些要求,我們可能需要修改一些參數,文檔在ctpn/text.yml

  • USE_GPU_NMS     是否使用在cuda中實現的nms
  • DETECT_MODE    H表示水平模式,O表示定向模式,默認為H
  • checkpoints_path   作者提供的模型在checkpoints/  如果我們自己訓練模型,它將保存在 output/ 下面

自己訓練的模型在這個路徑下面:

 checkpoints_path: output/ctpn_end2end/voc_2007_trainval

下面展示一下小編訓練出來的模型:

 

2:環境設置

setup

  • requirements: python2.7, tensorflow1.3, cython0.24, opencv-python, easydict,(recommend to install Anaconda)
  • if you have a gpu device, build the library by
cd lib / utils 
chmod + x make.sh 
./make.sh

2.1  對其進行翻譯如下:

  需求的是python2.7 tensorflow1.3 cython0.24,opencv-python,easydict,(建議安裝Anaconda)

  (因為我有GPU)所以直接進行第三步,進入lib、utils,執行chmod+x給權限(在給權限之前,make.sh是灰色的(不可執行的文檔),執行chmod+x make.sh 則變成綠色(可執行的文檔))

 

3:準備數據

prepare data

  • First, download the pre-trained model of VGG net and put it in data/pretrain/VGG_imagenet.npy. you can download it from google drive or baidu yun.
  • Second, prepare the training data as referred in paper, or you can download the data I prepared from google drive or baidu yun. Or you can prepare your own data according to the following steps.
  • Modify the path and gt_path in prepare_training_data/split_label.py according to your dataset. And run
cd lib/prepare_training_data
python split_label.py

 

  • it will generate the prepared data in current folder, and then run
python ToVoc.py

 

  • to convert the prepared training data into voc format. It will generate a folder named TEXTVOC. move this folder to data/ and then run
cd ../../data
ln -s TEXTVOC VOCdevkit2007

3.1 對其進行翻譯

  •   首先,下載預先訓練的VGG網絡模型並將其放在data/pretrain/VGG_imagenet.npy.
  •   其次,準備論文提到的訓練數據。或者我們可以放置自己的數據
  •   根據我們的數據集修改prepare_training_data/split_label.py中的path和gt_path路徑。並執行下面操作。
cd lib/prepare_training_data
python split_label.py
  •    它將在當前文檔夾中生成準備好的數據,然後運行下面代碼:
python ToVoc.py
  •         將準備好的訓練數據轉換為voc格式。它將生成一個名為TEXTVOC的文檔夾。將此文檔夾移動到數據/然後運行
cd ../../data 
ln -s TEXTVOC VOCdevkit2007

3.2 數據是否只有VOC2007?

  作者給的數據是預處理過的數據,

  我們下載了數據,VOCdevkit2007 只有1.06G,但是此數據可以訓練自己的模式,要是想訓練自己的數據,那麼需要自己標註數據,找自己的數據。

  作者使用的icdar17的multi lingual scene text dataset, 沒有用voc,只是用了他的數據格式,下面給出的數據是作者實現的源數據地址。

  gt_path的數據地址:http://rrc.cvc.uab.es/?com=contestant

   進入2017MLT 查看如下:

  然後我們可以發送郵件,註冊用户,並激活,進入下載頁面:

  找到數據集並下載,因為這是國外網址,所以被牆了,小編沒有全部下載下來,就走到了這一步,目前沒有下一步(如果有人看到這篇博文,希望把下載的數據能分享給我,先在這裏道聲謝!!!):

 

 3.3 存放數據

  作者訓練使用的是6000張圖片。使用train或者trainval是一樣的,因為用的都是這6000張圖片。可以檢查一下VOCdevkit2007/VOC2007/ImageSets/Main下面的train.txt和trainval.txt是否正確,是否是6000張圖片。你在用自己數據訓練的時候也要特別注意一點,數據的標註格式是不是和mlt這個數據集一致,因為split_label這個函數是針對mlt的標註格式來寫的,所以如果你原始數據標註格式如果和它不同,轉換之後可能會是錯的,那麼得到的用來訓練的數據集可能也不對。

  這是作者存放數據的路徑,我們修改路徑,並放數據(因為源數據沒有拿到,所以就數據存放也就做到這一步,沒有後續!!)。

對原始gt文檔進一步處理的分析(也就是對txt標註數據進行進一步處理),生成對應的xml文檔部分內容截圖如下:

對split_label的部分代碼截取如下:

for file in files:
    _, basename = os.path.split(file)
    if basename.lower().split('.')[-1] not in ['jpg', 'png']:
        continue
    stem, ext = os.path.splitext(basename)
    gt_file = os.path.join(gt_path, 'gt_' + stem + '.txt')
    img_path = os.path.join(path, file)
    print(img_path)
    img = cv.imread(img_path)
    img_size = img.shape
    im_size_min = np.min(img_size[0:2])
    im_size_max = np.max(img_size[0:2])

    im_scale = float(600) / float(im_size_min)
    if np.round(im_scale * im_size_max) > 1200:
        im_scale = float(1200) / float(im_size_max)
    re_im = cv.resize(img, None, None, fx=im_scale, fy=im_scale, interpolation=cv.INTER_LINEAR)
    re_size = re_im.shape
    cv.imwrite(os.path.join(out_path, stem) + '.jpg', re_im)

    with open(gt_file, 'r') as f:
        lines = f.readlines()
    for line in lines:
        splitted_line = line.strip().lower().split(',')
        pt_x = np.zeros((4, 1))
        pt_y = np.zeros((4, 1))
        pt_x[0, 0] = int(float(splitted_line[0]) / img_size[1] * re_size[1])
        pt_y[0, 0] = int(float(splitted_line[1]) / img_size[0] * re_size[0])
        pt_x[1, 0] = int(float(splitted_line[2]) / img_size[1] * re_size[1])
        pt_y[1, 0] = int(float(splitted_line[3]) / img_size[0] * re_size[0])
        pt_x[2, 0] = int(float(splitted_line[4]) / img_size[1] * re_size[1])
        pt_y[2, 0] = int(float(splitted_line[5]) / img_size[0] * re_size[0])
        pt_x[3, 0] = int(float(splitted_line[6]) / img_size[1] * re_size[1])
        pt_y[3, 0] = int(float(splitted_line[7]) / img_size[0] * re_size[0])

        ind_x = np.argsort(pt_x, axis=0)
        pt_x = pt_x[ind_x]
        pt_y = pt_y[ind_x]

        if pt_y[0] < pt_y[1]:
            pt1 = (pt_x[0], pt_y[0])
            pt3 = (pt_x[1], pt_y[1])
        else:
            pt1 = (pt_x[1], pt_y[1])
            pt3 = (pt_x[0], pt_y[0])

        if pt_y[2] < pt_y[3]:
            pt2 = (pt_x[2], pt_y[2])
            pt4 = (pt_x[3], pt_y[3])
        else:
            pt2 = (pt_x[3], pt_y[3])
            pt4 = (pt_x[2], pt_y[2])

        xmin = int(min(pt1[0], pt2[0]))
        ymin = int(min(pt1[1], pt2[1]))
        xmax = int(max(pt2[0], pt4[0]))
        ymax = int(max(pt3[1], pt4[1]))

        if xmin < 0:
            xmin = 0
        if xmax > re_size[1] - 1:
            xmax = re_size[1] - 1
        if ymin < 0:
            ymin = 0
        if ymax > re_size[0] - 1:
            ymax = re_size[0] - 1

        width = xmax - xmin
        height = ymax - ymin

        # reimplement
        step = 16.0
        x_left = []
        x_right = []
        x_left.append(xmin)
        x_left_start = int(math.ceil(xmin / 16.0) * 16.0)
        if x_left_start == xmin:
            x_left_start = xmin + 16
        for i in np.arange(x_left_start, xmax, 16):
            x_left.append(i)
        x_left = np.array(x_left)

        x_right.append(x_left_start - 1)
        for i in range(1, len(x_left) - 1):
            x_right.append(x_left[i] + 15)
        x_right.append(xmax)
        x_right = np.array(x_right)

        idx = np.where(x_left == x_right)
        x_left = np.delete(x_left, idx, axis=0)
        x_right = np.delete(x_right, idx, axis=0)

        if not os.path.exists('label_tmp'):
            os.makedirs('label_tmp')
        with open(os.path.join('label_tmp', stem) + '.txt', 'a') as f:
            for i in range(len(x_left)):
                f.writelines("text\t")
                f.writelines(str(int(x_left[i])))
                f.writelines("\t")
                f.writelines(str(int(ymin)))
                f.writelines("\t")
                f.writelines(str(int(x_right[i])))
                f.writelines("\t")
                f.writelines(str(int(ymax)))
                f.writelines("\n")

3.4 參考知乎大神的準備數據如下:

  數據標註

  在標註數據的時候採用的是順時針方向,一次是左上角座標點,右上角座標點,右下角座標點,左下角座標點(即x1,y1,x2,y2,x3,y3,x4,y4),,這裏的標註方式與通用目標檢測的目標檢測方式一樣,這裏我標註的數據是生成到txt中,具體格式如下:

 

  x1,y1,x2,y2,x3,y3,x4,y4 分別是一個框的四個角點的x,y座標。這是因為作者用的mlt訓練的,他的數據就是這麼標註的,如果你要用一些水平文本的數據集,標註是x,y,w,h的,也是可以的,修改一下split_label的代碼,或者寫個小腳本把x,y,w,h轉換成x1,y1,x2,y2,x3,y3,x4,y4就行。

   數據處理

  根據ctpn訓練數據的要求,需要對上述數據(txt標註數據)進行進一步的處理,生成對應的xml文檔,具體格式參考pascal voc 具體的訓練數據截圖和生成的pascal voc格式如下圖:

  處理數據的時候執行下面代碼(和原文一致)

cd lib/prepare_training_data
python split_label.py
python ToVoc.py
cd ../../data
ln -s TEXTVOC VOCdevkit2007

   注意:這裏生成的數據會在當前目錄下,文檔夾為TEXTVOC,需要將該文檔夾移至/data目錄下,然後再做VOCdevikt2007的軟連接。

3.5 準備數據注意事項

  在原作者使用那6000張圖片的話,roidb和image_index都是6000,因為使用的train和trainval是一樣的,所以我們在使用自己數據訓練的時候也要特別注意一點,數據的標註格式是不是與mlt這個數據集一致,因為split_label這個函數是針對mlt的標註格式來寫的,所以我們原始數據標註格式如果和它不同,轉化之後可能會是錯的,那麼得來的用來訓練的數據集可能也不對。

  cache是為了加速數據讀取,所以不會每次重新生成,更換了數據集需要手動清理。

 3.6 訓練數據的格式是什麼樣子,是否需要準備圖片?

  其實想了解自己準備圖片的格式,以及圖片中的文本區域的座標是否需要手動標出,才能訓練。

  上面也説了訓練數據的格式是x1,y1,x2,y2,x3,y3,x4,y4 ,當然了自己標註比較麻煩,這裏我們可以直接使用一些公開的數據集,原作者使用的額是multi lingual scene texts dataset。

 

4:訓練

Simplely run

python ./ctpn/train_net.py
  • you can modify some hyper parameters in ctpn/text.yml, or just used the parameters I set.
  • The model I provided in checkpoints is trained on GTX1070 for 50k iters.
  • If you are using cuda nms, it takes about 0.2s per iter. So it will takes about 2.5 hours to finished 50k iterations.

4.1:對其進行翻譯

簡單的運行

  你可以在ctpn/text.yml中修改一些參數,或者只使用作者設置的參數

  作者提供的模型在GTX1070上訓練了50K iters

  如果我們正在使用cuda nms ,它每次約需要0.2秒,因此完成50k迭代需要大約2.5小時

當然,我們可以指定在那塊顯卡上運行,比如我這裏指定選擇第一塊顯卡上訓練,訓練的命令如下:

CUDA_VISIBLE_DEVICES="0" python ./ctpn/train_net.py

 

4.2 成功運行截圖!!!

 

4.3:執行訓練代碼報的一個錯誤如下

AttributeError: module 'tensorflow.python.ops.gen_logging_ops' has no attribute '_image_summary'

 

  tensroflow 新版本相較於一些老版本更改了一些函數和變量類型。可以到 \lib\fast_rcnn\train.py 內嘗試把 build_image_summary(self) 函數整體替換為以下語句:

def build_image_summary(self):
    # A simple graph for write image summary
    log_image_data = tf.placeholder(tf.uint8, [None, None, 3])
    log_image_name = tf.placeholder(tf.string)
    from tensorflow.python.ops import gen_logging_ops
    from tensorflow.python.framework import ops as _ops
    log_image = tf.summary.image(str(log_image_name), 
        tf.expand_dims(log_image_data, 0), max_outputs=1)
    _ops.add_to_collection(_ops.GraphKeys.SUMMARIES, log_image)
    return log_image, log_image_data, log_image_name

  也就是把原文中那句替換成下面這句:

log_image = tf.summary.image(str(log_image_name),
 tf.expand_dims(log_image_data, 0), max_outputs=1)

4.4 在訓練時候,訓練集擴展了2倍,目的是什麼?

  在訓練時候,訓練集擴展了2倍,圖片倍翻轉了,這樣做的目的是擴展訓練集。

5:部分代碼解析

5.1 train_net.py的代碼解析

import os.path
import pprint
import sys

#os.getcwd()返回當前工作目錄  sys.path.append()用於將前面的工作目錄添加到搜索路徑中
sys.path.append(os.getcwd())
from lib.fast_rcnn.train import get_training_roidb, train_net
from lib.fast_rcnn.config import cfg_from_file, get_output_dir, get_log_dir
from lib.datasets.factory import get_imdb
from lib.networks.factory import get_network
from lib.fast_rcnn.config import cfg

if __name__ == '__main__':
    #存放訓練參數
    cfg_from_file('ctpn/text.yml')
    print('Using config:')
    # pprint函數的pprint模塊下的方法是一種標準的格式化輸出方式。
    # pprint(object, stream=None, indent=1, width=80, depth=None, *, compact=False)
    # 這裏是將訓練的參數格式化顯示出來
    pprint.pprint(cfg)
    # 讀取VOC中的數據集
    imdb = get_imdb('voc_2007_trainval')
    print('Loaded dataset `{:s}` for training'.format(imdb.name))
    # 獲得感興趣區域的數據集
    roidb = get_training_roidb(imdb)

    # 返回進程運行結果存放的文檔夾的路徑
    output_dir = get_output_dir(imdb, None)
    # 返回進程運行時中間過程產生的文檔。
    log_dir = get_log_dir(imdb)
    print('Output will be saved to `{:s}`'.format(output_dir))
    print('Logs will be saved to `{:s}`'.format(log_dir))

    device_name = '/gpu:0'
    print(device_name)

    # 獲取VGG網絡結構 定義網絡結構
    network = get_network('VGGnet_train')

    train_net(network, imdb, roidb,
              output_dir=output_dir,
              log_dir=log_dir,
              pretrained_model='data/pretrain/VGG_imagenet.npy',
              max_iters=int(cfg.TRAIN.max_steps),restore=bool(int(cfg.TRAIN.restore)))
#採用VGG_Net 輸入訓練圖片的數據集,感興趣區域的數據集等開始訓練。。

 

 

 

參考文獻:https://zhuanlan.zhihu.com/p/37363942

http://slade-ruan.me/2017/10/22/text-detection-ctpn/

關鍵詞:數據 pt 訓練 size path data image int log left

相關推薦:

【OCR技術系列之六】文本檢測CTPN的代碼實現

深度學習論文翻譯解析(四):Faster R-CNN: Down the rabbit hole of modern object detection

【MongoDb入門】15分鐘讓你敢説自己會用MongoDb了

(轉載)深度學習基礎(3)——神經網絡和反向傳播算法

利用深度學習進行裝備抽查

spring+springmvc+hibernate 禮品管理系統

Wireshark抓包分析TCP.IP.UDP.ICMP報文格式

(轉載)深度學習基礎(2)——線性單元和梯度下降

深度學習之PyTorch實戰(3)——實戰手寫數字識別

記錄自己使用GitHub的點點滴滴