最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟

2023-06-25 08:52 作者:bili_2084577828  | 我要投稿


之前我們介紹了一些OCR前期圖片處理的技術(shù),其實(shí)要將圖片上的表格識別出來,前期的圖片處理和OCR技術(shù)是遠(yuǎn)遠(yuǎn)不夠的,我們還需要用到數(shù)據(jù)集構(gòu)建技術(shù),那么,它的實(shí)現(xiàn)大致步驟是怎樣的呢?

1. 收集數(shù)據(jù):收集包含表格的圖像或PDF文件(圖片型PDF)。我們會首先從公共數(shù)據(jù)集中獲取,如ICDAR產(chǎn)生的和COCO-Text等,其次也會自行收集大量的不同類型的帶表格的圖片,包括有表格線和無表格線的。

2. 標(biāo)注數(shù)據(jù):對于每個圖像或PDF文件,需要手動標(biāo)注表格的位置和單元格的邊界框,這個過程可能會比較繁瑣,但為了獲得更準(zhǔn)確的識別率和更好的表格識別效果,這一步又是必不可少的??梢允褂玫臉?biāo)注工具有LabelImg、VGG Image Annotator等。

3. 數(shù)據(jù)清洗:對標(biāo)注不準(zhǔn)確或不完整的數(shù)據(jù)進(jìn)行清洗,以確保數(shù)據(jù)集的質(zhì)量,為后面的處理提供高質(zhì)量的數(shù)據(jù)支撐。

4. 數(shù)據(jù)劃分:將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集。通常采用80/10/10的比例。

5. 數(shù)據(jù)增強(qiáng):我們對于訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),會使用旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等技術(shù),以增加數(shù)據(jù)集的多樣性和數(shù)量。

6. 數(shù)據(jù)格式轉(zhuǎn)換:將數(shù)據(jù)集轉(zhuǎn)換為模型所需的格式,如TFRecord、COCO等。

7. 數(shù)據(jù)集評估:使用評估指標(biāo),如準(zhǔn)確率、召回率、F1值等,對模型進(jìn)行評估。

以上是我們的構(gòu)建數(shù)據(jù)集的大致步驟,由于數(shù)據(jù)集的質(zhì)量對訓(xùn)練模型的性能有很大影響,因此我們每天都需要花費(fèi)了大量時間和精力去不斷地完善。

#excel技巧#

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟的評論 (共 條)

分享到微博請遵守國家法律
达拉特旗| 玛纳斯县| 孝昌县| 永州市| 永善县| 志丹县| 邢台县| 江阴市| 惠州市| 蓝田县| 安陆市| 盖州市| 怀来县| 察隅县| 龙口市| 海淀区| 三亚市| 宁国市| 治多县| 丰都县| 新宁县| 沙河市| 康保县| 鹤壁市| 新乐市| 临夏市| 望谟县| 宁武县| 隆回县| 武汉市| 阿鲁科尔沁旗| 达拉特旗| 无棣县| 本溪市| 翁源县| 泸西县| 塘沽区| 盐城市| 宜城市| 屏山县| 桃园市|