数据库说明文档

该数据库是基于优秀人工排版作品《今日金东》构建的一个细粒度电子报数据库。数据库中包含两个主文件，1）paddlepaddle文件夹存储版面识别模型所需要的coco格式数据集，包括电子报图像和其对应的注释数据。2）论文相关数据文件夹则存储着由新闻原始素材数据库和版面识别数据库连接进行二次处理后的电子报特征数据库。下面对子文件结构进行详细描述。

1、paddlepaddle

该文件中测试集包含171张电子报图像，训练集包含47张电子报图像，验证集包含10张电子报图像。
文件夹结构：

  ├── annotations
  │   ├── test.json
  │   ├── train.json
  │   ├── val.json
  ├── test
  ├── train
  ├── val

annaotations文件夹包含测试集、训练集、验证集的注释文件，该注释文件格式以COCO数据集为基准，主要包含图像信息"images"和对应注释信息"annotations"。
注释文件结构：

 "images": [
        {
            "file_name": "15839725380.jpg",//图片名
            "height": 2878,//图片高度
            "id": 58,
            "width": 1837//图片宽度
        },
        ...
        ]
"annotations": [
        {
            "segmentation": [//对象的边界点（边界多边形）
                [
                    105,1786,//第一个点x,y坐标
                    256,1786,//第二个点x,y坐标
                    256,1824,
                    105,1824,
                    105,1786
                ]
            ],
            "area": 5738,//区域面积
            "iscrowd": 0,
            "image_id": 58,//对应的图像id
            "bbox": [//标注框[x,y,w,h]
                105,
                1786,
                151,
                38
            ],
            "category_id": 0,//检测种类号
            "id": 1899 //对象id
        },
        ...
        ]

2、论文相关数据

该数据集存储了171张电子报图像，958个文章块的详细特征信息，这里对电子报特征信息提供了csv格式和xml格式，其中，file_name_id存储电子报图像名称，attributes提供丰富的电子报版面特征信息。attributes表的属性结构如下方表格所示：

属性名	描述
article_id	文章号
newspaper_id	版面号
atitle	主标题内容
ftitle	副标题内容
ytitle	引题内容
article_x	文章块x坐标
article_y	文章块y坐标
article_w	文章块宽度
article_h	文章块高度
maintitle_area_coord	主标题方框坐标
subtitle_area_coord	副标题方框坐标
picture_area_coord	图片方框坐标
text_area_coord	正文方框坐标
title_style	主标题方向
maintitle_charsize	主标题字号
text_char_count_ratio	单篇正文文字字数占全文字数比例
atitle_char_count	主标题字数
text_char_count	正文字数
subtitle_count	副标题字数
picture_count	图片字数
news_type	新闻类型
page_structure	版面拓扑结构类型
style_category	样式类型
page_article_count	单个版面文章数量
column_width	单栏宽度
column_count	正文分栏栏数
iscolumn	正文是否分栏

ty / 今日金东电子报数据集

数据库说明文档

1、paddlepaddle

2、论文相关数据

简介

发行版

贡献者

近期动态

ty / 今日金东电子报数据集 .gitee-modal { width: 500px !important; }

数据库说明文档

1、paddlepaddle

2、论文相关数据

简介

发行版

贡献者

近期动态

搜索帮助

ty / 今日金东电子报数据集