1 Star 0 Fork 0

ty / 今日金东电子报数据集

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

数据库说明文档

该数据库是基于优秀人工排版作品《今日金东》构建的一个细粒度电子报数据库。数据库中包含两个主文件,1)paddlepaddle文件夹存储版面识别模型所需要的coco格式数据集,包括电子报图像和其对应的注释数据。2)论文相关数据文件夹则存储着由新闻原始素材数据库和版面识别数据库连接进行二次处理后的电子报特征数据库。下面对子文件结构进行详细描述。

1、paddlepaddle

该文件中测试集包含171张电子报图像,训练集包含47张电子报图像,验证集包含10张电子报图像。
文件夹结构:

  ├── annotations
  │   ├── test.json
  │   ├── train.json
  │   ├── val.json
  ├── test
  ├── train
  ├── val

annaotations文件夹包含测试集、训练集、验证集的注释文件,该注释文件格式以COCO数据集为基准,主要包含图像信息"images"和对应注释信息"annotations"。
注释文件结构:

 "images": [
        {
            "file_name": "15839725380.jpg",//图片名
            "height": 2878,//图片高度
            "id": 58,
            "width": 1837//图片宽度
        },
        ...
        ]
"annotations": [
        {
            "segmentation": [//对象的边界点(边界多边形)
                [
                    105,1786,//第一个点x,y坐标
                    256,1786,//第二个点x,y坐标
                    256,1824,
                    105,1824,
                    105,1786
                ]
            ],
            "area": 5738,//区域面积
            "iscrowd": 0,
            "image_id": 58,//对应的图像id
            "bbox": [//标注框[x,y,w,h]
                105,
                1786,
                151,
                38
            ],
            "category_id": 0,//检测种类号
            "id": 1899 //对象id
        },
        ...
        ]

2、论文相关数据

该数据集存储了171张电子报图像,958个文章块的详细特征信息,这里对电子报特征信息提供了csv格式和xml格式,其中,file_name_id存储电子报图像名称,attributes提供丰富的电子报版面特征信息。attributes表的属性结构如下方表格所示:

属性名 描述
article_id 文章号
newspaper_id 版面号
atitle 主标题内容
ftitle 副标题内容
ytitle 引题内容
article_x 文章块x坐标
article_y 文章块y坐标
article_w 文章块宽度
article_h 文章块高度
maintitle_area_coord 主标题方框坐标
subtitle_area_coord 副标题方框坐标
picture_area_coord 图片方框坐标
text_area_coord 正文方框坐标
title_style 主标题方向
maintitle_charsize 主标题字号
text_char_count_ratio 单篇正文文字字数占全文字数比例
atitle_char_count 主标题字数
text_char_count 正文字数
subtitle_count 副标题字数
picture_count 图片字数
news_type 新闻类型
page_structure 版面拓扑结构类型
style_category 样式类型
page_article_count 单个版面文章数量
column_width 单栏宽度
column_count 正文分栏栏数
iscolumn 正文是否分栏

空文件

简介

今日金东电子报数据集 展开 收起
其他
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
其他
1
https://gitee.com/asciity01/jrjd_dataset.git
git@gitee.com:asciity01/jrjd_dataset.git
asciity01
jrjd_dataset
今日金东电子报数据集
master

搜索帮助

53164aa7 5694891 3bd8fe86 5694891