代码拉取完成,页面将自动刷新
该数据库是基于优秀人工排版作品《今日金东》构建的一个细粒度电子报数据库。数据库中包含两个主文件,1)paddlepaddle文件夹存储版面识别模型所需要的coco格式数据集,包括电子报图像和其对应的注释数据。2)论文相关数据文件夹则存储着由新闻原始素材数据库和版面识别数据库连接进行二次处理后的电子报特征数据库。下面对子文件结构进行详细描述。
该文件中测试集包含171张电子报图像,训练集包含47张电子报图像,验证集包含10张电子报图像。
文件夹结构:
├── annotations
│ ├── test.json
│ ├── train.json
│ ├── val.json
├── test
├── train
├── val
annaotations文件夹包含测试集、训练集、验证集的注释文件,该注释文件格式以COCO数据集为基准,主要包含图像信息"images"和对应注释信息"annotations"。
注释文件结构:
"images": [
{
"file_name": "15839725380.jpg",//图片名
"height": 2878,//图片高度
"id": 58,
"width": 1837//图片宽度
},
...
]
"annotations": [
{
"segmentation": [//对象的边界点(边界多边形)
[
105,1786,//第一个点x,y坐标
256,1786,//第二个点x,y坐标
256,1824,
105,1824,
105,1786
]
],
"area": 5738,//区域面积
"iscrowd": 0,
"image_id": 58,//对应的图像id
"bbox": [//标注框[x,y,w,h]
105,
1786,
151,
38
],
"category_id": 0,//检测种类号
"id": 1899 //对象id
},
...
]
该数据集存储了171张电子报图像,958个文章块的详细特征信息,这里对电子报特征信息提供了csv格式和xml格式,其中,file_name_id存储电子报图像名称,attributes提供丰富的电子报版面特征信息。attributes表的属性结构如下方表格所示:
属性名 | 描述 |
---|---|
article_id | 文章号 |
newspaper_id | 版面号 |
atitle | 主标题内容 |
ftitle | 副标题内容 |
ytitle | 引题内容 |
article_x | 文章块x坐标 |
article_y | 文章块y坐标 |
article_w | 文章块宽度 |
article_h | 文章块高度 |
maintitle_area_coord | 主标题方框坐标 |
subtitle_area_coord | 副标题方框坐标 |
picture_area_coord | 图片方框坐标 |
text_area_coord | 正文方框坐标 |
title_style | 主标题方向 |
maintitle_charsize | 主标题字号 |
text_char_count_ratio | 单篇正文文字字数占全文字数比例 |
atitle_char_count | 主标题字数 |
text_char_count | 正文字数 |
subtitle_count | 副标题字数 |
picture_count | 图片字数 |
news_type | 新闻类型 |
page_structure | 版面拓扑结构类型 |
style_category | 样式类型 |
page_article_count | 单个版面文章数量 |
column_width | 单栏宽度 |
column_count | 正文分栏栏数 |
iscolumn | 正文是否分栏 |
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。