ICS35.240CCSL60
团
体
CAPT
标
准
T/CAPT003—2021
中文新闻信息结构化标注规范
点击此处添加标准名称的英文译名
(征求意见稿)
在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。
XXXX-XX-XX发布 XXXX-XX-XX实施 中国新闻技术工作者联合会发布 目次 T/CAPT003—2021 前言.................................................................................II 1范围...............................................................................1 2规范性引用文件.....................................................................1 3术语和定义.........................................................................1 4标注体系分类.......................................................................1 5实体类数据.........................................................................25.1实体类数据.....................................................................25.2实体类数据详情.................................................................2 6业务类数据.........................................................................46.1业务类数据.....................................................................46.2业务类数据详情.................................................................4 7多媒体元素类数据...................................................................87.1多媒体元素类数据...............................................................87.2多媒体元素类数据详情...........................................................8
I 前言 T/CAPT003—2021 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。
本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提出。
本文件由中国新闻技术工作者联合会归口。
本文件起草单位:新华通讯社通信技术局、北京语言大学信息科学学院、中国人民大学新闻学院、星尘纪元智能科技有限公司。
本文件主要起草人:王熠、饶高琦、唐铮、秦玉芳、徐铭锴、钱青青、邰沁清、付蓉、刘一闻、王立欢。
II 中文新闻信息结构化标注规范 T/CAPT003—2021 1范围 本文件规定了中文新闻信息结构化标注的术语、定义和标注规则、方法和要求。
本文件适用于中文新闻领域信息内容的标注,服务于新闻信息资产的分析挖掘、知识发现和再利用,为多维度检索、组成特定专题、关系图谱等积累数据基础,为新闻信息内容的人工标注、半自动化及自动化标注应用提供指导和参考依据。
本文件的使用对象包括报刊、广播、电视、通讯社、新闻网站等新闻内容提供商及媒体应用与研究机构。
2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。
其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T20092-2013中文新闻信息置标语言GB/T20093-2013中文新闻信息分类与代码 3术语和定义 下列术语和定义适用于本文件。
3.1策划类型新闻内容与当前报道的新闻专题活动的关系,如果与新闻活动直接相关称为程序稿,如果为新闻活 动进行周边报道和反馈的称为配合稿。
4标注体系分类 中文新闻信息结构化标注通过分析总结新闻内容数据按照标注体系划分为三个类别,分别为实体类、业务类和多媒体元素类。
实体类数据指客观存在的、包含新闻实体公共特征属性的数据,一般以文字表达。
如新闻事件、发生时间、主要人物等。
业务类数据是一类相对主观的数据。
此类数据是以新闻领域业务为基础,与新闻业务需求强关联,一般以文字表达。
如新闻场景、新闻背景、新闻情感等。
多媒体元素类数据是包括新闻图片、视频、音频等内容中存在的信息数据,不存在于新闻内容的文本部分。
包括图片场景、图片人物、图片属性、视频人物、视频场景、视频属性、地标建筑、音频人物、音频内容、其他。
1 5实体类数据 T/CAPT003—2021 5.1实体类数据实体类数据列表见表
1。
数据项中文名新闻事件发生时间相关时间事发地点相关地点新闻主体 表1实体类数据子数据项中文名 主要人物相关人物主要机构相关机构 英文名featurehappenTimerelevantTimeshappenPlacerelevantPlacesmainCharactersrelevantCharactersmainOrganizationsrelevantOrganizations 5.2实体类数据详情 5.2.1新闻事件 名称:新闻事件定义:新闻事件来自对新闻内容理解之后,高度提炼的新闻信息概要。
标注要求:新闻事件分为命名新闻事件和一般新闻事件。
命名新闻事件配备固定的受限词表。
例如:庆祝改革开放40周年大会,达沃斯论坛等。
5.2.2发生时间 名称:发生时间定义:新闻事件实际发生的时间,从文中选择标准的时间表达方式。
标注要求:此处时间一般指事件发生的当地时间。
例如:《习近平抵达印度金奈出席中印领导人第二次非正式会晤》一文中提到“当地时间下午2时10分许,习近平乘坐的专机抵达金奈国际机场。
”则事件发生时间为“当地时间2019年10月11日下午2时10分”。
5.2.3相关时间 名称:相关时间定义:新闻事件发生时间之外,而是新闻作品中提及的其他时间。
可用于机器学习、自动标注等领域时间要素的分析。
标注要求:此处时间指除新闻事件外提及的时间,不与发稿时间、新闻时间重复。
5.2.4事发地点 名称:事发地点定义:新闻事件发生的地点,所在位置,地标,行政区划。
标注要求:地缘政治实体或设施。
a)地缘政治实体。
指根据地理因素结合成的一体化政治实体,通常是一个地名,如中国。
1)城市:纽约,京都2)县市区:海淀区,上海市3)国家:美国,伊拉克4)洲:非洲,亚洲
2 T/CAPT003—2021 5)其他:中部地区b)设施。
指人为建造的并在此中进行相关活动的地点,包括建筑和交通设施及地标等。
如五角 大楼,欢乐谷,人民英雄纪念碑。
5.2.5相关地点 名称:相关地点定义:非新闻事件发生的地点,正文中提到的位置,地标,行政区划。
可用于机器学习、自动标注等领域地点要素的分析。
标注要求:地缘政治实体或设施。
a)地缘政治实体。
根据地理因素结合成的一体化政治实体,通常是一个地名,如中国。
1)城市:纽约,京都2)县市区:海淀区,上海市3)国家:美国,伊拉克4)洲:非洲,亚洲5)其他:中部地区b)设施。
人为建造的并在此中进行相关活动的地点,包括建筑和交通设施及地标等。
如五角大楼,欢乐谷,人民英雄纪念碑。
5.2.6主要人物 名称:主要人物定义:新闻事件报道中的主要人物,需依据新闻报导中该主体的重要性和描述内容多少的区分。
标注要求:在实施标注时,从新闻标题和正文可以区分是事件的主要人物还是出席者。
例如:特朗普表示我亲眼看到了非常了不起的中华文明和中国取得的非常伟大的成就。
美方愿同中方达成彼此都可接受的贸易协议,这将具有历史意义。
标注人物:美国元首特朗普 5.2.7相关人物 名称:相关人物定义:新闻事件作品中除新闻报导主体以外其他人物,作为出席、陪同形式出席,需要对事件主体的重要性和描述内容多少的区分。
可用于机器学习、自动标注等领域人物要素的分析。
标注要求:报导提及且深入描述的陪同人员,时政新闻中出席陪同性质的人员经常在新闻结尾处列举。
报纸记者不列为相关人物。
5.2.8主要机构 名称:主要机构定义:新闻事件报道中的主要机构组织,新闻报导中的主体,需要对事件主体的重要性和描述内容多少的区分。
可用于机器学习、自动标注等领域机构要素的分析。
标注要求:军事组织、商业组织(公司,股票交易所,债券交易所等主要从事经济金融活动的组织)、政府组织(政府部门和政府党派)、非营利性组织(联合国教科文组织)、医疗机构、教育机构等。
如国家卫生部、妇联、华为技术有限公司、德国采埃孚集团等。
5.2.9相关机构 名称:相关机构定义:新闻事件作品中除主体机构以外的其他机构,作为提及出现,需要对事件主体的重要性和描述内容多少的区分。
可用于机器学习、自动标注等领域机构要素的分析。
标注要求:军事组织、商业组织(公司,股票交易所,债券交易所等主要从事经济金融活动的组织)、政府组织(政府部门和政府党派)、非营利性组织(联合国教科文组织)、医疗机构、教育机构等。
如国家卫生部、妇联、华为技术有限公司、德国采埃孚集团等。
3 6业务类数据 T/CAPT003—2021 6.1业务类数据业务类数据列表见表
2。
表2业务类数据 数据项中文名 子数据项中文名 英文名 体裁国内/国际分类新闻分类摘要关键词新闻场景新闻背景是否原文策划类型新闻情感倾向政治术语引用引典 genrenewsAreanewsCategoriesabstractkeyWordsnewsScenesbackGroundisOriginalnewsPlanCategoriesnewsSentimentOrientationpoliticalTermsquotations 6.2业务类数据详情 6.2.1体裁 名称:体裁定义:新闻作品的表现形式,包括:消息、通讯、评论、公文公报等标注要求:分为消息、通讯、新闻评论、其他体裁和其他。
a)消息是报道事情的概貌。
较为简短,内部无二级标题,一般800字以内。
消息使用倒叙方式, 通过标题、导语、主体三层推进。
b)通讯是运用叙述、描写、抒情、议论等多种手法,形象具体地反映新闻事件或新闻人物的
一 种新闻作品。
通讯相比消息内容更长,且内部可存在多级标题。
c)评论是新闻传播机构发表的各种评论形式的报道。
包括:述评、社论、评论员文章等述评文 章。
d)公文公报是指政策文章、领导人讲话稿、《求是》杂志发表的文章、公报、受权发布、党政 机关和人民团体等授权媒体公开发布重大事件或重要决定事项的报道性公文公报。
e)例如:(受权发布)中国共产党第十九届中央委员会第四次全体会议公报。
f)其他指不属于上述类别中的其他新闻,如综述类新闻、回忆录、杂文等。
6.2.2国内/国际分类 名称:国内/国际分类定义:根据事件发生的地点进行的分类,港澳台属于国内新闻。
标注要求:a)国内新闻:在中国国内发生的新闻事件,或者在公共海域完全由中国主导的新闻事件。
例如:上海市人民政府关于印发《上海市公有住房差价交换办法》的通知b)国际新闻:发生在我国以外的国家的新闻。
例如:一图读懂英国"脱欧"为何一脱再"拖"
4 T/CAPT003—2021 6.2.3新闻分类 名称:新闻分类定义:新闻事件所从属的分类,从已定义新闻分类中进行选择;例如:中文新闻信息分类与代码GB/T20093-2013。
标注要求:a)分类主要参考新闻发生的事件状态和领域。
新闻事件状态,主要由其时效性决定,如突发事 件。
b)新闻类别可能存在交叉,因此可按照人物、组织等以及事件本身所属领域的相关度选择1~
3 项。
例如:《习近平出席亚运会开幕式》从人物看为政治人物,从事件本身看属于体育事件,因此本新闻属于政治+体育新闻。
6.2.4摘要 名称:摘要定义:从标注新闻中摘取最主要的信息,字数在150字左右的说明。
体现时间、地点、主要人物/组织、发生的事件。
标注要求:内容全部从新闻作品中进行抽取,除了补充时间以外。
将主要事件发生时间、主要事件发生地点。
主要人物、组织等事件要素关键信息抽取出来。
可包含事件的过程(起因、经过、结果等)。
6.2.5关键词 名称:关键词定义:事件所强调的关键性的内容,是与文章主题有较高相关度的包括主体、谓词、关键信息的词语。
标注要求:a)关键词特征 1)选词应遵循准确性、科学性、使用频率高的原则,言简意赅,选用具有检索意义的词汇。
2)单个词或词组的字数一般不超过15个汉字字符。
3)某些合并起来有较特殊意义的词组,不宜拆开,如:强烈反响,十九届四中全会。
b)选词角度1)谓词:即标题或关键句中出现的、与新闻主题密切相关的动词、形容词等,例如“会见” “出访”。
2)地点:标题或关键句中出现的重要地点。
3)实体词:包括人物、机构、组织、物品、会议、活动等的有区别意义的名称,如“习近 平”“林郑月娥”“北京奥林匹克运动会”等。
注意,关键词可不限于以上几类,若新闻中有其他类别的词、短语甚至熟语也能够提示文章的关键内容,也应作为关键词处理。
例如:若新闻通篇围绕“不忘初心,牢记使命”来撰写,则“不忘初心,牢记使命”也应处理为关键词。
6.2.6新闻场景 名称:新闻场景定义:新闻场景是新闻事件所报导的主要内容,是对事件类型的概括性描述。
标注要求:a)本规范规定为涉及领导人的新闻作品标注相关场景,从制定的场景类型表中选择填写,如国 内视察、出国访问、会见、参会、出席重要场合等。
b)场景类型表:见表
3。
5 名称重要活动出国访问重要讲话 重要会议 决定、命令、计划重要文章函电贺词指示批示新时代纪实 T/CAPT003—2021表3场景类型表 举例会见、会晤、参观、视察会见、会晤,出发、到达、讲话 讲话、联合声明、其他党代会、全国人民代表大会、政治协商会议、研讨会、论坛、对话会、座谈会、专 题讨论会、表彰会、全体会议主席令、嘉奖令、通令署名文章、讲话原文致电、贺信重要指示 6.2.7新闻背景 名称:新闻背景定义:消息稿中出现一段与事件无直接关系,主要描述新闻中的人物、地点或者事件的相关扩展背景的文字描述,将此内容标记出来。
标注要求:新闻描述中出现一段与主体事件无关,描述新闻事件的历史背景的文字内容。
6.2.8是否原文 名称:是否原文定义:布尔型,是原文选择是,不是选择否。
标注要求:原文为完整的内容。
包括:领导人讲话、工作报告、条例章程、谈话、皮书、演讲、答问、批示、贺信、题词、署名文章、主旨讲话等。
a)如果是第三人转述内容比如XX说,XX指出,则不属于原文。
选择否。
b)如果是领导人讲话、谈话、演讲、答问、批示、核心、题词、署名文章等发表(发言)的内 容原始信息,选择是。
6.2.9策划类型 名称:策划类型定义:新闻内容与当前报道的新闻专题活动的关系,如果与新闻活动直接相关称为程序稿,如果为新闻活动进行周边报道和反馈的称为配合稿。
标注要求:程序稿、配合稿、年终稿、其他稿。
a)程序稿,对事件主要内容进行阐述的稿件b)配合稿,对事件内容进行烘托、背景资料等信息进行阐述 例如:标题:(习近平出访配合稿)背景资料:伊朗伊斯兰共和国c)年终稿 例如:标题:年终特稿丨不忘初心阔步前行d)其他稿为策划类型中暂未提及的类型,但若在标题或文中提及说明时,也需要将其标出。
6 T/CAPT003—2021 6.2.10新闻情感倾向 名称:新闻情感倾向定义:新闻中能够体现新闻主要人物或主要机构的感情、态度、意向或立场的,情感倾向的发出者可以是个体、组织或机构。
包括:正面、负面、中性。
标注要求:a)判断文中新闻主要人物、组织或机构对某人或事件表达的态度,标注中需要进行人工辅助确 认。
b)文中主要人物、组织或机构对多个事件对某人或事件表达的态度不同时,也需分事件将其标 注出。
c)新闻情感倾向举例参见表
4。
表4新闻情感倾向 类型 举例 正面 祝贺、庆祝、赞扬、表扬、感到开心、 勉励、鼓励、感谢、积极评价、高度评 价、热烈欢迎、祝福等 中性 正常陈述,无情感流露的 负面 愤怒、批评、指责、反对等 6.2.11
政治术语 名称:政治术语定义:对文中出现的政治政策、政治口号、政治精神的表述或者缩写进行标注,在文章内容中进行选择。
标注要求:a)政治术语由连续或不连续的词语和短语整合而成;常在含义上表现出高度的凝固性、高度概 括性;形式上较为简洁、凝练。
b)有
三、四、五字等类似惯用语或成语形式的,如:四个意识、两个维护、两个一百年等。
c)有呈对偶形式或成对、呈排比形式出现的,如:不忘初心,牢记使命。
6.2.12引用引典 名称:引用引典定义:出现在双引号“”内部或表述类动词之后。
引用和引典范围主要包括:政治领导人(国内外领导人)引用的原文、熟语、中外格言和故事。
标注要求:a)政治领导人(国内外领导人)引用的原文,在形式上使用双引号“”标记出的。
若未用引号 标记,则不算做是引用。
例如:“人心所归,惟道与义”b)熟语,指成语、古文诗词、谚语等,出现在双引号内部或“俗话说”、“古语言”等表述类动词之后的,均为用典。
如“只要精神不滑坡,办法总比困难多”等。
7 7多媒体元素类数据 T/CAPT003—2021 7.1多媒体元素类数据 多媒体元素类数据列表见表
5。
表5多媒体元素数据 数据项中文名 子数据项中文名 人物 英文名mediaCharacters 场景地标建筑内容图片属性视频属性其他 mediaSceneslandmarkBuildingsmediaContentspicFeaturesvideoFeaturesextendedFeatures 7.2多媒体元素类数据详情 7.2.1人物 名称:人物定义:新闻图片、视频、音频等多媒体稿件中出现的新闻人物。
标注要求:a)对图片、视频、音频等多媒体稿件中出现的新闻人物身份进行判断,并标记出来。
b)可使用人脸识别、语音识别等算法预处理人物信息,标注中需要进行人工确认。
例如:《默克尔宣布撤回复活节假期严控措施决议》标注人物:德国总理默克尔 7.2.2场景 名称:场景定义:新闻图片、视频、音频等多媒体稿件中出现的新闻场景的描述,比如会见、会谈、握手、视察等。
标注要求:a)根据图片/视频中所展现的内容、画面判断其所处的场景,进行标记。
b)可使用机器视觉算法预处理的图片场景的信息,标注中需要进行人工确认。
7.2.3地标建筑 名称:地标建筑定义:新闻图片/视频/音频中出现的标志性的地理建筑,比如人民大会堂,白宫等。
标注要求:a)根据新闻图片/视频/音频中出现的标志性的地理建筑进行标记b)可通过机器视觉、语音识别、自然语言处理等技术,识别多媒体元素中所出现的地标、建筑 物等相关活动地点。
如故宫、自由女神像、泰姬陵等。
标注中需要进行人工确认。
7.2.4内容 名称:内容定义:新闻的音频中语音的内容。
标注要求:a)新闻的音频中的语言内容,标记出来。
b)音频中出现的语音,可通过语音识别等技术手段,将音频中的语音内容转化成文字记录。
识 别的语音结果需人工辅助核对。
8 T/CAPT003—20217.2.5图片属性 名称:图片属性定义:新闻图片的基本属性,包括横屏/竖屏,清晰度等。
标注要求:通过读取图片的基本参数,从而获得基本属性,如像素、分辨率、大小、颜色、色调等。
7.2.6视频属性名称:视频属性定义:新闻视频的基本属性,包括横屏/竖屏的定义,清晰度等。
标注要求:通过读取视频文件的基本参数,从而获得视频的基本属性,如时长、分辨率、码率、长度、宽度等。
7.2.7其他名称:其他定义:通过OCR、语音识别、机器视觉、自然语言处理等技术手段,识别图像/视频/音频中的文字、物品等内容,根据新闻检索需要增加的标签。
标注要求:a)根据新闻检索等需求,可增加图片/视频/音频标签。
b)可采用多种技术手段,获取新闻图片/视频/音频中的文字、图像等信息,标注中需要进行人 工确认。
9
XXXX-XX-XX发布 XXXX-XX-XX实施 中国新闻技术工作者联合会发布 目次 T/CAPT003—2021 前言.................................................................................II 1范围...............................................................................1 2规范性引用文件.....................................................................1 3术语和定义.........................................................................1 4标注体系分类.......................................................................1 5实体类数据.........................................................................25.1实体类数据.....................................................................25.2实体类数据详情.................................................................2 6业务类数据.........................................................................46.1业务类数据.....................................................................46.2业务类数据详情.................................................................4 7多媒体元素类数据...................................................................87.1多媒体元素类数据...............................................................87.2多媒体元素类数据详情...........................................................8
I 前言 T/CAPT003—2021 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。
本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提出。
本文件由中国新闻技术工作者联合会归口。
本文件起草单位:新华通讯社通信技术局、北京语言大学信息科学学院、中国人民大学新闻学院、星尘纪元智能科技有限公司。
本文件主要起草人:王熠、饶高琦、唐铮、秦玉芳、徐铭锴、钱青青、邰沁清、付蓉、刘一闻、王立欢。
II 中文新闻信息结构化标注规范 T/CAPT003—2021 1范围 本文件规定了中文新闻信息结构化标注的术语、定义和标注规则、方法和要求。
本文件适用于中文新闻领域信息内容的标注,服务于新闻信息资产的分析挖掘、知识发现和再利用,为多维度检索、组成特定专题、关系图谱等积累数据基础,为新闻信息内容的人工标注、半自动化及自动化标注应用提供指导和参考依据。
本文件的使用对象包括报刊、广播、电视、通讯社、新闻网站等新闻内容提供商及媒体应用与研究机构。
2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。
其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T20092-2013中文新闻信息置标语言GB/T20093-2013中文新闻信息分类与代码 3术语和定义 下列术语和定义适用于本文件。
3.1策划类型新闻内容与当前报道的新闻专题活动的关系,如果与新闻活动直接相关称为程序稿,如果为新闻活 动进行周边报道和反馈的称为配合稿。
4标注体系分类 中文新闻信息结构化标注通过分析总结新闻内容数据按照标注体系划分为三个类别,分别为实体类、业务类和多媒体元素类。
实体类数据指客观存在的、包含新闻实体公共特征属性的数据,一般以文字表达。
如新闻事件、发生时间、主要人物等。
业务类数据是一类相对主观的数据。
此类数据是以新闻领域业务为基础,与新闻业务需求强关联,一般以文字表达。
如新闻场景、新闻背景、新闻情感等。
多媒体元素类数据是包括新闻图片、视频、音频等内容中存在的信息数据,不存在于新闻内容的文本部分。
包括图片场景、图片人物、图片属性、视频人物、视频场景、视频属性、地标建筑、音频人物、音频内容、其他。
1 5实体类数据 T/CAPT003—2021 5.1实体类数据实体类数据列表见表
1。
数据项中文名新闻事件发生时间相关时间事发地点相关地点新闻主体 表1实体类数据子数据项中文名 主要人物相关人物主要机构相关机构 英文名featurehappenTimerelevantTimeshappenPlacerelevantPlacesmainCharactersrelevantCharactersmainOrganizationsrelevantOrganizations 5.2实体类数据详情 5.2.1新闻事件 名称:新闻事件定义:新闻事件来自对新闻内容理解之后,高度提炼的新闻信息概要。
标注要求:新闻事件分为命名新闻事件和一般新闻事件。
命名新闻事件配备固定的受限词表。
例如:庆祝改革开放40周年大会,达沃斯论坛等。
5.2.2发生时间 名称:发生时间定义:新闻事件实际发生的时间,从文中选择标准的时间表达方式。
标注要求:此处时间一般指事件发生的当地时间。
例如:《习近平抵达印度金奈出席中印领导人第二次非正式会晤》一文中提到“当地时间下午2时10分许,习近平乘坐的专机抵达金奈国际机场。
”则事件发生时间为“当地时间2019年10月11日下午2时10分”。
5.2.3相关时间 名称:相关时间定义:新闻事件发生时间之外,而是新闻作品中提及的其他时间。
可用于机器学习、自动标注等领域时间要素的分析。
标注要求:此处时间指除新闻事件外提及的时间,不与发稿时间、新闻时间重复。
5.2.4事发地点 名称:事发地点定义:新闻事件发生的地点,所在位置,地标,行政区划。
标注要求:地缘政治实体或设施。
a)地缘政治实体。
指根据地理因素结合成的一体化政治实体,通常是一个地名,如中国。
1)城市:纽约,京都2)县市区:海淀区,上海市3)国家:美国,伊拉克4)洲:非洲,亚洲
2 T/CAPT003—2021 5)其他:中部地区b)设施。
指人为建造的并在此中进行相关活动的地点,包括建筑和交通设施及地标等。
如五角 大楼,欢乐谷,人民英雄纪念碑。
5.2.5相关地点 名称:相关地点定义:非新闻事件发生的地点,正文中提到的位置,地标,行政区划。
可用于机器学习、自动标注等领域地点要素的分析。
标注要求:地缘政治实体或设施。
a)地缘政治实体。
根据地理因素结合成的一体化政治实体,通常是一个地名,如中国。
1)城市:纽约,京都2)县市区:海淀区,上海市3)国家:美国,伊拉克4)洲:非洲,亚洲5)其他:中部地区b)设施。
人为建造的并在此中进行相关活动的地点,包括建筑和交通设施及地标等。
如五角大楼,欢乐谷,人民英雄纪念碑。
5.2.6主要人物 名称:主要人物定义:新闻事件报道中的主要人物,需依据新闻报导中该主体的重要性和描述内容多少的区分。
标注要求:在实施标注时,从新闻标题和正文可以区分是事件的主要人物还是出席者。
例如:特朗普表示我亲眼看到了非常了不起的中华文明和中国取得的非常伟大的成就。
美方愿同中方达成彼此都可接受的贸易协议,这将具有历史意义。
标注人物:美国元首特朗普 5.2.7相关人物 名称:相关人物定义:新闻事件作品中除新闻报导主体以外其他人物,作为出席、陪同形式出席,需要对事件主体的重要性和描述内容多少的区分。
可用于机器学习、自动标注等领域人物要素的分析。
标注要求:报导提及且深入描述的陪同人员,时政新闻中出席陪同性质的人员经常在新闻结尾处列举。
报纸记者不列为相关人物。
5.2.8主要机构 名称:主要机构定义:新闻事件报道中的主要机构组织,新闻报导中的主体,需要对事件主体的重要性和描述内容多少的区分。
可用于机器学习、自动标注等领域机构要素的分析。
标注要求:军事组织、商业组织(公司,股票交易所,债券交易所等主要从事经济金融活动的组织)、政府组织(政府部门和政府党派)、非营利性组织(联合国教科文组织)、医疗机构、教育机构等。
如国家卫生部、妇联、华为技术有限公司、德国采埃孚集团等。
5.2.9相关机构 名称:相关机构定义:新闻事件作品中除主体机构以外的其他机构,作为提及出现,需要对事件主体的重要性和描述内容多少的区分。
可用于机器学习、自动标注等领域机构要素的分析。
标注要求:军事组织、商业组织(公司,股票交易所,债券交易所等主要从事经济金融活动的组织)、政府组织(政府部门和政府党派)、非营利性组织(联合国教科文组织)、医疗机构、教育机构等。
如国家卫生部、妇联、华为技术有限公司、德国采埃孚集团等。
3 6业务类数据 T/CAPT003—2021 6.1业务类数据业务类数据列表见表
2。
表2业务类数据 数据项中文名 子数据项中文名 英文名 体裁国内/国际分类新闻分类摘要关键词新闻场景新闻背景是否原文策划类型新闻情感倾向政治术语引用引典 genrenewsAreanewsCategoriesabstractkeyWordsnewsScenesbackGroundisOriginalnewsPlanCategoriesnewsSentimentOrientationpoliticalTermsquotations 6.2业务类数据详情 6.2.1体裁 名称:体裁定义:新闻作品的表现形式,包括:消息、通讯、评论、公文公报等标注要求:分为消息、通讯、新闻评论、其他体裁和其他。
a)消息是报道事情的概貌。
较为简短,内部无二级标题,一般800字以内。
消息使用倒叙方式, 通过标题、导语、主体三层推进。
b)通讯是运用叙述、描写、抒情、议论等多种手法,形象具体地反映新闻事件或新闻人物的
一 种新闻作品。
通讯相比消息内容更长,且内部可存在多级标题。
c)评论是新闻传播机构发表的各种评论形式的报道。
包括:述评、社论、评论员文章等述评文 章。
d)公文公报是指政策文章、领导人讲话稿、《求是》杂志发表的文章、公报、受权发布、党政 机关和人民团体等授权媒体公开发布重大事件或重要决定事项的报道性公文公报。
e)例如:(受权发布)中国共产党第十九届中央委员会第四次全体会议公报。
f)其他指不属于上述类别中的其他新闻,如综述类新闻、回忆录、杂文等。
6.2.2国内/国际分类 名称:国内/国际分类定义:根据事件发生的地点进行的分类,港澳台属于国内新闻。
标注要求:a)国内新闻:在中国国内发生的新闻事件,或者在公共海域完全由中国主导的新闻事件。
例如:上海市人民政府关于印发《上海市公有住房差价交换办法》的通知b)国际新闻:发生在我国以外的国家的新闻。
例如:一图读懂英国"脱欧"为何一脱再"拖"
4 T/CAPT003—2021 6.2.3新闻分类 名称:新闻分类定义:新闻事件所从属的分类,从已定义新闻分类中进行选择;例如:中文新闻信息分类与代码GB/T20093-2013。
标注要求:a)分类主要参考新闻发生的事件状态和领域。
新闻事件状态,主要由其时效性决定,如突发事 件。
b)新闻类别可能存在交叉,因此可按照人物、组织等以及事件本身所属领域的相关度选择1~
3 项。
例如:《习近平出席亚运会开幕式》从人物看为政治人物,从事件本身看属于体育事件,因此本新闻属于政治+体育新闻。
6.2.4摘要 名称:摘要定义:从标注新闻中摘取最主要的信息,字数在150字左右的说明。
体现时间、地点、主要人物/组织、发生的事件。
标注要求:内容全部从新闻作品中进行抽取,除了补充时间以外。
将主要事件发生时间、主要事件发生地点。
主要人物、组织等事件要素关键信息抽取出来。
可包含事件的过程(起因、经过、结果等)。
6.2.5关键词 名称:关键词定义:事件所强调的关键性的内容,是与文章主题有较高相关度的包括主体、谓词、关键信息的词语。
标注要求:a)关键词特征 1)选词应遵循准确性、科学性、使用频率高的原则,言简意赅,选用具有检索意义的词汇。
2)单个词或词组的字数一般不超过15个汉字字符。
3)某些合并起来有较特殊意义的词组,不宜拆开,如:强烈反响,十九届四中全会。
b)选词角度1)谓词:即标题或关键句中出现的、与新闻主题密切相关的动词、形容词等,例如“会见” “出访”。
2)地点:标题或关键句中出现的重要地点。
3)实体词:包括人物、机构、组织、物品、会议、活动等的有区别意义的名称,如“习近 平”“林郑月娥”“北京奥林匹克运动会”等。
注意,关键词可不限于以上几类,若新闻中有其他类别的词、短语甚至熟语也能够提示文章的关键内容,也应作为关键词处理。
例如:若新闻通篇围绕“不忘初心,牢记使命”来撰写,则“不忘初心,牢记使命”也应处理为关键词。
6.2.6新闻场景 名称:新闻场景定义:新闻场景是新闻事件所报导的主要内容,是对事件类型的概括性描述。
标注要求:a)本规范规定为涉及领导人的新闻作品标注相关场景,从制定的场景类型表中选择填写,如国 内视察、出国访问、会见、参会、出席重要场合等。
b)场景类型表:见表
3。
5 名称重要活动出国访问重要讲话 重要会议 决定、命令、计划重要文章函电贺词指示批示新时代纪实 T/CAPT003—2021表3场景类型表 举例会见、会晤、参观、视察会见、会晤,出发、到达、讲话 讲话、联合声明、其他党代会、全国人民代表大会、政治协商会议、研讨会、论坛、对话会、座谈会、专 题讨论会、表彰会、全体会议主席令、嘉奖令、通令署名文章、讲话原文致电、贺信重要指示 6.2.7新闻背景 名称:新闻背景定义:消息稿中出现一段与事件无直接关系,主要描述新闻中的人物、地点或者事件的相关扩展背景的文字描述,将此内容标记出来。
标注要求:新闻描述中出现一段与主体事件无关,描述新闻事件的历史背景的文字内容。
6.2.8是否原文 名称:是否原文定义:布尔型,是原文选择是,不是选择否。
标注要求:原文为完整的内容。
包括:领导人讲话、工作报告、条例章程、谈话、皮书、演讲、答问、批示、贺信、题词、署名文章、主旨讲话等。
a)如果是第三人转述内容比如XX说,XX指出,则不属于原文。
选择否。
b)如果是领导人讲话、谈话、演讲、答问、批示、核心、题词、署名文章等发表(发言)的内 容原始信息,选择是。
6.2.9策划类型 名称:策划类型定义:新闻内容与当前报道的新闻专题活动的关系,如果与新闻活动直接相关称为程序稿,如果为新闻活动进行周边报道和反馈的称为配合稿。
标注要求:程序稿、配合稿、年终稿、其他稿。
a)程序稿,对事件主要内容进行阐述的稿件b)配合稿,对事件内容进行烘托、背景资料等信息进行阐述 例如:标题:(习近平出访配合稿)背景资料:伊朗伊斯兰共和国c)年终稿 例如:标题:年终特稿丨不忘初心阔步前行d)其他稿为策划类型中暂未提及的类型,但若在标题或文中提及说明时,也需要将其标出。
6 T/CAPT003—2021 6.2.10新闻情感倾向 名称:新闻情感倾向定义:新闻中能够体现新闻主要人物或主要机构的感情、态度、意向或立场的,情感倾向的发出者可以是个体、组织或机构。
包括:正面、负面、中性。
标注要求:a)判断文中新闻主要人物、组织或机构对某人或事件表达的态度,标注中需要进行人工辅助确 认。
b)文中主要人物、组织或机构对多个事件对某人或事件表达的态度不同时,也需分事件将其标 注出。
c)新闻情感倾向举例参见表
4。
表4新闻情感倾向 类型 举例 正面 祝贺、庆祝、赞扬、表扬、感到开心、 勉励、鼓励、感谢、积极评价、高度评 价、热烈欢迎、祝福等 中性 正常陈述,无情感流露的 负面 愤怒、批评、指责、反对等 6.2.11
政治术语 名称:政治术语定义:对文中出现的政治政策、政治口号、政治精神的表述或者缩写进行标注,在文章内容中进行选择。
标注要求:a)政治术语由连续或不连续的词语和短语整合而成;常在含义上表现出高度的凝固性、高度概 括性;形式上较为简洁、凝练。
b)有
三、四、五字等类似惯用语或成语形式的,如:四个意识、两个维护、两个一百年等。
c)有呈对偶形式或成对、呈排比形式出现的,如:不忘初心,牢记使命。
6.2.12引用引典 名称:引用引典定义:出现在双引号“”内部或表述类动词之后。
引用和引典范围主要包括:政治领导人(国内外领导人)引用的原文、熟语、中外格言和故事。
标注要求:a)政治领导人(国内外领导人)引用的原文,在形式上使用双引号“”标记出的。
若未用引号 标记,则不算做是引用。
例如:“人心所归,惟道与义”b)熟语,指成语、古文诗词、谚语等,出现在双引号内部或“俗话说”、“古语言”等表述类动词之后的,均为用典。
如“只要精神不滑坡,办法总比困难多”等。
7 7多媒体元素类数据 T/CAPT003—2021 7.1多媒体元素类数据 多媒体元素类数据列表见表
5。
表5多媒体元素数据 数据项中文名 子数据项中文名 人物 英文名mediaCharacters 场景地标建筑内容图片属性视频属性其他 mediaSceneslandmarkBuildingsmediaContentspicFeaturesvideoFeaturesextendedFeatures 7.2多媒体元素类数据详情 7.2.1人物 名称:人物定义:新闻图片、视频、音频等多媒体稿件中出现的新闻人物。
标注要求:a)对图片、视频、音频等多媒体稿件中出现的新闻人物身份进行判断,并标记出来。
b)可使用人脸识别、语音识别等算法预处理人物信息,标注中需要进行人工确认。
例如:《默克尔宣布撤回复活节假期严控措施决议》标注人物:德国总理默克尔 7.2.2场景 名称:场景定义:新闻图片、视频、音频等多媒体稿件中出现的新闻场景的描述,比如会见、会谈、握手、视察等。
标注要求:a)根据图片/视频中所展现的内容、画面判断其所处的场景,进行标记。
b)可使用机器视觉算法预处理的图片场景的信息,标注中需要进行人工确认。
7.2.3地标建筑 名称:地标建筑定义:新闻图片/视频/音频中出现的标志性的地理建筑,比如人民大会堂,白宫等。
标注要求:a)根据新闻图片/视频/音频中出现的标志性的地理建筑进行标记b)可通过机器视觉、语音识别、自然语言处理等技术,识别多媒体元素中所出现的地标、建筑 物等相关活动地点。
如故宫、自由女神像、泰姬陵等。
标注中需要进行人工确认。
7.2.4内容 名称:内容定义:新闻的音频中语音的内容。
标注要求:a)新闻的音频中的语言内容,标记出来。
b)音频中出现的语音,可通过语音识别等技术手段,将音频中的语音内容转化成文字记录。
识 别的语音结果需人工辅助核对。
8 T/CAPT003—20217.2.5图片属性 名称:图片属性定义:新闻图片的基本属性,包括横屏/竖屏,清晰度等。
标注要求:通过读取图片的基本参数,从而获得基本属性,如像素、分辨率、大小、颜色、色调等。
7.2.6视频属性名称:视频属性定义:新闻视频的基本属性,包括横屏/竖屏的定义,清晰度等。
标注要求:通过读取视频文件的基本参数,从而获得视频的基本属性,如时长、分辨率、码率、长度、宽度等。
7.2.7其他名称:其他定义:通过OCR、语音识别、机器视觉、自然语言处理等技术手段,识别图像/视频/音频中的文字、物品等内容,根据新闻检索需要增加的标签。
标注要求:a)根据新闻检索等需求,可增加图片/视频/音频标签。
b)可采用多种技术手段,获取新闻图片/视频/音频中的文字、图像等信息,标注中需要进行人 工确认。
9
声明:
该资讯来自于互联网网友发布,如有侵犯您的权益请联系我们。
上一篇团体标准,e文件怎么打开