官方微博与门户网站新闻语体的计量对比分析

时间：2015-06-10

　　中图分类号：G20 文献标识码：A 文章编号：1003-1502（2014）04-0107-05

　　一、引言

　　官方微博新闻是由微博平台官方认证的企业、机构、媒体等非个人组织发布的新闻。在官方微博新闻中，不仅有文字，还可以有图片、视频、网络链接等。一般来说，每篇官方微博新闻的字数限制在140字内。门户网站新闻是以各大门户网站名义发布的新闻。与官方微博新闻一样，门户网站新闻中也可以有文字、图片、视频、网络链接等。然而与官方微博新闻不同的是，门户网站新闻并没有篇幅上的限制。

　　计量语体分析就是采用计量的方法来研究语体。计量语体分析“隐含着对比的原则，因为任何‘量’在语体研究中作用的发挥和大小，取决于与另外一个或几个量的对比”。[1]虽然官方微博新闻和门户网站新闻都属于网络新闻，但是由于它们在传播方式、目的以及受众等方面不尽相同，所以二者在语体上也存在着一些差异。本文在真实语料的基础上，采用计量的方法对官方微博新闻与门户网站新闻进行对比分析，探讨它们在语体上的差异。

　　二、语料及研究方法

　　本文语料包括官方微博新闻样本和门户网站新闻样本两部分。官方微博新闻样本选自新浪新闻中心官方微博的“头条新闻”，我们随机选取了其中的100篇原创新闻为样本（共12381字），组建了官方微博新闻文本语料集合，命名为GFWB。门户网站新闻样本选自中国广播网、中国新闻网、新华网等门户网站，我们随机抽样选取了其中的100篇原创新闻为样本（共142382字），组建了门户网站新闻文本语料集合，命名为MHWZ。

　　在获取样本之后，我们采用中国传媒大学“有声媒体语言资源网传媒语料库”的在线分词标注系统，①按照粗颗粒度②对GFWB和MHWZ进行切词和词语标注，提取出词汇层面和语法层面语体标记的数据；在数据分析的基础上，我们探讨了官方微博新闻与门户网站新闻语体上的差异。

　　三、词汇层面上的差异

　　我们选取词汇密度（lexical density）、词型例比（type and token ratio）、词长、缩略语、成语和惯用语，作为官方微博新闻与门户网站新闻词汇层面的语体标记。

　　（一）词汇密度

　　学者Ure[2]将词汇密度定义为文本实词数与文本词汇总数之比。她的研究表明，英语口头语体的词汇密度在40%以下，书面语体的词汇密度高于口头语体。词汇密度的计算公式如下：

　　词汇密度=■ （公式1）

　　按照公式1，我们计算出GFWB的词汇密度为82.06%，MHWZ的词汇密度为80.87%。官方微博新闻的词汇密度略高于门户网站新闻。一般来说，词汇密度越大，书面化程度就越高。

　　（二）词型例比

　　词型例比是词例数（type）与词型数（token）之比。词型例比越低，词汇就越丰富，“书面语体一般比较舒展、严密，词汇量也较口语丰富”。[3]词型例比的计算公式如下：

　　词型例比=■ （公式2）

　　按照公式2，我们计算出GFWB中的词型例比为2.47，MHWZ中的词型例比为7.22。官方微博新闻中的词型例比明显低于门户网站新闻。也就是说，在词数相同的情况下，官方微博新闻中的词汇比门户网站新闻更丰富。

　　（三）词长

　　我们在词长这部分主要分析了平均词长和词长分布。

　　平均词长是总字数与总词数之比。书面语体的平均词长高于口头语体。平均词长的计算公式如下：

　　平均词长=■ （公式3）

　　按照公式3，我们计算出GFWB的平均词长为1.82，MHWZ中的平均词长为1.68。官方微博新闻的平均词长略高于门户网站新闻。

　　我们还对GFWB和MHWZ中的词长分布进行了统计，见下表：

　　从表1来看，GFWB中1字词和2字词的总比值略低于MHWZ，而3字词以上（含3字词）的总比值却高于MHWZ。GFWB和MHWZ中3字及3字以下词的总比值分别是0.95698和0.98174。这说明官方微博新闻更倾向于使用3字及3字以上的词，门户网站新闻则更倾向于使用3字及3字以下的词。“词长在一定程度上代表了语言单位的复杂性”。[4]邓耀臣、冯志伟的研究表明，“音节数较少（小于等于3）的词汇在口语体中的平均使用频数明显高于书面语体”。

　　（四）缩略语、成语和惯用语

　　缩略语是“从已相对稳固了的较复杂的词或短语中抽取其主要成分，形成简短的词语，表示与原词语相同的意义”。[5]“成语是指历史上沿用下来或群众中长期流传、见解精辟并含有特定意义的固定短语”。[6]“惯用语是口语中形成的表达一种习惯含义的固定词组”。[6]（143）

　　我们对GFWB和MHWZ中缩略语、成语和惯用语的总比值进行了统计。总比值代表某类词语在语料中所占的比重。词语的总比值越高，使用频次就越高。GFWB和MHWZ中的缩略语、成语和惯用语的总比值见下表：

　　根据表2中的数据，我们计算出GFWB中缩略语的总比值比MHWZ高79.11%，成语的总比值比MHWZ高5.52%，而惯用语的总比值则比MHWZ低3.81%。③ 　　官方微博新闻中缩略语的总比值较高，这是由于受篇幅所限，官方微博新闻在语言上力求简练。而缩略语形式短小，恰恰符合了官方微博新闻篇幅上的要求。

　　官方微博新闻中成语的总比值高于门户网站新闻，而惯用语的总比值则低于门户网站。通常，成语多用于书面语体；惯用语多用于口头语体。

　　四、语法层面上的差异

　　我们选取词类、句长、破碎度和句类，作为官方微博新闻与门户网站新闻语法层面的语体标记。

　　（一）词类

　　按照朱德熙（1982）词类划分标准，[7]我们将GFWB和MHWZ中的词划分为17个类别。我们对这17个词类进行了t-检验（置信区间取95%）。检验结果表明， GFWB中的代词、方位词、介词、连词、语气词、助词与MHWZ并无统计学意义上的差异，这6个词类在GFWB和MHWZ中的均值、总比值都很接近。也就是说，在词数相同的前提下，这6个词类的词型丰富程度在GFWB和MHWZ中相差无几，也许与这6个词类都属于封闭性词类④有关。检验结果还表明，GFWB与MHWZ中名词、处所词、时间词、区别词、数词、量词、动词、形容词、副词、拟声词、叹词的数据具有统计学意义上的差异。我们对GFWB和MHWZ中的这11个词类的总比值、均值和标准差进行了统计，见下表：

　　从表3来看，虽然名词、处所词、时间词、区别词、数词、量词、动词、形容词、副词、拟声词、叹词这11个词类的总比值差异较小，但是它们的均值差异较大。在总比值差异较小的情况下，均值越大，词型就越少。由此可知，官方微博新闻中这11个词类的词型丰富度均不及门户网站新闻。

　　值得注意的是，拟声词和叹词在GFWB中的总比值均为0，也就是说，在官方微博新闻中未出现拟声词和叹词。拟声词和叹词在MHWZ中的总比值分别为0.0044和0.0033。可以说，官方微博新闻和门户网站新闻中拟声词和叹词的总比值都很低。这也许是因为拟声词和叹词多用于口头语体和文艺语体，而官方微博新闻和门户网站新闻都属于新闻语体的缘故。我们对MHWZ中拟声词和叹词的分布情况进行了进一步考察，发现它们大多出现在直接引语中。

　　GFWB中11个词类的标准差均高于MHWZ。标准差反映了词型使用频率的离散程度，标准差越大，词型使用频率波动就越大。这表明GFWB中这11个词类的词型使用频率远不如MHWZ均衡，GFWB中11个词类的词频差距要比MHWZ大很多。词频差异越大，话题就越集中。这说明官方微博新闻的话题比门户网站新闻的话题更集中。人们大多认为书面语体中的话题相对固定，口头语体中的话题则往往不够集中。

　　（二）句长

　　“长句中有较多的修辞成分，所以使用长句，就能够更准确、更严密地表达思想。也正是因为长句容量大，就可以对事物做详尽的描述”，[8]而短句“形体较小，字数较少，结构较简单……明白易懂，简洁有力，明快活泼”。[8]长句多用于书面语体，短句多用于口头语体。我们对GFWB和MHWZ中的句长分别进行了统计，见以下图表：

　　图1显示，在GFWB中，31至40字的句长所占比值最高；而在MHWZ中，则是11至20字的句长所占比值最高。GFWB句长的众数为38，MHWZ句长的众数仅为11。这些数据都表明官方微博新闻中的句子更长，更倾向于使用长句。

　　从表4来看，GFWB的标准差比MHWZ低7.7247，方差低352.701。标准差越低，句长分布越聚集；而方差越低，则说明句长分布越趋于平均值。这表明GFWB的句长比MHWZ更集中，且多接近句长平均值37.9365字（见图1）。由此可见，在官方微博新闻中，句长分布整齐，结构相同或相似的句子数量较多，而“句长相近、结构相似”的句子大多出现于书面语体中。

　　（三）破碎度

　　“破碎度，是指一句话中停顿次数，即一句话的零散程度”。[9]阚明刚的研究表明，书面语体的破碎度要低于口头语体。破碎度计算公式如下：

　　破碎度=■ （公式4）

　　我们将“句中停顿总次数”理解为句内点号的数量，将“语料中总句数”理解为句末点号的数量。根据黄伯荣和廖序东关于点号的划分标准和公式4，[10]我们计算出GFWB的破碎度为2.6，MHWZ的破碎度为2.9，即官方微博新闻的破碎度略低于门户网站新闻。通常书面语体的语言较为流畅，其破碎度往往低于口头语体。

　　（四）句类

　　“句类是句子按照不同语气功能划分出来的类型。一般分为陈述句、疑问句、祈使句和感叹句”。[9]我们对GFWB和MHWZ句类的总比值进行了统计，见表5。

　　从表5来看，无论是在GFWB中，还是在MHWZ中，陈述句的总比值都远远高于疑问句、祈使句和感叹句。官方微博新闻与门户网站新闻都属于网络新闻语体，网络新闻的主要功能是传递信息、陈述事实，所以在官方微博新闻与门户网站新闻中，陈述句的数量比疑问句、感叹句和祈使句多。

　　表5中的数据还表明，GFWB中疑问句、感叹句和祈使句的总比值与MHWZ有较大差异。根据表5，我们计算出GFWB中疑问句总比值比MHWZ低49.76%，感叹句总比值比MHWZ低52.94%，祈使句总比值比MHWZ低85.13%。⑤我们发现这三个句类大多出现在直接引语中。显而易见，上述差异是由于官方微博新闻中的直接引语数量较少，门户网站新闻中直接引语数量较多而形成的。

　　结语

　　通过对官方微博新闻语体和门户网站新闻语体进行计量对比分析，我们得出以下几点结论：

　　第一，官方微博新闻与门户网站新闻都属于网络新闻语体，二者书面化程度都很高。官方微博新闻和门户网站新闻的词汇密度均在80%以上；拟声词、叹词的总比值都很低；而陈述句的总比值都很高。

　　第二，官方微博新闻比门户网站新闻更倾向于书面语体。官方微博新闻的词汇密度、平均词长、成语的总比值均高于门户网站新闻；官方微博新闻中的词型例比、3字及3字以下词的总比值、惯用语的总比值均低于门户网站新闻；官方微博新闻中11个词类的词型使用频率远不及门户网站新闻均衡，即官方微博新闻的话题更集中；官方微博新闻中多用长句，句长分布比门户网站新闻更集中，也更接近；官方微博新闻中的破碎度低于门户网站新闻，直接引语的数量少于门户网站新闻。　　本文的不足之处主要有以下两点：第一，由于受到语言处理工具的限制，我们未能提取出语体的所有标记，因而我们所揭示的官方微博新闻语体与门户网站新闻语体的差异，只不过是冰山一角而已。第二，我们所选用的语料样本数量有限，这在一定程度上影响了统计数据的准确性。

　　今后，我们将扩大语料规模，探索出自动提取语体标记的方法，为语体研究尽绵薄之力。

　　注释：

　　① http：//ling.cuc.edu.cn/cucseg/

　　② 粗颗粒度与细颗粒度切分标准请参看《面向语言监测的自动分词标注规范研究报告》。

　　③ 计算公式为：差异=■×100%

　　④ 封闭性词类（closed-class word）的成员数目有限，变化较少，一般可以穷尽列举。

　　⑤计算公式为：差异=■×100%

官方微博与门户网站新闻语体的计量对比分析

上一篇：当前部分电视媒体时事新闻主流意识传播中存在的问题及治理对策
下一篇：史鉴新闻摄影平面构图理论与技巧浅探

论文搜索: 关键字：微博对比网站新闻计量官方

最新新闻传播学论文: 辅导员视角下新闻传播学类专业学生就业现状; 新闻传播政策与法规“课程思政”案例教学研; 试论红色文化融入新闻传播学课程思政的实践; 媒介融合时代新闻传播人才培养理念与路径研; 浅析混合式教学在新闻传播学中的常态化应用; 试论创新创业教育背景下新闻传播类专业实践; 基于新闻传播研究理论与实践融合发展的思考; 国有企业新闻宣传工作创新应用研究; 国有企业新闻宣传工作创新应用; 抗战时期《新华日报》的工人报道分析

热门新闻传播学论文: 娱乐新闻和新闻的娱乐化; 广告中女性形象的思考; 论电视新闻编辑学; 广告与欲望修辞学; 大众传播·民主政治·公共空间; 新闻传播学论文写作的规范化问题; 传媒业发展回顾及展望; 中国社会变革与新媒体使用; 中美传媒网站比较; 网络广播的今天与明天——对中国国际广播电

官方微博与门户网站新闻语体的计量对比分析论文

官方微博与门户网站新闻语体的计量对比分析