中美英语议论文语篇修辞特征对比研究
上QQ阅读APP看书,第一时间看更新

二 研究语料

下面我们将重点解释研究语料的情况,包括语料的来源、语料收集的选择方法和步骤,以及语料的预处理等,确保语料数据的客观性、代表性,为后续对比研究的开展提供语料保障和数据基础。

(一)语料来源

鉴于语料选择要有可比性、学科性和体裁性特点,语料来源于“跨洋互动”网络平台上中美大学生同题影视评论的英语议论文写作。“跨洋互动(Cross-Pacific Exchange)”又称“跨国界互动(Cross-Borders Exchange)”,是2009年广东外语外贸大学(GDUFS,China)英语语言文化学院和美国宾夕法尼亚州立大学(PSU,USA)英语系建立的大学生英语作文跨洋合作项目。其中第14轮与新西兰惠灵顿维多利亚大学、第15轮与美国宾夕法尼亚米勒斯维尔大学开展了英语作文跨洋互动合作,截止到2017年广东外语外贸大学已经成功举办了27轮跨洋互动。“跨洋互动”采用两种互动形式:一是网上互评英语作文形式,中美大学生通过网站互评专题英语作文;二是实地交流形式,中美大学互派在校大学生去对方大学插班修读或利用假期时间进行交流。

我们选用“跨洋互动”平台上的互评英语作文。根据研究语料的要求,中国英语学习者和美国母语者英语议论文语料必须是同题的英语议论文作文,而很多“跨洋互动”的多轮互评作文采用了不同文体和题目,都不符合研究要求。最终,我们发现第17轮、第19轮和第22轮是中美同题的电影比较评论作文,符合语料要求,故我们以此平台构建英语议论文写作语料库,其中包括中国英语学习者英语议论文写作语料、美国母语者大学生英语议论文写作语料,均为英语议论文写作语料。中国英语学习者作文语料库(Chinese English Learners’ Corpus of Film Review Writing,简称CELCFRW)选自广东外语外贸大学英语系学生作文。美国母语者作文语料库(English Native Speakers’ Corpus of Film Review Writing,简称ENSCFRW)选自宾夕法尼亚州立大学英语系学生作文。这三轮开展时间为2016年11月至2017年8月,中国英语学习者和美国母语者英语议论文写作语料都比较新。“跨洋互动”第17轮要求中美大学生先观看中国电影《秋菊打官司》(Story Of Qiu Ju or Qiu Ju Goes to Court)和美国电影《永不妥协》(Erin Brockvich),然后比较评论这两部电影的异同。第19轮要求中美大学生观看中国电影《盲山》(Blind Mountain)和美国电影《噩梦》(Nightmare in the Badham County),然后比较评论这两部电影的异同。第22轮作文要求中美大学生观看中国电影《凤凰琴》(Feng Huang Qin or Country Teachers)和美国电影《铁腕校长》(Lean on Me),然后评论这两部电影的异同。学生可以评论同龄人的电影评论,并参与在线讨论,期待双方学生能促进语言、文化和艺术的相互理解。

(二)语料收集

本研究遵循国际语篇语料库的建设方法,将质化研究和量化研究相结合。语料收集时,我们主要考虑以下几个问题:(1)所收集的中美英语议论文作文都是2016—2017年中美大学生所创作的,能反映中美大学生英语议论文写作的最新情况;(2)中美英语议论文语料要有可比性,因此英语议论文作文题目必须是同题作文,而且都是用英语书写;(3)所建立的中国英语学习者和美国母语者微型英语议论文写作语料库不能仅仅追求语料库规模的大小,重点考虑能充分描写和解释各章节的研究目标。首先,我们通过网络搜索方法,在“跨洋互动”网络平台上搜索中国英语学习者和美国母语者的英语议论文写作的同题作文,发现第17轮、第19轮和第22轮都是关于不同中美电影评论的作文,然后我们各收集了中国英语学习者和美国母语者在这三轮中的所有作文,剔除和本研究不相关的作文,最后收集到第17轮中美大学生同题作文各16篇,第19轮各20篇,第22轮各30篇。我们将中美大学生作文分别从网页上复制、粘贴到新文档中,接着整理为英语议论文的文本书档,建立中国英语学习者和美国母语者英语议论文的数据库。根据本研究的目的,我们从中国英语学习者和美国母语者各自的主数据库中抽取样本,然后建立微型英语议论文写作语料库。

(三)语料选择

所有语料抽取按照优先顺序,坚持“分类性”“完整性”和“真实性”三个原则,“分类性”保障中美英语议论文写作语料抽取的目标群体、文章体裁等保持一致;“完整性”确保作文原文档的整体性,不再任意切分;“真实性”确保目标语料库的文档能最大限度地反映中美大学生英语议论文写作的真实性。中美英语议论文语料是关于同题影评作文,语言都为英语,体裁都为同题中美电影的议论文,都是中美大学生2016—2017年创作的,这样就保证了语料的同质性和真实性。在文本处理过程中,删除所有作文额外信息,例如作者、日期、系别等,只保留作文题目和正文,以保证语料的完整性。

中美大学生的作文篇幅长短不一,美国大学生作文最长一篇达到1713字,最短篇幅为416字;中国大学生作文最长篇幅为1416字,最短篇幅为470字。为了保证中美大学生作文水平的真实性和代表性,我们采用折中原则,删除篇幅最短和最长的作文,保留中等篇幅的作文,因为篇幅最短和最长的作文都为数不多,而且短篇幅作文反映不了学生最真实的写作水平。美国母语者英语议论文语料中篇幅在500字以下的作文共6篇,中国英语学习者英语议论文语料中则有2篇。美国母语者英语议论文语料中超过900字的作文共3篇,中国英语学习者英语议论文语料中则有6篇。因此我们删除这些语料,选择篇幅为500—900字之间的作文作为本研究的微型语料库。

首先,抽取美国母语者大学生写作语料。美国母语者作文语料库选自“跨洋互动”网络平台第17轮、第19轮、第22轮中的宾夕法尼亚州立大学学生的写作语料50篇,其中第17轮抽取15篇语料,第19轮抽取15篇语料,第22轮抽取20篇语料。其中500—599字的作文28篇,600—699字的作文14篇,700—799字的作文6篇,800—899字的作文2篇,共计30190字,每篇作文篇幅均为604字。该语料库用作观察语料库。

其次,抽取中国英语学习者大学生作文语料。该中国英语学习者作文语料库选自“跨洋互动”网络平台第17轮、第19轮、第22轮中的广东外语外贸大学英语语言文化学院英语专业二年级学生的写作语料,共50篇,其中第17轮抽取15篇语料,第19轮抽取15篇语料,第22轮抽取20篇语料。为了保持中美英语议论文语篇的可比性,我们也选用篇幅数在500—900词之间的作文。其中500—599字的作文13篇,600—699字的作文19篇,700—799字的作文11篇,800—899字的作文7篇,共计32547字,每篇作文篇幅均为651字。这样保持语料同质,控制变量,文本处理结果不会因语种或语体不同而受影响。两个语料库具体信息见下表2-1。

表2-1 中美英语议论文语料库概况

(四)语料预处理

在语篇语料库中,语料存储工作是极其重要的一步。语篇是由一个个有交际意义的单元构成,而本研究的中美英语议论文语篇的修辞特征对比涉及语篇单元的修辞关系,故涉及作者的交际目的,也涉及其基本语篇单元的语用和功能关系。为了尽可能展示作者的交际意图和写作时的交际语境,我们分别把中美大学生的整篇作文网页直接下载,然后存储在两个不同的文档中,作为中国英语学习者和美国母语者英语议论文语料库的原始文档。

我们将这些学生的作文网页内容复制在文本书档后,删除所有作文的额外信息,只保留作文题目和正文,我们发现这些作文格式存在一些问题,例如文档排版格式、作文信息格式和有效文本内容的起止特点和网页上学生原作文格式不一致。我们对原始议论文语料中存在的一些错误和不规整之处进行归类,发现主要涉及以下5种错误:(1)单词输入错误;(2)句子语法错误;(3)英文标点符号输入错误(缺失、误用、重叠等);(4)文字中间多空格或少空格;(5)段落换行错误;(6)其他错误。我们重点研究语篇修辞特征,因此不对单词输入做专门校对,除非发现某个单词错误影响了整个(或局部)语篇理解,我们则纠正这些单词。

此外,我们还对中美英语议论文作文中的标点符号做了校对,因为这些错误会给我们后续的基于标点符号的基本语篇单元的切分工作带来麻烦,一些标点符号也是基本语篇单元切分界限的分割符。而且这些错误还可能对中美英语议论文语篇修辞特征性质调查产生干扰,不仅影响后续工作的进程,例如基本语篇单元的切分效率和检索统计,也会影响最后结论的正确性及其有效性。因此,在语篇语料正式处理阶段前,我们对语料进行了预处理。基于语料先导研究的基础上,我们确定语篇基本语篇单元的边界符后,对所有语料进行了以下预处理:(1)修改作文中的拼写错误、语法错误;(2)删除多余空格,增加缺失的空格;(3)自动批量替换半角的英文符号,例如逗号、问号等;(4)根据原作文格式,给段落正确换行;(5)随时更正文档中的局部乱码;(6)添加原文档段落的序号;(7)对语料进行抽样核查。在上述预处理过程中,我们都保留每一步的修改记录和原始文件以备以后核查。