机器翻译学术论文写作方法和技巧--刘洋

审稿过程

（审稿人）审稿时往往先看题目、摘要，扫一下introduction（知道你做什么），然后直接翻到最后找核心实验结果（做得好不好），然后基本确定录还是不录（也许只用5分钟！）。如果决定录，剩下就是写些赞美的话，指出些次要的小毛病。如果决定拒，下面的过程就是细看中间部分找理由拒了。”

为此，我们的观念应当有所转变：以作者为核心整理工作 => 以读者为核心阐述工作

为读者服务

信息的呈现符合读者的认知惯性：深入浅出，引人入胜，让读者快速找到想要的信息
尽量降低读者的理解难度：图 > 曲线 > 表 > 正文 > 公式
尽量提高读者阅读时的愉悦感：思想新颖、组织合理、逻辑严密、论证充分、文笔优美、排版美观
tip：降低信息理解难度是关键。

标题

关键词+概括所做的工作

abstract

⼏句话概括你的⼯作：⽤语要简单，让外⾏能看懂

误区

⼒图把所有细节都说清楚
⽤很专业的术语来描述
出现数学符号

传统的 n-best 重排序技术常常因为 n-best 列表的有限范围而受限，这排除了许多潜在的好选择。// 相反，我们提出了森林重排序，一种对指数级数量的解析进行重排序的方法。// 由于在非局部特征下进行精确推断是不可行的，我们提出了一种近似算法，该算法受到森林重新评分的启发，使得在整个树库上进行判别式训练变得可行。// 我们的最终结果，一个 91.7 的 F 分数，超过了 50-best 和 100-best 重排序基线，并且比任何之前在树库上训练的系统都要好。

改正前：
本文考虑可循环智能包装在循环过程中的经济和环境影响，建立可循环智能包装多级逆向物流系统；构建多目标优化模型，建立激励机制以促进客户的回收行为，并采用排放因子法进行碳排放估算；基于多种改进算子，提出多目标遗传-禁忌搜索混合算法（MOHGATS），与多目标遗传算法和多目标禁忌搜索算法相比，该算法在计算精度和寻优能力上具有明显优势，从目标函数值、求解时间、评价指标等方面验证了在多个算例下的有效性；选取北京市沙河高教园相关数据进行实例分析，验证了该网络设计方案的可行性。探讨了客户对不同激励成本的心理接受程度对逆向物流系统的影响

改正后：
尽管可循环智能包装为人们的生活带来了诸多便利，但其循环过程对经济和环境产生了重大影响。//面对这一挑战，我们设计并实施了一个多级逆向物流系统，专为可循环智能包装而设。// 通过开发一种多目标优化模型，我们不仅建立了促进消费者回收行为的激励机制，还采用排放因子法来估算碳排放量。此外，我们还创新性地提出了一种融合多目标遗传算法和禁忌搜索的混合算法（MOHGATS），在解决方案的计算精度和优化能力方面，相较于现有技术展现了显著优势。// 基于北京市沙河高教园的实际数据进行的案例分析不仅证明了我们网络设计方案的实用性，还探讨了不同激励成本下消费者心理接受度对逆向物流系统影响的重要性。实验数据显示，我们的方法在提升可循环智能包装系统的经济与环境效益方面取得了显著成效。

introduction

比题目和摘要更进一步，用几段话说清你的⼯作，要点是充分论证你所做⼯工作的必要性和重要性,要让审稿⼈人认同并迫不及待想往下看,⾏⽂逻辑严密，论证充分

简单的逻辑：

说明问题是什么
简单罗列前⼈人⼯工作
描述我们的⼯工作

段落的写法

段落的写法:

每段都有论断性的中心句
其余部分都是支撑句，围绕中心句展开论证，且论证要严密
- 前人工作
- 具体数据
支撑句之间可分类组织（关联词 …）
段位可以加上衔接句（适当的总结：Therefore, … ）

tips:

在首页放置一张图或表，让读者一目了然所做的工作；
不要去写“This paper is organized as follow. Section 2 …”，而是直接列出自己的贡献。

基于句法的统计机器翻译方法利用带有句法注释的平行数据，这些注释可能是短语结构树或依存树的形式。|| 这些方法大致可以分为三类：字符串到树模型（例如，Galley等人，2006年；Marcu等人，2006年；Shen等人，2008年），树到字符串模型（例如，Liu等人，2006年；Fu等人，2006年），以及树到树模型（例如，Eisner，2003年；Ding与Palmer，2005年；Cowan等人，2006年；Zhang等人，2008年）。通过建模源语言和目标语言的句法，树到树方法有潜在的好处，可以提供在语言学上更有动机的规则。然而，尽管字符串到树和树到字符串模型在实证评估中显示出有希望的结果，树到树模型仍然表现不佳。

我们认为树到树模型面临两大挑战。|| 首先，树到树模型对解析错误更为敏感。获取大量句法注释通常需要在平行语料库上运行自动解析器。由于用于训练解析器的数据量和领域相对有限，解析器在处理现实世界文本时不可避免地会输出格式不正确的树。在这样的含有噪声的句法信息指导下，依赖于最佳解析的基于句法的模型倾向于在训练阶段学习到噪声翻译规则，并在解码阶段产生退化的翻译（Quirk和Corston-Oliver，2006）。对于在双方都使用句法的树到树模型，这种情况变得更加严重。

其次，树到树规则提供的规则覆盖率较差。|| 由于树到树规则要求两边都必须有树，树到树模型会丢失大量在语言学上无动机的映射。研究显示，这种非句法映射的缺失将极大地损害翻译质量（Marcu等人，2006年；Liu等人，2007年；DeNeefe等人，2007年；Zhang等人，2008年）。

为了紧凑地编码指数级的解析，打包的森林被证明是缓解上述两个问题的绝佳选择（Mi等人，2008年；Mi和Huang，2008年）。|| 在本文中，我们提出了一种基于森林的树到树模型。为了从对齐的森林对中学习STSG（同步树替换文法）规则，我们引入了一系列概念来识别最小的树到树规则。我们的解码器首先将源森林转换为翻译森林，然后找到具有源森林中某棵树源产出的最佳衍生物。与Moses相比，我们的基于森林的树到树模型在传统基于树的模型上实现了3.6 BLEU分的绝对改进。

图与表

图和表是论文的骨架，争取让读者按照顺序看就能理解论⽂的主要思想，不用通过看正文才能懂（⼀般第⼀遍看，都会看图、找例子，然后翻到后面找主要结果，再从头看正⽂）

把论文的元素放在最应该被放在的地方，符合读者的认知惯性，降低理解难度

方法

注意：不要一上来就描述你的工作，可以先介绍背景知识(往往就是baseline)

有利于降低初学者或其他领域学者的理解难度
有利于对introduction中的论文做更详细的解释
有利于对比baseline和你的⽅法

逻辑顺序：

首先给出running example
然后利用running example，用通俗语言描述自己的想法
形式化的描述

Running Example

全篇统一使用一个running example，用来阐释自己的方法（甚至是baseline）
围绕着running example，展开描述自己的工作
审稿人能从running example中更舒服地了解自己的工作，读正文会花掉他/她更多时间
看完running example，审稿人便能知道核心思想

实验

公认的标准数据和state-of-the-art系统
实验先辅后主
- 辅助实验(开发集):参数的影响
- 主实验(测试集):证明显著超过baseline 必须有显著性检验
不辞辛劳，做到极致

先辅后主

用图误区

左边太密集了
交叉、不对应

用表误区

描述要包含充分信息，不用看原文就能理解

写作技巧

常见问题，详细内容请见这里：

句子过长
经常被动句式
口语化
the，a的使用
公式后面文字的缩进
引用的写法

工具：

latex代替word
bibtex：自动生成参考文献
metapost：编程画矢量图

时间管理和获得反馈：

coarse-to-fine：
- 截稿前一个月开始写
- 每隔两天改一次
听取不同背景读者的意见
- 专家
- 非专家

blog