连我都不会的自然语言处理

The trophy would not fit in the brown suitcase because it was too big.

在华大的时候,周五晚上我一般会和同学聚一聚,而不知道为什么有天晚上就聊到了这句话。按语法来说这应该属于指代不明,但人可以通过生活经验判断出这里的 it 指代的是奖杯(这奖杯还挺大)。可能上面这个对机器来说是个挑战,那下面这些例子可能连我们都需要想一想才能理解。

排除错误断句

对于上面这条推文,你可以理解为一个被过度修饰的名词短语:

1
((wild) charging case (with (both) AirPods appeared))

但我们需要将这个可能性排除:

而改为理解成一个完整的句子:

1
((wild) charging case (with (both) AirPods) appeared)

和“我一把把把把住了”一样,我们能够在简单的试错之后成功断句。不过接下来可不仅仅是脑经急转弯,而是真的烧脑了。

运用逻辑思维进行语义分析

针对下面这个要求,需要列出我刚好四个月前那一天去过的商店吗?请在不展开看同义改写的情况下思考:

List all shops that you have not visited since more than 4 months ago. List all shops that you visited earlier than 4 months ago. List all shops that you have not visited for more than 4 months. List all shops that you have not visited within the last 4 months.

我不知道你是否一下子就理解了这个句子,但我个人认为任何一个改写都比原句更容易理解,而且能够更迅速地帮你分析出上面那个问题的答案。那理解这个句子究竟难在哪里呢?个人推测有以下几个原因:

  1. since 后面一般会是一个固定的时间点,但 more than 是一个时间段(for 尝试解决的问题)
  2. more than 一般是正向的,但我们在讨论逆向的 ago(earlier 尝试解决的问题)
  3. not … since 和 not … more than 两种组合的可能性,以及两者逻辑上处理的不同
    1. not … since,就像改写一里那样,可以被直接去掉
    2. not … more than 按照逻辑则是改为 ≤

虽然可能 Spring 2020 上 CSE 414 的人里只有我(因为被扣了一分)在纠结这个问题,但(过去、现在、将来)看到这个句子一头雾水的绝对不止我一个:

In all honesty, the sentence was a brain-bender — we had to read it aloud several times because the wording was confusing. I can easily see how it could be interpreted differently.

Rebecca TaylorENGL 131 instructor @UW

我们经常谈论 accessibility,那么我认为让所有人都能够看懂题也是非常重要的一部分。UW 的 INFO 200 在这方面我认为就处理得特别好,甚至还在写作、阅读方面照顾英语不是那么好的同学。在华大不少 competitive major 都想方设法让学生丢分的潮流中,祝 iSchool 能够继续坚守以学术–而不是竞争–为目标,展示(计算机)教育的本质。

Proposal #2: Make the highest grades achievable by all To Change CS Education to Reduce Inequity Computing Education Research Blog