编程杂谈——Non-breaking space

kenwoo 2019-08-14 原文

近日，意外地遇上件不寻常的事情。在解析PDF文件，读取其中内容的时候，对某一文件的处理，始终无法达到预期的效果。

解析方法如下：

  public void Parse(string value)
  {
      if (value == "General Information")
      {
          ...
      }
  }

经调试发现此时传入的参数值是General Information，但在实际执行时并未进入到if (value == "General Information")条件语句内。这是件怪事。

将条件值与传入值分别拷贝出来，再放到一段简单的测试代码中，会看到结果显示为False。说明这两个真的不是等同的值。

    class Program
    {
        static void Main(string[] args)
        {
            var a = "General Information";
            var b = "General Information";
            var eq = a == b;
            Console.WriteLine(eq);
        }
    }

认真检查了一遍拼写，发现无误后，将字符串转成十六进制再调查。

General Information转换为以下结果：

47 65 6E 65 72 61 6C 20 49 6E 66 6F 72 6D 61 74 69 6F 6E

而General Information的结果是这样的：

47 65 6E 65 72 61 6C C2 A0 49 6E 66 6F 72 6D 61 74 69 6F 6E

可以看到两者的差异在于20与C2 A0。

由Ascii表可知，20正是表示空格。

C2 A0则代表Non-breaking space，是在UTF-8编码下的一种特殊的空格，意指换行时阻止空格两端文字被断开。

举个简单的例子，文字100 km如果出现在行末，当需要换行处理时，很可能会自动将100留在当前行末，而km被移到下一行首。但如果其中间的空格是Non-breaking space，那这种情况便不会发生了。

在Windows系统上，通过使用Alt+0160或者Alt+255(数字键都是小键盘上的)方式能够输入此类型的空格。但细想下，极少有可能是人为主动使用这种方式进行输入数据的。

再搜寻了下，原来在Finnish multilingual keyboard(芬兰语多语言键盘)上，可以通过AltGr + Space组合键方便地进行输入Non-breaking space，所以大约那份PDF文档的出处源自芬兰吧。

本文链接：https://www.cnblogs.com/kenwoo/p/11355173.html

编程杂谈——Non-breaking space的更多相关文章

2019.05.30 S4 BUPT BP 客户增强说明

– 看了一圈，发现网上BUPT增强的很少，有的也是做一个字段的页签的增强，我自己花时间研究了一下， […]...

ML.NET调用Tensorflow模型示例——MNIST

ML.NET在不久前发行了1.0版本，在考虑这一新轮子的实际用途时，最先想到的是其能否调用已有的模型，特别是最 […]...

Trusted Execution Technology (TXT) — 启动控制策略（LCP）篇

MOBILE VISION TECHNOLOGY

MOBILE VISION TECHNOLOGY In August 2015, Google announc […]...

ML.NET教程之客户细分(聚类问题)

理解问题客户细分需要解决的问题是按照客户之间的相似特征区分不同客户群体。这个问题的先决条件中没有可供使用的客 […]...

ML.NET教程之情感分析(二元分类问题)

机器学习的工作流程分为以下几个步骤：理解问题准备数据加载数据提取特征构建与训练训练模型评估模型 […]...

msi微星B350M主板开启VT(Virtualization Technology)

高级模式，OC，CPU特征，SVM Mode允许高级模式 OC CPU特征 SVM Mode 允许...

Internet History,Technology,and Security -Technology: Application Protocols(Week7)

Week7 Technology: Application Protocols This week, we’l […]...

随机推荐

thinpad E43系列WIN8装WIN7系统 – 新一

thinpad E43系列WIN8装WIN7系统昨晚WIN8系统下装WIN7 折腾了好久，故此总结一下写一篇 […]...

wsl2 ubuntu20.04 上使用 kubeadm 创建一个单主集群

wsl2 ubuntu20.04 上使用 kubeadm 创建一个单主集群官方文档使用 kubeadm 创建 […]...

OCP2018最新题库，052新题库及答案整理-25题

25、Which is true about logical and physical database st […]...

Redis 学习笔记（篇六）：数据库

Redis 是一个使用 C 语言编写的 NoSql 的数据库，本篇就讲解在 Redis 中数据库是如何存储的？ […]...

img延迟加载：使用jquery插件实现图片延迟加载技术【懒加载技术(简称lazyload)】

有时我们看到一些大型网站，页面如果有很多图片的时候，当你滚动到相应的行时，当前行的图片才即时加载的，这样子的话 […]...

设计模式（总纲）

概念：设计模式是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。以下是对上面有下划线的关键 […]...

吴恩达《深度学习》第三门课（1）机器学习策略一

1.1为什么是ML策略（1）当对一个实际的应用系统进行优化时，可能有很多想法：如提高数据量，提高网络深度，正 […]...

11 使用Tensorboard显示图片

首先，下载一张png格式的图片（注意：只支持png格式），命名为1.png。然后，打开PythonSh […]...

编程杂谈——Non-breaking space

编程杂谈——Non-breaking space的更多相关文章

随机推荐

热门专题

目录导航