]> git.cameronkatri.com Git - mandoc.git/blob - chars.c
21c6b59be518ec43974401b5f5376e2e8c0400b6
[mandoc.git] / chars.c
1 /* $Id: chars.c,v 1.74 2018/08/19 23:48:36 schwarze Exp $ */
2 /*
3 * Copyright (c) 2009, 2010, 2011 Kristaps Dzonsons <kristaps@bsd.lv>
4 * Copyright (c) 2011, 2014, 2015, 2017 Ingo Schwarze <schwarze@openbsd.org>
5 *
6 * Permission to use, copy, modify, and distribute this software for any
7 * purpose with or without fee is hereby granted, provided that the above
8 * copyright notice and this permission notice appear in all copies.
9 *
10 * THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES
11 * WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF
12 * MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR
13 * ANY SPECIAL, DIRECT, INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES
14 * WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN
15 * ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF
16 * OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.
17 */
18 #include "config.h"
19
20 #include <sys/types.h>
21
22 #include <assert.h>
23 #include <ctype.h>
24 #include <stddef.h>
25 #include <stdint.h>
26 #include <stdlib.h>
27 #include <string.h>
28
29 #include "mandoc.h"
30 #include "mandoc_aux.h"
31 #include "mandoc_ohash.h"
32 #include "libmandoc.h"
33
34 struct ln {
35 const char roffcode[16];
36 const char *ascii;
37 int unicode;
38 };
39
40 /* Special break control characters. */
41 static const char ascii_nbrsp[2] = { ASCII_NBRSP, '\0' };
42 static const char ascii_break[2] = { ASCII_BREAK, '\0' };
43
44 static struct ln lines[] = {
45
46 /* Spacing. */
47 { " ", ascii_nbrsp, 0x00a0 },
48 { "~", ascii_nbrsp, 0x00a0 },
49 { "0", " ", 0x2002 },
50 { "|", "", 0 },
51 { "^", "", 0 },
52 { "&", "", 0 },
53 { ")", "", 0 },
54 { "%", "", 0 },
55 { ":", ascii_break, 0 },
56 /* XXX The following three do not really belong here. */
57 { "t", "", 0 },
58 { "c", "", 0 },
59 { "}", "", 0 },
60
61 /* Lines. */
62 { "ba", "|", 0x007c },
63 { "br", "|", 0x2502 },
64 { "ul", "_", 0x005f },
65 { "ru", "_", 0x005f },
66 { "rn", "-", 0x203e },
67 { "bb", "|", 0x00a6 },
68 { "sl", "/", 0x002f },
69 { "rs", "\\", 0x005c },
70
71 /* Text markers. */
72 { "ci", "O", 0x25cb },
73 { "bu", "+\bo", 0x2022 },
74 { "dd", "<**>", 0x2021 },
75 { "dg", "<*>", 0x2020 },
76 { "lz", "<>", 0x25ca },
77 { "sq", "[]", 0x25a1 },
78 { "ps", "<paragraph>", 0x00b6 },
79 { "sc", "<section>", 0x00a7 },
80 { "lh", "<=", 0x261c },
81 { "rh", "=>", 0x261e },
82 { "at", "@", 0x0040 },
83 { "sh", "#", 0x0023 },
84 { "CR", "<cr>", 0x21b5 },
85 { "OK", "\\/", 0x2713 },
86 { "CL", "<club>", 0x2663 },
87 { "SP", "<spade>", 0x2660 },
88 { "HE", "<heart>", 0x2665 },
89 { "DI", "<diamond>", 0x2666 },
90
91 /* Legal symbols. */
92 { "co", "(C)", 0x00a9 },
93 { "rg", "(R)", 0x00ae },
94 { "tm", "tm", 0x2122 },
95
96 /* Punctuation. */
97 { "em", "--", 0x2014 },
98 { "en", "-", 0x2013 },
99 { "hy", "-", 0x2010 },
100 { "e", "\\", 0x005c },
101 { ".", ".", 0x002e },
102 { "r!", "!", 0x00a1 },
103 { "r?", "?", 0x00bf },
104
105 /* Quotes. */
106 { "Bq", ",,", 0x201e },
107 { "bq", ",", 0x201a },
108 { "lq", "\"", 0x201c },
109 { "rq", "\"", 0x201d },
110 { "Lq", "\"", 0x201c },
111 { "Rq", "\"", 0x201d },
112 { "oq", "`", 0x2018 },
113 { "cq", "\'", 0x2019 },
114 { "aq", "\'", 0x0027 },
115 { "dq", "\"", 0x0022 },
116 { "Fo", "<<", 0x00ab },
117 { "Fc", ">>", 0x00bb },
118 { "fo", "<", 0x2039 },
119 { "fc", ">", 0x203a },
120
121 /* Brackets. */
122 { "lB", "[", 0x005b },
123 { "rB", "]", 0x005d },
124 { "lC", "{", 0x007b },
125 { "rC", "}", 0x007d },
126 { "la", "<", 0x27e8 },
127 { "ra", ">", 0x27e9 },
128 { "bv", "|", 0x23aa },
129 { "braceex", "|", 0x23aa },
130 { "bracketlefttp", "|", 0x23a1 },
131 { "bracketleftbt", "|", 0x23a3 },
132 { "bracketleftex", "|", 0x23a2 },
133 { "bracketrighttp", "|", 0x23a4 },
134 { "bracketrightbt", "|", 0x23a6 },
135 { "bracketrightex", "|", 0x23a5 },
136 { "lt", ",-", 0x23a7 },
137 { "bracelefttp", ",-", 0x23a7 },
138 { "lk", "{", 0x23a8 },
139 { "braceleftmid", "{", 0x23a8 },
140 { "lb", "`-", 0x23a9 },
141 { "braceleftbt", "`-", 0x23a9 },
142 { "braceleftex", "|", 0x23aa },
143 { "rt", "-.", 0x23ab },
144 { "bracerighttp", "-.", 0x23ab },
145 { "rk", "}", 0x23ac },
146 { "bracerightmid", "}", 0x23ac },
147 { "rb", "-\'", 0x23ad },
148 { "bracerightbt", "-\'", 0x23ad },
149 { "bracerightex", "|", 0x23aa },
150 { "parenlefttp", "/", 0x239b },
151 { "parenleftbt", "\\", 0x239d },
152 { "parenleftex", "|", 0x239c },
153 { "parenrighttp", "\\", 0x239e },
154 { "parenrightbt", "/", 0x23a0 },
155 { "parenrightex", "|", 0x239f },
156
157 /* Arrows and lines. */
158 { "<-", "<-", 0x2190 },
159 { "->", "->", 0x2192 },
160 { "<>", "<->", 0x2194 },
161 { "da", "|\bv", 0x2193 },
162 { "ua", "|\b^", 0x2191 },
163 { "va", "^v", 0x2195 },
164 { "lA", "<=", 0x21d0 },
165 { "rA", "=>", 0x21d2 },
166 { "hA", "<=>", 0x21d4 },
167 { "uA", "=\b^", 0x21d1 },
168 { "dA", "=\bv", 0x21d3 },
169 { "vA", "^=v", 0x21d5 },
170 { "an", "-", 0x23af },
171
172 /* Logic. */
173 { "AN", "^", 0x2227 },
174 { "OR", "v", 0x2228 },
175 { "no", "~", 0x00ac },
176 { "tno", "~", 0x00ac },
177 { "te", "<there\037exists>", 0x2203 },
178 { "fa", "<for\037all>", 0x2200 },
179 { "st", "<such\037that>", 0x220b },
180 { "tf", "<therefore>", 0x2234 },
181 { "3d", "<therefore>", 0x2234 },
182 { "or", "|", 0x007c },
183
184 /* Mathematicals. */
185 { "pl", "+", 0x002b },
186 { "mi", "-", 0x2212 },
187 { "-", "-", 0x002d },
188 { "-+", "-+", 0x2213 },
189 { "+-", "+-", 0x00b1 },
190 { "t+-", "+-", 0x00b1 },
191 { "pc", ".", 0x00b7 },
192 { "md", ".", 0x22c5 },
193 { "mu", "x", 0x00d7 },
194 { "tmu", "x", 0x00d7 },
195 { "c*", "O\bx", 0x2297 },
196 { "c+", "O\b+", 0x2295 },
197 { "di", "/", 0x00f7 },
198 { "tdi", "/", 0x00f7 },
199 { "f/", "/", 0x2044 },
200 { "**", "*", 0x2217 },
201 { "<=", "<=", 0x2264 },
202 { ">=", ">=", 0x2265 },
203 { "<<", "<<", 0x226a },
204 { ">>", ">>", 0x226b },
205 { "eq", "=", 0x003d },
206 { "!=", "!=", 0x2260 },
207 { "==", "==", 0x2261 },
208 { "ne", "!==", 0x2262 },
209 { "ap", "~", 0x223c },
210 { "|=", "-~", 0x2243 },
211 { "=~", "=~", 0x2245 },
212 { "~~", "~~", 0x2248 },
213 { "~=", "~=", 0x2248 },
214 { "pt", "<proportional\037to>", 0x221d },
215 { "es", "{}", 0x2205 },
216 { "mo", "<element\037of>", 0x2208 },
217 { "nm", "<not\037element\037of>", 0x2209 },
218 { "sb", "<proper\037subset>", 0x2282 },
219 { "nb", "<not\037subset>", 0x2284 },
220 { "sp", "<proper\037superset>", 0x2283 },
221 { "nc", "<not\037superset>", 0x2285 },
222 { "ib", "<subset\037or\037equal>", 0x2286 },
223 { "ip", "<superset\037or\037equal>", 0x2287 },
224 { "ca", "<intersection>", 0x2229 },
225 { "cu", "<union>", 0x222a },
226 { "/_", "<angle>", 0x2220 },
227 { "pp", "<perpendicular>", 0x22a5 },
228 { "is", "<integral>", 0x222b },
229 { "integral", "<integral>", 0x222b },
230 { "sum", "<sum>", 0x2211 },
231 { "product", "<product>", 0x220f },
232 { "coproduct", "<coproduct>", 0x2210 },
233 { "gr", "<nabla>", 0x2207 },
234 { "sr", "<sqrt>", 0x221a },
235 { "sqrt", "<sqrt>", 0x221a },
236 { "lc", "|~", 0x2308 },
237 { "rc", "~|", 0x2309 },
238 { "lf", "|_", 0x230a },
239 { "rf", "_|", 0x230b },
240 { "if", "<infinity>", 0x221e },
241 { "Ah", "<Aleph>", 0x2135 },
242 { "Im", "<Im>", 0x2111 },
243 { "Re", "<Re>", 0x211c },
244 { "wp", "P", 0x2118 },
245 { "pd", "<del>", 0x2202 },
246 { "-h", "/h", 0x210f },
247 { "hbar", "/h", 0x210f },
248 { "12", "1/2", 0x00bd },
249 { "14", "1/4", 0x00bc },
250 { "34", "3/4", 0x00be },
251 { "18", "1/8", 0x215B },
252 { "38", "3/8", 0x215C },
253 { "58", "5/8", 0x215D },
254 { "78", "7/8", 0x215E },
255 { "S1", "^1", 0x00B9 },
256 { "S2", "^2", 0x00B2 },
257 { "S3", "^3", 0x00B3 },
258
259 /* Ligatures. */
260 { "ff", "ff", 0xfb00 },
261 { "fi", "fi", 0xfb01 },
262 { "fl", "fl", 0xfb02 },
263 { "Fi", "ffi", 0xfb03 },
264 { "Fl", "ffl", 0xfb04 },
265 { "AE", "AE", 0x00c6 },
266 { "ae", "ae", 0x00e6 },
267 { "OE", "OE", 0x0152 },
268 { "oe", "oe", 0x0153 },
269 { "ss", "ss", 0x00df },
270 { "IJ", "IJ", 0x0132 },
271 { "ij", "ij", 0x0133 },
272
273 /* Accents. */
274 { "a\"", "\"", 0x02dd },
275 { "a-", "-", 0x00af },
276 { "a.", ".", 0x02d9 },
277 { "a^", "^", 0x005e },
278 { "aa", "\'", 0x00b4 },
279 { "\'", "\'", 0x00b4 },
280 { "ga", "`", 0x0060 },
281 { "`", "`", 0x0060 },
282 { "ab", "'\b`", 0x02d8 },
283 { "ac", ",", 0x00b8 },
284 { "ad", "\"", 0x00a8 },
285 { "ah", "v", 0x02c7 },
286 { "ao", "o", 0x02da },
287 { "a~", "~", 0x007e },
288 { "ho", ",", 0x02db },
289 { "ha", "^", 0x005e },
290 { "ti", "~", 0x007e },
291
292 /* Accented letters. */
293 { "'A", "'\bA", 0x00c1 },
294 { "'E", "'\bE", 0x00c9 },
295 { "'I", "'\bI", 0x00cd },
296 { "'O", "'\bO", 0x00d3 },
297 { "'U", "'\bU", 0x00da },
298 { "'a", "'\ba", 0x00e1 },
299 { "'e", "'\be", 0x00e9 },
300 { "'i", "'\bi", 0x00ed },
301 { "'o", "'\bo", 0x00f3 },
302 { "'u", "'\bu", 0x00fa },
303 { "`A", "`\bA", 0x00c0 },
304 { "`E", "`\bE", 0x00c8 },
305 { "`I", "`\bI", 0x00cc },
306 { "`O", "`\bO", 0x00d2 },
307 { "`U", "`\bU", 0x00d9 },
308 { "`a", "`\ba", 0x00e0 },
309 { "`e", "`\be", 0x00e8 },
310 { "`i", "`\bi", 0x00ec },
311 { "`o", "`\bo", 0x00f2 },
312 { "`u", "`\bu", 0x00f9 },
313 { "~A", "~\bA", 0x00c3 },
314 { "~N", "~\bN", 0x00d1 },
315 { "~O", "~\bO", 0x00d5 },
316 { "~a", "~\ba", 0x00e3 },
317 { "~n", "~\bn", 0x00f1 },
318 { "~o", "~\bo", 0x00f5 },
319 { ":A", "\"\bA", 0x00c4 },
320 { ":E", "\"\bE", 0x00cb },
321 { ":I", "\"\bI", 0x00cf },
322 { ":O", "\"\bO", 0x00d6 },
323 { ":U", "\"\bU", 0x00dc },
324 { ":a", "\"\ba", 0x00e4 },
325 { ":e", "\"\be", 0x00eb },
326 { ":i", "\"\bi", 0x00ef },
327 { ":o", "\"\bo", 0x00f6 },
328 { ":u", "\"\bu", 0x00fc },
329 { ":y", "\"\by", 0x00ff },
330 { "^A", "^\bA", 0x00c2 },
331 { "^E", "^\bE", 0x00ca },
332 { "^I", "^\bI", 0x00ce },
333 { "^O", "^\bO", 0x00d4 },
334 { "^U", "^\bU", 0x00db },
335 { "^a", "^\ba", 0x00e2 },
336 { "^e", "^\be", 0x00ea },
337 { "^i", "^\bi", 0x00ee },
338 { "^o", "^\bo", 0x00f4 },
339 { "^u", "^\bu", 0x00fb },
340 { ",C", ",\bC", 0x00c7 },
341 { ",c", ",\bc", 0x00e7 },
342 { "/L", "/\bL", 0x0141 },
343 { "/l", "/\bl", 0x0142 },
344 { "/O", "/\bO", 0x00d8 },
345 { "/o", "/\bo", 0x00f8 },
346 { "oA", "o\bA", 0x00c5 },
347 { "oa", "o\ba", 0x00e5 },
348
349 /* Special letters. */
350 { "-D", "Dh", 0x00d0 },
351 { "Sd", "dh", 0x00f0 },
352 { "TP", "Th", 0x00de },
353 { "Tp", "th", 0x00fe },
354 { ".i", "i", 0x0131 },
355 { ".j", "j", 0x0237 },
356
357 /* Currency. */
358 { "Do", "$", 0x0024 },
359 { "ct", "/\bc", 0x00a2 },
360 { "Eu", "EUR", 0x20ac },
361 { "eu", "EUR", 0x20ac },
362 { "Ye", "=\bY", 0x00a5 },
363 { "Po", "GBP", 0x00a3 },
364 { "Cs", "o\bx", 0x00a4 },
365 { "Fn", ",\bf", 0x0192 },
366
367 /* Units. */
368 { "de", "<degree>", 0x00b0 },
369 { "%0", "<permille>", 0x2030 },
370 { "fm", "\'", 0x2032 },
371 { "sd", "''", 0x2033 },
372 { "mc", "<micro>", 0x00b5 },
373 { "Of", "_\ba", 0x00aa },
374 { "Om", "_\bo", 0x00ba },
375
376 /* Greek characters. */
377 { "*A", "A", 0x0391 },
378 { "*B", "B", 0x0392 },
379 { "*G", "<Gamma>", 0x0393 },
380 { "*D", "<Delta>", 0x0394 },
381 { "*E", "E", 0x0395 },
382 { "*Z", "Z", 0x0396 },
383 { "*Y", "H", 0x0397 },
384 { "*H", "<Theta>", 0x0398 },
385 { "*I", "I", 0x0399 },
386 { "*K", "K", 0x039a },
387 { "*L", "<Lambda>", 0x039b },
388 { "*M", "M", 0x039c },
389 { "*N", "N", 0x039d },
390 { "*C", "<Xi>", 0x039e },
391 { "*O", "O", 0x039f },
392 { "*P", "<Pi>", 0x03a0 },
393 { "*R", "P", 0x03a1 },
394 { "*S", "<Sigma>", 0x03a3 },
395 { "*T", "T", 0x03a4 },
396 { "*U", "Y", 0x03a5 },
397 { "*F", "<Phi>", 0x03a6 },
398 { "*X", "X", 0x03a7 },
399 { "*Q", "<Psi>", 0x03a8 },
400 { "*W", "<Omega>", 0x03a9 },
401 { "*a", "<alpha>", 0x03b1 },
402 { "*b", "<beta>", 0x03b2 },
403 { "*g", "<gamma>", 0x03b3 },
404 { "*d", "<delta>", 0x03b4 },
405 { "*e", "<epsilon>", 0x03b5 },
406 { "*z", "<zeta>", 0x03b6 },
407 { "*y", "<eta>", 0x03b7 },
408 { "*h", "<theta>", 0x03b8 },
409 { "*i", "<iota>", 0x03b9 },
410 { "*k", "<kappa>", 0x03ba },
411 { "*l", "<lambda>", 0x03bb },
412 { "*m", "<mu>", 0x03bc },
413 { "*n", "<nu>", 0x03bd },
414 { "*c", "<xi>", 0x03be },
415 { "*o", "o", 0x03bf },
416 { "*p", "<pi>", 0x03c0 },
417 { "*r", "<rho>", 0x03c1 },
418 { "*s", "<sigma>", 0x03c3 },
419 { "*t", "<tau>", 0x03c4 },
420 { "*u", "<upsilon>", 0x03c5 },
421 { "*f", "<phi>", 0x03d5 },
422 { "*x", "<chi>", 0x03c7 },
423 { "*q", "<psi>", 0x03c8 },
424 { "*w", "<omega>", 0x03c9 },
425 { "+h", "<theta>", 0x03d1 },
426 { "+f", "<phi>", 0x03c6 },
427 { "+p", "<pi>", 0x03d6 },
428 { "+e", "<epsilon>", 0x03f5 },
429 { "ts", "<sigma>", 0x03c2 },
430 };
431
432 static struct ohash mchars;
433
434
435 void
436 mchars_free(void)
437 {
438
439 ohash_delete(&mchars);
440 }
441
442 void
443 mchars_alloc(void)
444 {
445 size_t i;
446 unsigned int slot;
447
448 mandoc_ohash_init(&mchars, 9, offsetof(struct ln, roffcode));
449 for (i = 0; i < sizeof(lines)/sizeof(lines[0]); i++) {
450 slot = ohash_qlookup(&mchars, lines[i].roffcode);
451 assert(ohash_find(&mchars, slot) == NULL);
452 ohash_insert(&mchars, slot, lines + i);
453 }
454 }
455
456 int
457 mchars_spec2cp(const char *p, size_t sz)
458 {
459 const struct ln *ln;
460 const char *end;
461
462 end = p + sz;
463 ln = ohash_find(&mchars, ohash_qlookupi(&mchars, p, &end));
464 return ln != NULL ? ln->unicode : sz == 1 ? (unsigned char)*p : -1;
465 }
466
467 int
468 mchars_num2char(const char *p, size_t sz)
469 {
470 int i;
471
472 i = mandoc_strntoi(p, sz, 10);
473 return i >= 0 && i < 256 ? i : -1;
474 }
475
476 int
477 mchars_num2uc(const char *p, size_t sz)
478 {
479 int i;
480
481 i = mandoc_strntoi(p, sz, 16);
482 assert(i >= 0 && i <= 0x10FFFF);
483 return i;
484 }
485
486 const char *
487 mchars_spec2str(const char *p, size_t sz, size_t *rsz)
488 {
489 const struct ln *ln;
490 const char *end;
491
492 end = p + sz;
493 ln = ohash_find(&mchars, ohash_qlookupi(&mchars, p, &end));
494 if (ln == NULL) {
495 *rsz = 1;
496 return sz == 1 ? p : NULL;
497 }
498
499 *rsz = strlen(ln->ascii);
500 return ln->ascii;
501 }
502
503 const char *
504 mchars_uc2str(int uc)
505 {
506 size_t i;
507
508 for (i = 0; i < sizeof(lines)/sizeof(lines[0]); i++)
509 if (uc == lines[i].unicode)
510 return lines[i].ascii;
511 return "<?>";
512 }