]> git.cameronkatri.com Git - mandoc.git/blobdiff - roff.c
Since resetting of offsets works quite differently in man(7) and mdoc(7),
[mandoc.git] / roff.c
diff --git a/roff.c b/roff.c
index e25a74efe9865e30b16db5f7378ea8f5a68aa798..854e7781eaa64e91bb448229ce3ca392f9303934 100644 (file)
--- a/roff.c
+++ b/roff.c
@@ -1,7 +1,7 @@
-/*     $Id: roff.c,v 1.353 2018/12/18 22:00:02 schwarze Exp $ */
+/*     $Id: roff.c,v 1.361 2019/01/05 09:10:32 schwarze Exp $ */
 /*
  * Copyright (c) 2008-2012, 2014 Kristaps Dzonsons <kristaps@bsd.lv>
- * Copyright (c) 2010-2015, 2017, 2018 Ingo Schwarze <schwarze@openbsd.org>
+ * Copyright (c) 2010-2015, 2017-2019 Ingo Schwarze <schwarze@openbsd.org>
  *
  * Permission to use, copy, modify, and distribute this software for any
  * purpose with or without fee is hereby granted, provided that the above
 #include "tbl_parse.h"
 #include "eqn_parse.h"
 
+/*
+ * ASCII_ESC is used to signal from roff_getarg() to roff_expand()
+ * that an escape sequence resulted from copy-in processing and
+ * needs to be checked or interpolated.  As it is used nowhere
+ * else, it is defined here rather than in a header file.
+ */
+#define        ASCII_ESC       27
+
 /* Maximum number of string expansions per line, to break infinite loops. */
 #define        EXPAND_LIMIT    1000
 
@@ -173,7 +181,6 @@ static      int              roff_als(ROFF_ARGS);
 static int              roff_block(ROFF_ARGS);
 static int              roff_block_text(ROFF_ARGS);
 static int              roff_block_sub(ROFF_ARGS);
-static int              roff_br(ROFF_ARGS);
 static int              roff_cblock(ROFF_ARGS);
 static int              roff_cc(ROFF_ARGS);
 static int              roff_ccond(struct roff *, int, int);
@@ -191,6 +198,8 @@ static      int              roff_evalnum(struct roff *, int,
 static int              roff_evalpar(struct roff *, int,
                                const char *, int *, int *, int);
 static int              roff_evalstrcond(const char *, int *);
+static int              roff_expand(struct roff *, struct buf *,
+                               int, int, char);
 static void             roff_free1(struct roff *);
 static void             roff_freereg(struct roffreg *);
 static void             roff_freestr(struct roffkv *);
@@ -211,6 +220,7 @@ static      int              roff_line_ignore(ROFF_ARGS);
 static void             roff_man_alloc1(struct roff_man *);
 static void             roff_man_free1(struct roff_man *);
 static int              roff_manyarg(ROFF_ARGS);
+static int              roff_noarg(ROFF_ARGS);
 static int              roff_nop(ROFF_ARGS);
 static int              roff_nr(ROFF_ARGS);
 static int              roff_onearg(ROFF_ARGS);
@@ -219,7 +229,6 @@ static      enum roff_tok    roff_parse(struct roff *, char *, int *,
 static int              roff_parsetext(struct roff *, struct buf *,
                                int, int *);
 static int              roff_renamed(ROFF_ARGS);
-static int              roff_res(struct roff *, struct buf *, int, int);
 static int              roff_return(ROFF_ARGS);
 static int              roff_rm(ROFF_ARGS);
 static int              roff_rn(ROFF_ARGS);
@@ -248,8 +257,9 @@ static      int              roff_userdef(ROFF_ARGS);
 #define        ROFFNUM_WHITE   (1 << 1)  /* Skip whitespace in roff_evalnum(). */
 
 const char *__roff_name[MAN_MAX + 1] = {
-       "br",           "ce",           "ft",           "ll",
-       "mc",           "po",           "rj",           "sp",
+       "br",           "ce",           "fi",           "ft",
+       "ll",           "mc",           "nf",
+       "po",           "rj",           "sp",
        "ta",           "ti",           NULL,
        "ab",           "ad",           "af",           "aln",
        "als",          "am",           "am1",          "ami",
@@ -348,7 +358,6 @@ const char *__roff_name[MAN_MAX + 1] = {
        "HP",           "SM",           "SB",           "BI",
        "IB",           "BR",           "RB",           "R",
        "B",            "I",            "IR",           "RI",
-       "nf",           "fi",
        "RE",           "RS",           "DT",           "UC",
        "PD",           "AT",           "in",
        "SY",           "YS",           "OP",
@@ -358,11 +367,13 @@ const char *__roff_name[MAN_MAX + 1] = {
 const  char *const *roff_name = __roff_name;
 
 static struct roffmac   roffs[TOKEN_NONE] = {
-       { roff_br, NULL, NULL, 0 },  /* br */
+       { roff_noarg, NULL, NULL, 0 },  /* br */
        { roff_onearg, NULL, NULL, 0 },  /* ce */
+       { roff_noarg, NULL, NULL, 0 },  /* fi */
        { roff_onearg, NULL, NULL, 0 },  /* ft */
        { roff_onearg, NULL, NULL, 0 },  /* ll */
        { roff_onearg, NULL, NULL, 0 },  /* mc */
+       { roff_noarg, NULL, NULL, 0 },  /* nf */
        { roff_onearg, NULL, NULL, 0 },  /* po */
        { roff_onearg, NULL, NULL, 0 },  /* rj */
        { roff_onearg, NULL, NULL, 0 },  /* sp */
@@ -392,7 +403,7 @@ static      struct roffmac   roffs[TOKEN_NONE] = {
        { roff_unsupp, NULL, NULL, 0 },  /* break */
        { roff_line_ignore, NULL, NULL, 0 },  /* breakchar */
        { roff_line_ignore, NULL, NULL, 0 },  /* brnl */
-       { roff_br, NULL, NULL, 0 },  /* brp */
+       { roff_noarg, NULL, NULL, 0 },  /* brp */
        { roff_line_ignore, NULL, NULL, 0 },  /* brpnl */
        { roff_unsupp, NULL, NULL, 0 },  /* c2 */
        { roff_cc, NULL, NULL, 0 },  /* cc */
@@ -798,9 +809,8 @@ roff_alloc(int options)
 static void
 roff_man_free1(struct roff_man *man)
 {
-
-       if (man->first != NULL)
-               roff_node_delete(man, man->first);
+       if (man->meta.first != NULL)
+               roff_node_delete(man, man->meta.first);
        free(man->meta.msec);
        free(man->meta.vol);
        free(man->meta.os);
@@ -808,27 +818,33 @@ roff_man_free1(struct roff_man *man)
        free(man->meta.title);
        free(man->meta.name);
        free(man->meta.date);
+       free(man->meta.sodest);
 }
 
-static void
-roff_man_alloc1(struct roff_man *man)
+void
+roff_state_reset(struct roff_man *man)
 {
-
-       memset(&man->meta, 0, sizeof(man->meta));
-       man->first = mandoc_calloc(1, sizeof(*man->first));
-       man->first->type = ROFFT_ROOT;
-       man->last = man->first;
+       man->last = man->meta.first;
        man->last_es = NULL;
        man->flags = 0;
-       man->macroset = MACROSET_NONE;
        man->lastsec = man->lastnamed = SEC_NONE;
        man->next = ROFF_NEXT_CHILD;
+       roff_setreg(man->roff, "nS", 0, '=');
+}
+
+static void
+roff_man_alloc1(struct roff_man *man)
+{
+       memset(&man->meta, 0, sizeof(man->meta));
+       man->meta.first = mandoc_calloc(1, sizeof(*man->meta.first));
+       man->meta.first->type = ROFFT_ROOT;
+       man->meta.macroset = MACROSET_NONE;
+       roff_state_reset(man);
 }
 
 void
 roff_man_reset(struct roff_man *man)
 {
-
        roff_man_free1(man);
        roff_man_alloc1(man);
 }
@@ -836,7 +852,6 @@ roff_man_reset(struct roff_man *man)
 void
 roff_man_free(struct roff_man *man)
 {
-
        roff_man_free1(man);
        free(man);
 }
@@ -874,6 +889,10 @@ roff_node_alloc(struct roff_man *man, int line, int pos,
                n->flags |= NODE_SYNPRETTY;
        else
                n->flags &= ~NODE_SYNPRETTY;
+       if ((man->flags & (ROFF_NOFILL | ROFF_NONOFILL)) == ROFF_NOFILL)
+               n->flags |= NODE_NOFILL;
+       else
+               n->flags &= ~NODE_NOFILL;
        if (man->flags & MDOC_NEWLINE)
                n->flags |= NODE_LINE;
        man->flags &= ~MDOC_NEWLINE;
@@ -1011,7 +1030,7 @@ roff_addtbl(struct roff_man *man, int line, struct tbl_node *tbl)
        struct roff_node        *n;
        struct tbl_span         *span;
 
-       if (man->macroset == MACROSET_MAN)
+       if (man->meta.macroset == MACROSET_MAN)
                man_breakscope(man, ROFF_TS);
        while ((span = tbl_span(tbl)) != NULL) {
                n = roff_node_alloc(man, line, 0, ROFFT_TBL, TOKEN_NONE);
@@ -1055,8 +1074,8 @@ roff_node_unlink(struct roff_man *man, struct roff_node *n)
                        man->next = ROFF_NEXT_SIBLING;
                }
        }
-       if (man->first == n)
-               man->first = NULL;
+       if (man->meta.first == n)
+               man->meta.first = NULL;
 }
 
 void
@@ -1142,12 +1161,12 @@ deroff(char **dest, const struct roff_node *n)
 /* --- main functions of the roff parser ---------------------------------- */
 
 /*
- * In the current line, expand escape sequences that tend to get
- * used in numerical expressions and conditional requests.
- * Also check the syntax of the remaining escape sequences.
+ * In the current line, expand escape sequences that produce parsable
+ * input text.  Also check the syntax of the remaining escape sequences,
+ * which typically produce output glyphs or change formatter state.
  */
 static int
-roff_res(struct roff *r, struct buf *buf, int ln, int pos)
+roff_expand(struct roff *r, struct buf *buf, int ln, int pos, char newesc)
 {
        struct mctx     *ctx;   /* current macro call context */
        char             ubuf[24]; /* buffer to print the number */
@@ -1181,7 +1200,7 @@ roff_res(struct roff *r, struct buf *buf, int ln, int pos)
        done = 0;
        start = buf->buf + pos;
        for (stesc = buf->buf + pos; *stesc != '\0'; stesc++) {
-               if (stesc[0] != r->escape || stesc[1] == '\0')
+               if (stesc[0] != newesc || stesc[1] == '\0')
                        continue;
                stesc++;
                if (*stesc != '"' && *stesc != '#')
@@ -1223,7 +1242,7 @@ roff_res(struct roff *r, struct buf *buf, int ln, int pos)
                 * in the syntax tree.
                 */
 
-               if (r->format == 0) {
+               if (newesc != ASCII_ESC && r->format == 0) {
                        while (*ep == ' ' || *ep == '\t')
                                ep--;
                        ep[1] = '\0';
@@ -1264,11 +1283,16 @@ roff_res(struct roff *r, struct buf *buf, int ln, int pos)
 
        expand_count = 0;
        while (stesc >= start) {
+               if (*stesc != newesc) {
 
-               /* Search backwards for the next backslash. */
+                       /*
+                        * If we have a non-standard escape character,
+                        * escape literal backslashes because all
+                        * processing in subsequent functions uses
+                        * the standard escaping rules.
+                        */
 
-               if (*stesc != r->escape) {
-                       if (*stesc == '\\') {
+                       if (newesc != ASCII_ESC && *stesc == '\\') {
                                *stesc = '\0';
                                buf->sz = mandoc_asprintf(&nbuf, "%s\\e%s",
                                    buf->buf, stesc + 1) + 1;
@@ -1277,6 +1301,9 @@ roff_res(struct roff *r, struct buf *buf, int ln, int pos)
                                free(buf->buf);
                                buf->buf = nbuf;
                        }
+
+                       /* Search backwards for the next escape. */
+
                        stesc--;
                        continue;
                }
@@ -1556,10 +1583,11 @@ roff_res(struct roff *r, struct buf *buf, int ln, int pos)
  * or to the NUL byte terminating the argument line.
  */
 char *
-mandoc_getarg(char **cpp, int ln, int *pos)
+roff_getarg(struct roff *r, char **cpp, int ln, int *pos)
 {
-       char     *start, *cp;
-       int       quoted, pairs, white;
+       struct buf       buf;
+       char            *cp, *start;
+       int              newesc, pairs, quoted, white;
 
        /* Quoting can only start with a new word. */
        start = *cpp;
@@ -1569,8 +1597,7 @@ mandoc_getarg(char **cpp, int ln, int *pos)
                start++;
        }
 
-       pairs = 0;
-       white = 0;
+       newesc = pairs = white = 0;
        for (cp = start; '\0' != *cp; cp++) {
 
                /*
@@ -1588,9 +1615,13 @@ mandoc_getarg(char **cpp, int ln, int *pos)
                        switch (cp[1]) {
                        case 'a':
                        case 't':
-                               cp[0] = '\t';
-                               /* FALLTHROUGH */
+                               cp[-pairs] = '\t';
+                               pairs++;
+                               cp++;
+                               break;
                        case '\\':
+                               newesc = 1;
+                               cp[-pairs] = ASCII_ESC;
                                pairs++;
                                cp++;
                                break;
@@ -1639,7 +1670,18 @@ mandoc_getarg(char **cpp, int ln, int *pos)
        if ('\0' == *cp && (white || ' ' == cp[-1]))
                mandoc_msg(MANDOCERR_SPACE_EOL, ln, *pos, NULL);
 
-       return start;
+       start = mandoc_strdup(start);
+       if (newesc == 0)
+               return start;
+
+       buf.buf = start;
+       buf.sz = strlen(start) + 1;
+       buf.next = NULL;
+       if (roff_expand(r, &buf, ln, 0, ASCII_ESC) & ROFF_IGN) {
+               free(buf.buf);
+               buf.buf = mandoc_strdup("");
+       }
+       return buf.buf;
 }
 
 
@@ -1737,7 +1779,7 @@ roff_parseln(struct roff *r, int ln, struct buf *buf, int *offs)
 
        /* Expand some escape sequences. */
 
-       e = roff_res(r, buf, ln, pos);
+       e = roff_expand(r, buf, ln, pos, r->escape);
        if ((e & ROFF_MASK) == ROFF_IGN)
                return e;
        assert(e == ROFF_CONT);
@@ -3150,6 +3192,7 @@ roff_Dd(ROFF_ARGS)
 static int
 roff_TE(ROFF_ARGS)
 {
+       r->man->flags &= ~ROFF_NONOFILL;
        if (r->tbl == NULL) {
                mandoc_msg(MANDOCERR_BLK_NOTOPEN, ln, ppos, "TE");
                return ROFF_IGN;
@@ -3249,7 +3292,7 @@ roff_EQ(ROFF_ARGS)
 {
        struct roff_node        *n;
 
-       if (r->man->macroset == MACROSET_MAN)
+       if (r->man->meta.macroset == MACROSET_MAN)
                man_breakscope(r->man, ROFF_EQ);
        n = roff_node_alloc(r->man, ln, ppos, ROFFT_EQN, TOKEN_NONE);
        if (ln > r->man->last->line)
@@ -3294,6 +3337,7 @@ roff_TS(ROFF_ARGS)
                mandoc_msg(MANDOCERR_BLK_BROKEN, ln, ppos, "TS breaks TS");
                tbl_end(r->tbl, 0);
        }
+       r->man->flags |= ROFF_NONOFILL;
        r->tbl = tbl_alloc(ppos, ln, r->last_tbl);
        if (r->last_tbl == NULL)
                r->first_tbl = r->tbl;
@@ -3301,6 +3345,26 @@ roff_TS(ROFF_ARGS)
        return ROFF_IGN;
 }
 
+static int
+roff_noarg(ROFF_ARGS)
+{
+       if (r->man->flags & (MAN_BLINE | MAN_ELINE))
+               man_breakscope(r->man, tok);
+       if (tok == ROFF_brp)
+               tok = ROFF_br;
+       roff_elem_alloc(r->man, ln, ppos, tok);
+       if (buf->buf[pos] != '\0')
+               mandoc_msg(MANDOCERR_ARG_SKIP, ln, pos,
+                  "%s %s", roff_name[tok], buf->buf + pos);
+       if (tok == ROFF_nf)
+               r->man->flags |= ROFF_NOFILL;
+       else if (tok == ROFF_fi)
+               r->man->flags &= ~ROFF_NOFILL;
+       r->man->last->flags |= NODE_LINE | NODE_VALID | NODE_ENDED;
+       r->man->next = ROFF_NEXT_SIBLING;
+       return ROFF_IGN;
+}
+
 static int
 roff_onearg(ROFF_ARGS)
 {
@@ -3411,20 +3475,6 @@ roff_als(ROFF_ARGS)
        return ROFF_IGN;
 }
 
-static int
-roff_br(ROFF_ARGS)
-{
-       if (r->man->flags & (MAN_BLINE | MAN_ELINE))
-               man_breakscope(r->man, ROFF_br);
-       roff_elem_alloc(r->man, ln, ppos, ROFF_br);
-       if (buf->buf[pos] != '\0')
-               mandoc_msg(MANDOCERR_ARG_SKIP, ln, pos,
-                   "%s %s", roff_name[tok], buf->buf + pos);
-       r->man->last->flags |= NODE_LINE | NODE_VALID | NODE_ENDED;
-       r->man->next = ROFF_NEXT_SIBLING;
-       return ROFF_IGN;
-}
-
 static int
 roff_cc(ROFF_ARGS)
 {
@@ -3771,7 +3821,7 @@ roff_userdef(ROFF_ARGS)
                        ctx->argv = mandoc_reallocarray(ctx->argv,
                            ctx->argsz, sizeof(*ctx->argv));
                }
-               arg = mandoc_getarg(&src, ln, &pos);
+               arg = roff_getarg(r, &src, ln, &pos);
                sz = 1;  /* For the terminating NUL. */
                for (ap = arg; *ap != '\0'; ap++)
                        sz += *ap == '"' ? 4 : 1;
@@ -3784,6 +3834,7 @@ roff_userdef(ROFF_ARGS)
                                *dst++ = *ap;
                }
                *dst = '\0';
+               free(arg);
        }
 
        /* Replace the macro invocation by the macro definition. */
@@ -3988,7 +4039,7 @@ roff_getstrn(struct roff *r, const char *name, size_t len,
                        break;
                }
        }
-       if (r->man->macroset != MACROSET_MAN) {
+       if (r->man->meta.macroset != MACROSET_MAN) {
                for (tok = MDOC_Dd; tok < MDOC_MAX; tok++) {
                        if (strncmp(name, roff_name[tok], len) != 0 ||
                            roff_name[tok][len] != '\0')
@@ -4002,7 +4053,7 @@ roff_getstrn(struct roff *r, const char *name, size_t len,
                        }
                }
        }
-       if (r->man->macroset != MACROSET_MDOC) {
+       if (r->man->meta.macroset != MACROSET_MDOC) {
                for (tok = MAN_TH; tok < MAN_MAX; tok++) {
                        if (strncmp(name, roff_name[tok], len) != 0 ||
                            roff_name[tok][len] != '\0')
@@ -4133,7 +4184,7 @@ roff_strdup(const struct roff *r, const char *p)
                /*
                 * We bail out on bad escapes.
                 * No need to warn: we already did so when
-                * roff_res() was called.
+                * roff_expand() was called.
                 */
                sz = (int)(p - pp);
                res = mandoc_realloc(res, ssz + sz + 1);