mandoc/mandoc.c - diff

Return to mandoc.c CVS log

Up to [cvsweb.bsd.lv] / mandoc

Diff for /mandoc/mandoc.c between version 1.40 and 1.53

-version 1.40, 2011/03/17 09:16:38
+version 1.53, 2011/05/24 21:31:23
 Line 23
 Line 23
 Line 23
  #include <assert.h>
  #include <ctype.h>
+ #include <errno.h>
+ #include <limits.h>
  #include <stdlib.h>
  #include <stdio.h>
  #include <string.h>
-Line 35
+Line 37
 Line 35
 Line 37
  static  int      a2time(time_t *, const char *, const char *);
  static  char    *time2a(time_t);
+ static  int      numescape(const char *);
- int
+ /*
- mandoc_special(char *p)
+  * Pass over recursive numerical expressions.  This context of this
+  * function is important: it's only called within character-terminating
+  * escapes (e.g., \s[xxxyyy]), so all we need to do is handle initial
+  * recursion: we don't care about what's in these blocks.
+  * This returns the number of characters skipped or -1 if an error
+  * occurs (the caller should bail).
+  */
+ static int
+ numescape(const char *start)
  {
-         int              len, i;
+         int              i;
-         char             term;
+         size_t           sz;
-         char            *sv;
+         const char      *cp;
-         len = 0;
-         term = '\0';
-         sv = p;
-         assert('\\' == *p);
+         i = 0;
-         p++;
-         switch (*p++) {
+         /* The expression consists of a subexpression. */
- #if 0
-         case ('Z'):
+         if ('\\' == start[i]) {
+                 cp = &start[++i];
+                 /*
+                  * Read past the end of the subexpression.
+                  * Bail immediately on errors.
+                  */
+                 if (ESCAPE_ERROR == mandoc_escape(&cp, NULL, NULL))
+                         return(-1);
+                 return(i + cp - &start[i]);
+         }
+         if ('(' != start[i++])
+                 return(0);
+         /*
+          * A parenthesised subexpression.  Read until the closing
+          * parenthesis, making sure to handle any nested subexpressions
+          * that might ruin our parse.
+          */
+         while (')' != start[i]) {
+                 sz = strcspn(&start[i], ")\\");
+                 i += (int)sz;
+                 if ('\0' == start[i])
+                         return(-1);
+                 else if ('\\' != start[i])
+                         continue;
+                 cp = &start[++i];
+                 if (ESCAPE_ERROR == mandoc_escape(&cp, NULL, NULL))
+                         return(-1);
+                 i += cp - &start[i];
+         }
+         /* Read past the terminating ')'. */
+         return(++i);
+ }
+ enum mandoc_esc
+ mandoc_escape(const char **end, const char **start, int *sz)
+ {
+         char             c, term, numeric;
+         int              i, lim, ssz, rlim;
+         const char      *cp, *rstart;
+         enum mandoc_esc  gly;
+         cp = *end;
+         rstart = cp;
+         if (start)
+                 *start = rstart;
+         i = lim = 0;
+         gly = ESCAPE_ERROR;
+         term = numeric = '\0';
+         switch ((c = cp[i++])) {
+         /*
+          * First the glyphs.  There are several different forms of
+          * these, but each eventually returns a substring of the glyph
+          * name.
+          */
+         case ('('):
+                 gly = ESCAPE_SPECIAL;
+                 lim = 2;
+                 break;
+         case ('['):
+                 gly = ESCAPE_SPECIAL;
+                 /*
+                  * Unicode escapes are defined in groff as \[uXXXX] to
+                  * \[u10FFFF], where the contained value must be a valid
+                  * Unicode codepoint.  Here, however, only check whether
+                  * it's not a zero-width escape.
+                  */
+                 if ('u' == cp[i] && ']' != cp[i + 1])
+                         gly = ESCAPE_UNICODE;
+                 term = ']';
+                 break;
+         case ('C'):
+                 if ('\'' != cp[i])
+                         return(ESCAPE_ERROR);
+                 gly = ESCAPE_SPECIAL;
+                 term = '\'';
+                 break;
+         /*
+          * Handle all triggers matching \X(xy, \Xx, and \X[xxxx], where
+          * 'X' is the trigger.  These have opaque sub-strings.
+          */
+         case ('F'):
                  /* FALLTHROUGH */
-         case ('X'):
+         case ('g'):
                  /* FALLTHROUGH */
-         case ('x'):
+         case ('k'):
                  /* FALLTHROUGH */
-         case ('S'):
+         case ('M'):
                  /* FALLTHROUGH */
-         case ('R'):
+         case ('m'):
                  /* FALLTHROUGH */
-         case ('N'):
+         case ('n'):
                  /* FALLTHROUGH */
-         case ('l'):
+         case ('V'):
                  /* FALLTHROUGH */
-         case ('L'):
+         case ('Y'):
+                 if (ESCAPE_ERROR == gly)
+                         gly = ESCAPE_IGNORE;
                  /* FALLTHROUGH */
-         case ('H'):
+         case ('f'):
+                 if (ESCAPE_ERROR == gly)
+                         gly = ESCAPE_FONT;
+                 rstart= &cp[i];
+                 if (start)
+                         *start = rstart;
+                 switch (cp[i++]) {
+                 case ('('):
+                         lim = 2;
+                         break;
+                 case ('['):
+                         term = ']';
+                         break;
+                 default:
+                         lim = 1;
+                         i--;
+                         break;
+                 }
+                 break;
+         /*
+          * These escapes are of the form \X'Y', where 'X' is the trigger
+          * and 'Y' is any string.  These have opaque sub-strings.
+          */
+         case ('A'):
                  /* FALLTHROUGH */
-         case ('h'):
+         case ('b'):
                  /* FALLTHROUGH */
          case ('D'):
                  /* FALLTHROUGH */
-         case ('C'):
+         case ('o'):
                  /* FALLTHROUGH */
-         case ('b'):
+         case ('R'):
                  /* FALLTHROUGH */
-         case ('B'):
+         case ('X'):
                  /* FALLTHROUGH */
-         case ('a'):
+         case ('Z'):
-                 /* FALLTHROUGH */
+                 if ('\'' != cp[i++])
-         case ('A'):
+                         return(ESCAPE_ERROR);
-                 if (*p++ != '\'')
+                 gly = ESCAPE_IGNORE;
-                         return(0);
                  term = '\'';
                  break;
- #endif
+         /*
+          * These escapes are of the form \X'N', where 'X' is the trigger
+          * and 'N' resolves to a numerical expression.
+          */
+         case ('B'):
+                 /* FALLTHROUGH */
          case ('h'):
                  /* FALLTHROUGH */
+         case ('H'):
+                 /* FALLTHROUGH */
+         case ('L'):
+                 /* FALLTHROUGH */
+         case ('l'):
+                 /* FALLTHROUGH */
+         case ('N'):
+                 if (ESCAPE_ERROR == gly)
+                         gly = ESCAPE_NUMBERED;
+                 /* FALLTHROUGH */
+         case ('S'):
+                 /* FALLTHROUGH */
          case ('v'):
                  /* FALLTHROUGH */
+         case ('w'):
+                 /* FALLTHROUGH */
+         case ('x'):
+                 if (ESCAPE_ERROR == gly)
+                         gly = ESCAPE_IGNORE;
+                 if ('\'' != cp[i++])
+                         return(ESCAPE_ERROR);
+                 term = numeric = '\'';
+                 break;
+         /*
+          * Sizes get a special category of their own.
+          */
          case ('s'):
-                 if (ASCII_HYPH == *p)
+                 gly = ESCAPE_IGNORE;
-                         *p = '-';
-                 i = 0;
+                 rstart = &cp[i];
-                 if ('+' == *p || '-' == *p) {
+                 if (start)
-                         p++;
+                         *start = rstart;
-                         i = 1;
-                 }
-                 switch (*p++) {
+                 /* See +/- counts as a sign. */
+                 c = cp[i];
+                 if ('+' == c || '-' == c || ASCII_HYPH == c)
+                         ++i;
+                 switch (cp[i++]) {
                  case ('('):
-                         len = 2;
+                         lim = 2;
                          break;
                  case ('['):
-                         term = ']';
+                         term = numeric = ']';
                          break;
                  case ('\''):
-                         term = '\'';
+                         term = numeric = '\'';
                          break;
-                 case ('0'):
-                         i = 1;
-                         /* FALLTHROUGH */
                  default:
-                         len = 1;
+                         lim = 1;
-                         p--;
+                         i--;
                          break;
                  }
-                 if (ASCII_HYPH == *p)
+                 /* See +/- counts as a sign. */
-                         *p = '-';
+                 c = cp[i];
-                 if ('+' == *p || '-' == *p) {
+                 if ('+' == c || '-' == c || ASCII_HYPH == c)
-                         if (i)
+                         ++i;
-                                 return(0);
-                         p++;
-                 }
-                 /* Handle embedded numerical subexp or escape. */
-                 if ('(' == *p) {
+                 break;
-                         while (*p && ')' != *p)
-                                 if ('\\' == *p++) {
-                                         i = mandoc_special(--p);
-                                         if (0 == i)
-                                                 return(0);
-                                         p += i;
-                                 }
-                         if (')' == *p++)
+         /*
-                                 break;
+          * Anything else is assumed to be a glyph.
+          */
+         default:
+                 gly = ESCAPE_SPECIAL;
+                 lim = 1;
+                 i--;
+                 break;
+         }
-                         return(0);
+         assert(ESCAPE_ERROR != gly);
-                 } else if ('\\' == *p) {
-                         if (0 == (i = mandoc_special(p)))
-                                 return(0);
-                         p += i;
-                 }
-                 break;
+         rstart = &cp[i];
- #if 0
+         if (start)
-         case ('Y'):
+                 *start = rstart;
-                 /* FALLTHROUGH */
-         case ('V'):
+         /*
-                 /* FALLTHROUGH */
+          * If a terminating block has been specified, we need to
-         case ('$'):
+          * handle the case of recursion, which could have their
-                 /* FALLTHROUGH */
+          * own terminating blocks that mess up our parse.  This, by the
-         case ('n'):
+          * way, means that the "start" and "size" values will be
-                 /* FALLTHROUGH */
+          * effectively meaningless.
- #endif
+          */
-         case ('k'):
-                 /* FALLTHROUGH */
+         ssz = 0;
-         case ('M'):
+         if (numeric && -1 == (ssz = numescape(&cp[i])))
-                 /* FALLTHROUGH */
+                 return(ESCAPE_ERROR);
-         case ('m'):
-                 /* FALLTHROUGH */
+         i += ssz;
-         case ('f'):
+         rlim = -1;
-                 /* FALLTHROUGH */
-         case ('F'):
+         /*
-                 /* FALLTHROUGH */
+          * We have a character terminator.  Try to read up to that
-         case ('*'):
+          * character.  If we can't (i.e., we hit the nil), then return
-                 switch (*p++) {
+          * an error; if we can, calculate our length, read past the
-                 case ('('):
+          * terminating character, and exit.
-                         len = 2;
+          */
+         if ('\0' != term) {
+                 *end = strchr(&cp[i], term);
+                 if ('\0' == *end)
+                         return(ESCAPE_ERROR);
+                 rlim = *end - &cp[i];
+                 if (sz)
+                         *sz = rlim;
+                 (*end)++;
+                 goto out;
+         }
+         assert(lim > 0);
+         /*
+          * We have a numeric limit.  If the string is shorter than that,
+          * stop and return an error.  Else adjust our endpoint, length,
+          * and return the current glyph.
+          */
+         if ((size_t)lim > strlen(&cp[i]))
+                 return(ESCAPE_ERROR);
+         rlim = lim;
+         if (sz)
+                 *sz = rlim;
+         *end = &cp[i] + lim;
+ out:
+         assert(rlim >= 0 && rstart);
+         /* Run post-processors. */
+         switch (gly) {
+         case (ESCAPE_FONT):
+                 if (1 != rlim)
                          break;
-                 case ('['):
+                 switch (*rstart) {
-                         term = ']';
+                 case ('3'):
+                         /* FALLTHROUGH */
+                 case ('B'):
+                         gly = ESCAPE_FONTBOLD;
                          break;
-                 default:
+                 case ('2'):
-                         len = 1;
+                         /* FALLTHROUGH */
-                         p--;
+                 case ('I'):
+                         gly = ESCAPE_FONTITALIC;
                          break;
+                 case ('P'):
+                         gly = ESCAPE_FONTPREV;
+                         break;
+                 case ('1'):
+                         /* FALLTHROUGH */
+                 case ('R'):
+                         gly = ESCAPE_FONTROMAN;
+                         break;
                  }
                  break;
-         case ('('):
+         case (ESCAPE_SPECIAL):
-                 len = 2;
+                 if (1 != rlim)
-                 break;
-         case ('['):
-                 term = ']';
-                 break;
-         case ('z'):
-                 len = 1;
-                 if ('\\' == *p) {
-                         if (0 == (i = mandoc_special(p)))
-                                 return(0);
-                         p += i;
-                         return(*p ? (int)(p - sv) : 0);
-                 }
-                 break;
-         case ('o'):
-                 /* FALLTHROUGH */
-         case ('w'):
-                 if ('\'' == *p++) {
-                         term = '\'';
                          break;
-                 }
+                 if ('c' == *rstart)
-                 /* FALLTHROUGH */
+                         gly = ESCAPE_NOSPACE;
+                 break;
          default:
-                 len = 1;
-                 p--;
                  break;
          }
-         if (term) {
+         return(gly);
-                 for ( ; *p && term != *p; p++)
-                         if (ASCII_HYPH == *p)
-                                 *p = '-';
-                 return(*p ? (int)(p - sv) : 0);
-         }
-         for (i = 0; *p && i < len; i++, p++)
-                 if (ASCII_HYPH == *p)
-                         *p = '-';
-         return(i == len ? (int)(p - sv) : 0);
  }
  void *
  mandoc_calloc(size_t num, size_t size)
  {
-Line 296  mandoc_strdup(const char *ptr)
+Line 457  mandoc_strdup(const char *ptr)
 Line 296  mandoc_strdup(const char *ptr)
 Line 457  mandoc_strdup(const char *ptr)
   * or to the null byte terminating the argument line.
   */
  char *
- mandoc_getarg(char **cpp, mandocmsg msg, void *data, int ln, int *pos)
+ mandoc_getarg(struct mparse *parse, char **cpp, int ln, int *pos)
  {
          char     *start, *cp;
          int       quoted, pairs, white;
          /* Quoting can only start with a new word. */
          start = *cpp;
+         quoted = 0;
          if ('"' == *start) {
                  quoted = 1;
                  start++;
-         } else
+         }
-                 quoted = 0;
          pairs = 0;
          white = 0;
-Line 343  mandoc_getarg(char **cpp, mandocmsg msg, void *data, i
+Line 504  mandoc_getarg(char **cpp, mandocmsg msg, void *data, i
 Line 343  mandoc_getarg(char **cpp, mandocmsg msg, void *data, i
 Line 504  mandoc_getarg(char **cpp, mandocmsg msg, void *data, i
          }
          /* Quoted argument without a closing quote. */
-         if (1 == quoted && msg)
+         if (1 == quoted)
-                 (*msg)(MANDOCERR_BADQUOTE, data, ln, *pos, NULL);
+                 mandoc_msg(MANDOCERR_BADQUOTE, parse, ln, *pos, NULL);
          /* Null-terminate this argument and move to the next one. */
          if (pairs)
-Line 357  mandoc_getarg(char **cpp, mandocmsg msg, void *data, i
+Line 518  mandoc_getarg(char **cpp, mandocmsg msg, void *data, i
 Line 357  mandoc_getarg(char **cpp, mandocmsg msg, void *data, i
 Line 518  mandoc_getarg(char **cpp, mandocmsg msg, void *data, i
          *pos += (int)(cp - start) + (quoted ? 1 : 0);
          *cpp = cp;
-         if ('\0' == *cp && msg && (white || ' ' == cp[-1]))
+         if ('\0' == *cp && (white || ' ' == cp[-1]))
-                 (*msg)(MANDOCERR_EOLNSPACE, data, ln, *pos, NULL);
+                 mandoc_msg(MANDOCERR_EOLNSPACE, parse, ln, *pos, NULL);
          return(start);
  }
-Line 416  fail:
+Line 577  fail:
 Line 416  fail:
 Line 577  fail:
  }
  char *
- mandoc_normdate(char *in, mandocmsg msg, void *data, int ln, int pos)
+ mandoc_normdate(struct mparse *parse, char *in, int ln, int pos)
  {
          char            *out;
          time_t           t;
          if (NULL == in || '\0' == *in ||
 == strcmp(in, "$" "Mdocdate$")) {
-                 (*msg)(MANDOCERR_NODATE, data, ln, pos, NULL);
+                 mandoc_msg(MANDOCERR_NODATE, parse, ln, pos, NULL);
                  time(&t);
          }
          else if (!a2time(&t, "$" "Mdocdate: %b %d %Y $", in) &&
              !a2time(&t, "%b %d, %Y", in) &&
              !a2time(&t, "%Y-%m-%d", in)) {
-                 (*msg)(MANDOCERR_BADDATE, data, ln, pos, NULL);
+                 mandoc_msg(MANDOCERR_BADDATE, parse, ln, pos, NULL);
                  t = 0;
          }
          out = t ? time2a(t) : NULL;
-Line 448  mandoc_eos(const char *p, size_t sz, int enclosed)
+Line 609  mandoc_eos(const char *p, size_t sz, int enclosed)
 Line 448  mandoc_eos(const char *p, size_t sz, int enclosed)
 Line 609  mandoc_eos(const char *p, size_t sz, int enclosed)
          /*
           * End-of-sentence recognition must include situations where
           * some symbols, such as `)', allow prior EOS punctuation to
-          * propogate outward.
+          * propagate outward.
           */
          found = 0;
-Line 507  mandoc_hyph(const char *start, const char *c)
+Line 668  mandoc_hyph(const char *start, const char *c)
 Line 507  mandoc_hyph(const char *start, const char *c)
 Line 668  mandoc_hyph(const char *start, const char *c)
  }
  /*
-  * Check if a string is a punctuation delimiter.  This only applies to
+  * Find out whether a line is a macro line or not.  If it is, adjust the
-  * mdoc(7) documents, but as it's used in both front-ends and back-ends,
+  * current position and return one; if it isn't, return zero and don't
-  * it needs to go here (instead of, say, in libmdoc.h).
+  * change the current position.
   */
- enum mdelim
+ int
- mandoc_isdelim(const char *p)
+ mandoc_getcontrol(const char *cp, int *ppos)
  {
+         int             pos;
-         if ('\0' == p[0])
+         pos = *ppos;
-                 return(DELIM_NONE);
-         if ('\0' == p[1])
+         if ('\\' == cp[pos] && '.' == cp[pos + 1])
-                 switch (p[0]) {
+                 pos += 2;
-                 case('('):
+         else if ('.' == cp[pos] || '\'' == cp[pos])
-                         /* FALLTHROUGH */
+                 pos++;
-                 case('['):
+         else
-                         return(DELIM_OPEN);
+                 return(0);
-                 case('|'):
-                         return(DELIM_MIDDLE);
-                 case('.'):
-                         /* FALLTHROUGH */
-                 case(','):
-                         /* FALLTHROUGH */
-                 case(';'):
-                         /* FALLTHROUGH */
-                 case(':'):
-                         /* FALLTHROUGH */
-                 case('?'):
-                         /* FALLTHROUGH */
-                 case('!'):
-                         /* FALLTHROUGH */
-                 case(')'):
-                         /* FALLTHROUGH */
-                 case(']'):
-                         return(DELIM_CLOSE);
-                 default:
-                         return(DELIM_NONE);
-                 }
-         if ('\\' != p[0])
+         while (' ' == cp[pos] || '\t' == cp[pos])
-                 return(DELIM_NONE);
+                 pos++;
-         if (0 == strcmp(p, "\\."))
+         *ppos = pos;
-                 return(DELIM_CLOSE);
+         return(1);
-         if (0 == strcmp(p, "\\*(Ba"))
+ }
-                 return(DELIM_MIDDLE);
-         return(DELIM_NONE);
+ /*
+  * Convert a string to a long that may not be <0.
+  * If the string is invalid, or is less than 0, return -1.
+  */
+ int
+ mandoc_strntou(const char *p, size_t sz, int base)
+ {
+         char             buf[32];
+         char            *ep;
+         long             v;
+         if (sz > 31)
+                 return(-1);
+         memcpy(buf, p, sz);
+         buf[(int)sz] = '\0';
+         errno = 0;
+         v = strtol(buf, &ep, base);
+         if (buf[0] == '\0' || *ep != '\0')
+                 return(-1);
+         if ((errno == ERANGE &&
+                         (v == LONG_MAX || v == LONG_MIN)) ||
+                         (v > INT_MAX || v < 0))
+                 return(-1);
+         return((int)v);
  }

CVSweb