mandoc/mandoc.c - diff

Return to mandoc.c CVS log

Up to [cvsweb.bsd.lv] / mandoc

Diff for /mandoc/mandoc.c between version 1.33 and 1.121

-version 1.33, 2010/08/24 13:56:51
+version 1.121, 2022/05/19 15:37:47
 Line 1
 Line 1
 Line 1
- /*      $Id$ */
+ /* $Id$ */
  /*
-  * Copyright (c) 2008, 2009, 2010 Kristaps Dzonsons <kristaps@bsd.lv>
+  * Copyright (c) 2010, 2011, 2015, 2017, 2018, 2019, 2020, 2021
+  *               Ingo Schwarze <schwarze@openbsd.org>
+  * Copyright (c) 2009, 2010 Kristaps Dzonsons <kristaps@bsd.lv>
   *
   * Permission to use, copy, modify, and distribute this software for any
   * purpose with or without fee is hereby granted, provided that the above
   * copyright notice and this permission notice appear in all copies.
   *
-  * THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES
+  * THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHORS DISCLAIM ALL WARRANTIES
   * WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF
-  * MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR
+  * MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL THE AUTHORS BE LIABLE FOR
   * ANY SPECIAL, DIRECT, INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES
   * WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN
   * ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF
   * OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.
+  *
+  * Utility functions to handle end of sentence punctuation
+  * and dates and times, for use by mdoc(7) and man(7) parsers.
+  * Utility functions to handle fonts and numbers,
+  * for use by mandoc(1) parsers and formatters.
   */
- #ifdef HAVE_CONFIG_H
  #include "config.h"
- #endif
  #include <sys/types.h>
  #include <assert.h>
  #include <ctype.h>
+ #include <errno.h>
+ #include <limits.h>
  #include <stdlib.h>
  #include <stdio.h>
  #include <string.h>
  #include <time.h>
+ #include "mandoc_aux.h"
  #include "mandoc.h"
+ #include "roff.h"
  #include "libmandoc.h"
+ #include "roff_int.h"
  static  int      a2time(time_t *, const char *, const char *);
+ static  char    *time2a(time_t);
- int
+ enum mandoc_esc
- mandoc_special(char *p)
+ mandoc_font(const char *cp, int sz)
  {
-         int              len, i;
+         switch (sz) {
-         char             term;
+         case 0:
-         char            *sv;
+                 return ESCAPE_FONTPREV;
+         case 1:
-         len = 0;
+                 switch (cp[0]) {
-         term = '\0';
+                 case 'B':
-         sv = p;
+                 case '3':
+                         return ESCAPE_FONTBOLD;
-         assert('\\' == *p);
+                 case 'I':
-         p++;
+                 case '2':
+                         return ESCAPE_FONTITALIC;
-         switch (*p++) {
+                 case 'P':
- #if 0
+                         return ESCAPE_FONTPREV;
-         case ('Z'):
+                 case 'R':
-                 /* FALLTHROUGH */
+                 case '1':
-         case ('X'):
+                         return ESCAPE_FONTROMAN;
-                 /* FALLTHROUGH */
+                 case '4':
-         case ('x'):
+                         return ESCAPE_FONTBI;
-                 /* FALLTHROUGH */
-         case ('S'):
-                 /* FALLTHROUGH */
-         case ('R'):
-                 /* FALLTHROUGH */
-         case ('o'):
-                 /* FALLTHROUGH */
-         case ('N'):
-                 /* FALLTHROUGH */
-         case ('l'):
-                 /* FALLTHROUGH */
-         case ('L'):
-                 /* FALLTHROUGH */
-         case ('H'):
-                 /* FALLTHROUGH */
-         case ('h'):
-                 /* FALLTHROUGH */
-         case ('D'):
-                 /* FALLTHROUGH */
-         case ('C'):
-                 /* FALLTHROUGH */
-         case ('b'):
-                 /* FALLTHROUGH */
-         case ('B'):
-                 /* FALLTHROUGH */
-         case ('a'):
-                 /* FALLTHROUGH */
-         case ('A'):
-                 if (*p++ != '\'')
-                         return(0);
-                 term = '\'';
-                 break;
- #endif
-         case ('h'):
-                 /* FALLTHROUGH */
-         case ('v'):
-                 /* FALLTHROUGH */
-         case ('s'):
-                 if (ASCII_HYPH == *p)
-                         *p = '-';
-                 i = 0;
-                 if ('+' == *p || '-' == *p) {
-                         p++;
-                         i = 1;
-                 }
-                 switch (*p++) {
-                 case ('('):
-                         len = 2;
-                         break;
-                 case ('['):
-                         term = ']';
-                         break;
-                 case ('\''):
-                         term = '\'';
-                         break;
-                 case ('0'):
-                         i = 1;
-                         /* FALLTHROUGH */
                  default:
-                         len = 1;
+                         return ESCAPE_ERROR;
-                         p--;
-                         break;
                  }
+         case 2:
-                 if (ASCII_HYPH == *p)
+                 switch (cp[0]) {
-                         *p = '-';
+                 case 'B':
-                 if ('+' == *p || '-' == *p) {
+                         switch (cp[1]) {
-                         if (i)
+                         case 'I':
-                                 return(0);
+                                 return ESCAPE_FONTBI;
-                         p++;
+                         default:
-                 }
+                                 return ESCAPE_ERROR;
+                         }
-                 /* Handle embedded numerical subexp or escape. */
+                 case 'C':
+                         switch (cp[1]) {
-                 if ('(' == *p) {
+                         case 'B':
-                         while (*p && ')' != *p)
+                                 return ESCAPE_FONTCB;
-                                 if ('\\' == *p++) {
+                         case 'I':
-                                         i = mandoc_special(--p);
+                                 return ESCAPE_FONTCI;
-                                         if (0 == i)
+                         case 'R':
-                                                 return(0);
+                         case 'W':
-                                         p += i;
+                                 return ESCAPE_FONTCR;
-                                 }
+                         default:
+                                 return ESCAPE_ERROR;
-                         if (')' == *p++)
+                         }
-                                 break;
-                         return(0);
-                 } else if ('\\' == *p) {
-                         if (0 == (i = mandoc_special(p)))
-                                 return(0);
-                         p += i;
-                 }
-                 break;
- #if 0
-         case ('Y'):
-                 /* FALLTHROUGH */
-         case ('V'):
-                 /* FALLTHROUGH */
-         case ('$'):
-                 /* FALLTHROUGH */
-         case ('n'):
-                 /* FALLTHROUGH */
- #endif
-         case ('k'):
-                 /* FALLTHROUGH */
-         case ('M'):
-                 /* FALLTHROUGH */
-         case ('m'):
-                 /* FALLTHROUGH */
-         case ('f'):
-                 /* FALLTHROUGH */
-         case ('F'):
-                 /* FALLTHROUGH */
-         case ('*'):
-                 switch (*p++) {
-                 case ('('):
-                         len = 2;
-                         break;
-                 case ('['):
-                         term = ']';
-                         break;
                  default:
-                         len = 1;
+                         return ESCAPE_ERROR;
-                         p--;
-                         break;
                  }
-                 break;
-         case ('('):
-                 len = 2;
-                 break;
-         case ('['):
-                 term = ']';
-                 break;
-         case ('z'):
-                 len = 1;
-                 if ('\\' == *p) {
-                         if (0 == (i = mandoc_special(p)))
-                                 return(0);
-                         p += i;
-                         return(*p ? (int)(p - sv) : 0);
-                 }
-                 break;
-         case ('w'):
-                 if ('\'' == *p++) {
-                         term = '\'';
-                         break;
-                 }
-                 /* FALLTHROUGH */
          default:
-                 len = 1;
+                 return ESCAPE_ERROR;
-                 p--;
-                 break;
          }
-         if (term) {
-                 for ( ; *p && term != *p; p++)
-                         if (ASCII_HYPH == *p)
-                                 *p = '-';
-                 return(*p ? (int)(p - sv) : 0);
-         }
-         for (i = 0; *p && i < len; i++, p++)
-                 if (ASCII_HYPH == *p)
-                         *p = '-';
-         return(i == len ? (int)(p - sv) : 0);
  }
+ static int
- void *
+ a2time(time_t *t, const char *fmt, const char *p)
- mandoc_calloc(size_t num, size_t size)
  {
-         void            *ptr;
+         struct tm        tm;
+         char            *pp;
-         ptr = calloc(num, size);
+         memset(&tm, 0, sizeof(struct tm));
-         if (NULL == ptr) {
-                 perror(NULL);
+         pp = NULL;
-                 exit(MANDOCLEVEL_SYSERR);
+ #if HAVE_STRPTIME
+         pp = strptime(p, fmt, &tm);
+ #endif
+         if (NULL != pp && '\0' == *pp) {
+                 *t = mktime(&tm);
+                 return 1;
          }
-         return(ptr);
+         return 0;
  }
+ static char *
- void *
+ time2a(time_t t)
- mandoc_malloc(size_t size)
  {
-         void            *ptr;
+         struct tm       *tm;
+         char            *buf, *p;
+         size_t           ssz;
+         int              isz;
-         ptr = malloc(size);
+         buf = NULL;
-         if (NULL == ptr) {
+         tm = localtime(&t);
-                 perror(NULL);
+         if (tm == NULL)
-                 exit(MANDOCLEVEL_SYSERR);
+                 goto fail;
-         }
-         return(ptr);
+         /*
- }
+          * Reserve space:
+          * up to 9 characters for the month (September) + blank
+          * up to 2 characters for the day + comma + blank
+          * 4 characters for the year and a terminating '\0'
+          */
+         p = buf = mandoc_malloc(10 + 4 + 4 + 1);
- void *
+         if ((ssz = strftime(p, 10 + 1, "%B ", tm)) == 0)
- mandoc_realloc(void *ptr, size_t size)
+                 goto fail;
- {
+         p += (int)ssz;
-         ptr = realloc(ptr, size);
+         /*
-         if (NULL == ptr) {
+          * The output format is just "%d" here, not "%2d" or "%02d".
-                 perror(NULL);
+          * That's also the reason why we can't just format the
-                 exit(MANDOCLEVEL_SYSERR);
+          * date as a whole with "%B %e, %Y" or "%B %d, %Y".
-         }
+          * Besides, the present approach is less prone to buffer
+          * overflows, in case anybody should ever introduce the bug
+          * of looking at LC_TIME.
+          */
-         return(ptr);
+         isz = snprintf(p, 4 + 1, "%d, ", tm->tm_mday);
- }
+         if (isz < 0 || isz > 4)
+                 goto fail;
+         p += isz;
+         if (strftime(p, 4 + 1, "%Y", tm) == 0)
+                 goto fail;
+         return buf;
- char *
+ fail:
- mandoc_strdup(const char *ptr)
+         free(buf);
- {
+         return mandoc_strdup("");
-         char            *p;
-         p = strdup(ptr);
-         if (NULL == p) {
-                 perror(NULL);
-                 exit(MANDOCLEVEL_SYSERR);
-         }
-         return(p);
  }
+ char *
- static int
+ mandoc_normdate(struct roff_node *nch, struct roff_node *nbl)
- a2time(time_t *t, const char *fmt, const char *p)
  {
-         struct tm        tm;
+         char            *cp;
-         char            *pp;
+         time_t           t;
-         memset(&tm, 0, sizeof(struct tm));
+         /* No date specified. */
-         pp = strptime(p, fmt, &tm);
+         if (nch == NULL) {
-         if (NULL != pp && '\0' == *pp) {
+                 if (nbl == NULL)
-                 *t = mktime(&tm);
+                         mandoc_msg(MANDOCERR_DATE_MISSING, 0, 0, NULL);
-                 return(1);
+                 else
+                         mandoc_msg(MANDOCERR_DATE_MISSING, nbl->line,
+                             nbl->pos, "%s", roff_name[nbl->tok]);
+                 return mandoc_strdup("");
          }
+         if (*nch->string == '\0') {
+                 mandoc_msg(MANDOCERR_DATE_MISSING, nch->line,
+                     nch->pos, "%s", roff_name[nbl->tok]);
+                 return mandoc_strdup("");
+         }
+         if (strcmp(nch->string, "$" "Mdocdate$") == 0)
+                 return time2a(time(NULL));
-         return(0);
+         /* Valid mdoc(7) date format. */
- }
+         if (a2time(&t, "$" "Mdocdate: %b %d %Y $", nch->string) ||
- /*
+             a2time(&t, "%b %d, %Y", nch->string)) {
-  * Convert from a manual date string (see mdoc(7) and man(7)) into a
+                 cp = time2a(t);
-  * date according to the stipulated date type.
+                 if (t > time(NULL) + 86400)
-  */
+                         mandoc_msg(MANDOCERR_DATE_FUTURE, nch->line,
- time_t
+                             nch->pos, "%s %s", roff_name[nbl->tok], cp);
- mandoc_a2time(int flags, const char *p)
+                 else if (*nch->string != '$' &&
- {
+                     strcmp(nch->string, cp) != 0)
-         time_t           t;
+                         mandoc_msg(MANDOCERR_DATE_NORM, nch->line,
+                             nch->pos, "%s %s", roff_name[nbl->tok], cp);
-         if (MTIME_MDOCDATE & flags) {
+                 return cp;
-                 if (0 == strcmp(p, "$" "Mdocdate$"))
-                         return(time(NULL));
-                 if (a2time(&t, "$" "Mdocdate: %b %d %Y $", p))
-                         return(t);
          }
-         if (MTIME_CANONICAL & flags || MTIME_REDUCED & flags)
+         /* In man(7), do not warn about the legacy format. */
-                 if (a2time(&t, "%b %d, %Y", p))
-                         return(t);
-         if (MTIME_ISO_8601 & flags)
+         if (a2time(&t, "%Y-%m-%d", nch->string) == 0)
-                 if (a2time(&t, "%Y-%m-%d", p))
+                 mandoc_msg(MANDOCERR_DATE_BAD, nch->line, nch->pos,
-                         return(t);
+                     "%s %s", roff_name[nbl->tok], nch->string);
+         else if (t > time(NULL) + 86400)
+                 mandoc_msg(MANDOCERR_DATE_FUTURE, nch->line, nch->pos,
+                     "%s %s", roff_name[nbl->tok], nch->string);
+         else if (nbl->tok == MDOC_Dd)
+                 mandoc_msg(MANDOCERR_DATE_LEGACY, nch->line, nch->pos,
+                     "Dd %s", nch->string);
-         if (MTIME_REDUCED & flags) {
+         /* Use any non-mdoc(7) date verbatim. */
-                 if (a2time(&t, "%d, %Y", p))
-                         return(t);
-                 if (a2time(&t, "%Y", p))
-                         return(t);
-         }
-         return(0);
+         return mandoc_strdup(nch->string);
  }
  int
- mandoc_eos(const char *p, size_t sz, int enclosed)
+ mandoc_eos(const char *p, size_t sz)
  {
-         const char *q;
+         const char      *q;
-         int found;
+         int              enclosed, found;
          if (0 == sz)
-                 return(0);
+                 return 0;
          /*
           * End-of-sentence recognition must include situations where
           * some symbols, such as `)', allow prior EOS punctuation to
-          * propogate outward.
+          * propagate outward.
           */
-         found = 0;
+         enclosed = found = 0;
          for (q = p + (int)sz - 1; q >= p; q--) {
                  switch (*q) {
-                 case ('\"'):
+                 case '\"':
-                         /* FALLTHROUGH */
+                 case '\'':
-                 case ('\''):
+                 case ']':
-                         /* FALLTHROUGH */
+                 case ')':
-                 case (']'):
-                         /* FALLTHROUGH */
-                 case (')'):
                          if (0 == found)
                                  enclosed = 1;
                          break;
-                 case ('.'):
+                 case '.':
-                         /* FALLTHROUGH */
+                 case '!':
-                 case ('!'):
+                 case '?':
-                         /* FALLTHROUGH */
-                 case ('?'):
                          found = 1;
                          break;
                  default:
-                         return(found && (!enclosed || isalnum((unsigned char)*q)));
+                         return found &&
+                             (!enclosed || isalnum((unsigned char)*q));
                  }
          }
-         return(found && !enclosed);
+         return found && !enclosed;
  }
+ /*
+  * Convert a string to a long that may not be <0.
+  * If the string is invalid, or is less than 0, return -1.
+  */
  int
- mandoc_hyph(const char *start, const char *c)
+ mandoc_strntoi(const char *p, size_t sz, int base)
  {
+         char             buf[32];
+         char            *ep;
+         long             v;
-         /*
+         if (sz > 31)
-          * Choose whether to break at a hyphenated character.  We only
+                 return -1;
-          * do this if it's free-standing within a word.
-          */
-         /* Skip first/last character of buffer. */
+         memcpy(buf, p, sz);
-         if (c == start || '\0' == *(c + 1))
+         buf[(int)sz] = '\0';
-                 return(0);
-         /* Skip first/last character of word. */
-         if ('\t' == *(c + 1) || '\t' == *(c - 1))
-                 return(0);
-         if (' ' == *(c + 1) || ' ' == *(c - 1))
-                 return(0);
-         /* Skip double invocations. */
-         if ('-' == *(c + 1) || '-' == *(c - 1))
-                 return(0);
-         /* Skip escapes. */
-         if ('\\' == *(c - 1))
-                 return(0);
-         return(1);
+         errno = 0;
+         v = strtol(buf, &ep, base);
+         if (buf[0] == '\0' || *ep != '\0')
+                 return -1;
+         if (v > INT_MAX)
+                 v = INT_MAX;
+         if (v < INT_MIN)
+                 v = INT_MIN;
+         return (int)v;
  }

CVSweb