[BACK]Return to pod2mdoc.c CVS log [TXT][DIR] Up to [cvsweb.bsd.lv] / pod2mdoc

Diff for /pod2mdoc/pod2mdoc.c between version 1.8 and 1.21

version 1.8, 2014/03/23 23:57:38 version 1.21, 2014/04/03 11:55:01
Line 26 
Line 26 
 #include <string.h>  #include <string.h>
 #include <unistd.h>  #include <unistd.h>
   
   /*
    * In what section can we find Perl module manuals?
    * Sometimes (Mac OS X) it's 3pm, sometimes (OpenBSD, etc.) 3p.
    * XXX IF YOU CHANGE THIS, CHANGE POD2MDOC.1 AS WELL.
    */
   #define PERL_SECTION    "3p"
   
 struct  args {  struct  args {
         const char      *title; /* override "Dt" title */          const char      *title; /* override "Dt" title */
         const char      *date; /* override "Dd" date */          const char      *date; /* override "Dd" date */
Line 39  enum list {
Line 46  enum list {
         LIST__MAX          LIST__MAX
 };  };
   
   enum    sect {
           SECT_NONE = 0,
           SECT_NAME, /* NAME section */
           SECT_SYNOPSIS, /* SYNOPSIS section */
   };
   
 struct  state {  struct  state {
         int              parsing; /* after =cut of before command */          int              parsing; /* after =cut of before command */
         int              paused; /* in =begin and before =end */          int              paused; /* in =begin and before =end */
         int              haspar; /* in paragraph: do we need Pp? */          int              haspar; /* in paragraph: do we need Pp? */
         int              isname; /* are we the NAME section? */          enum sect        sect; /* which section are we in? */
         const char      *fname; /* file being parsed */          const char      *fname; /* file being parsed */
 #define LIST_STACKSZ     128  #define LIST_STACKSZ     128
         enum list        lstack[LIST_STACKSZ]; /* open lists */          enum list        lstack[LIST_STACKSZ]; /* open lists */
Line 158  formatescape(const char *buf, size_t *start, size_t en
Line 171  formatescape(const char *buf, size_t *start, size_t en
 }  }
   
 /*  /*
    * Run some heuristics to intuit a link format.
    * I set "start" to be the end of the sequence (last right-carrot) so
    * that the caller can safely just continue processing.
    * If this is just an empty tag, I'll return 0.
    */
   static int
   trylink(const char *buf, size_t *start, size_t end, size_t dsz)
   {
           size_t           linkstart, realend, linkend,
                            i, j, textsz, stack;
           const char      *text;
   
           /*
            * Scan to the start of the terminus.
            * This function is more or less replicated in the formatcode()
            * for null or index formatting codes.
            */
           stack = 0;
           for (linkstart = realend = *start; realend < end; realend++) {
                   if ('>' != buf[realend])
                           continue;
                   else if (dsz == 1)
                           break;
                   assert(realend > 0);
                   if (' ' != buf[realend - 1])
                           continue;
                   for (i = realend, j = 0; i < end && j < dsz; j++)
                           if ('>' != buf[i++])
                                   break;
                   if (dsz == j)
                           break;
           }
   
           /* Ignore stubs. */
           if (realend == end || realend == *start)
                   return(0);
   
           /* Set linkend to the end of content. */
           linkend = dsz > 1 ? realend - 1 : realend;
   
           /* Re-scan to see if we have a title or section. */
           text = &buf[*start];
           for (textsz = *start; textsz < linkend; textsz++)
                   if ('|' == buf[textsz] || '/' == buf[textsz])
                           break;
   
           if (textsz < linkend && '|' == buf[textsz]) {
                   /* With title: set start, then end at section. */
                   linkstart = textsz + 1;
                   textsz = textsz - *start;
                   for (i = linkstart; i < linkend; i++)
                           if ('/' == buf[i])
                                   break;
                   if (i < linkend)
                           linkend = i;
           } else if (textsz < linkend && '/' == buf[textsz]) {
                   /* With section: set end at section. */
                   linkend = textsz;
                   textsz = 0;
           } else
                   /* No title, no section. */
                   textsz = 0;
   
           *start = realend;
           j = linkend - linkstart;
   
           /* Do we have only subsection material? */
           if (0 == j && '/' == buf[linkend]) {
                   linkstart = linkend + 1;
                   linkend = dsz > 1 ? realend - 1 : realend;
                   if (0 == (j = linkend - linkstart))
                           return(0);
                   printf("Sx %.*s", (int)j, &buf[linkstart]);
                   return(1);
           } else if (0 == j)
                   return(0);
   
           /* See if we qualify as being a link or not. */
           if ((j > 4 && 0 == memcmp("http:", &buf[linkstart], j)) ||
                   (j > 5 && 0 == memcmp("https:", &buf[linkstart], j)) ||
                   (j > 3 && 0 == memcmp("ftp:", &buf[linkstart], j)) ||
                   (j > 4 && 0 == memcmp("sftp:", &buf[linkstart], j)) ||
                   (j > 3 && 0 == memcmp("smb:", &buf[linkstart], j)) ||
                   (j > 3 && 0 == memcmp("afs:", &buf[linkstart], j))) {
                   /* Gross. */
                   printf("Lk %.*s", (int)((dsz > 1 ? realend - 1 :
                           realend) - linkstart), &buf[linkstart]);
                   return(1);
           }
   
           /* See if we qualify as a mailto. */
           if (j > 6 && 0 == memcmp("mailto:", &buf[linkstart], j)) {
                   printf("Mt %.*s", (int)j, &buf[linkstart]);
                   return(1);
           }
   
           /* See if we're a foo(5), foo(5x), or foo(5xx) manpage. */
           if ((j > 3 && ')' == buf[linkend - 1]) &&
                   ('(' == buf[linkend - 3])) {
                   printf("Xr %.*s %c", (int)(j - 3),
                           &buf[linkstart], buf[linkend - 2]);
                   return(1);
           } else if ((j > 4 && ')' == buf[linkend - 1]) &&
                   ('(' == buf[linkend - 4])) {
                   printf("Xr %.*s %.*s", (int)(j - 4),
                           &buf[linkstart], 2, &buf[linkend - 3]);
                   return(1);
           } else if ((j > 5 && ')' == buf[linkend - 1]) &&
                   ('(' == buf[linkend - 5])) {
                   printf("Xr %.*s %.*s", (int)(j - 5),
                           &buf[linkstart], 3, &buf[linkend - 4]);
                   return(1);
           }
   
           /* Last try: do we have a double-colon? */
           for (i = linkstart + 1; i < linkend; i++)
                   if (':' == buf[i] && ':' == buf[i - 1])
                           break;
   
           if (i < linkend)
                   printf("Xr %.*s " PERL_SECTION,
                           (int)j, &buf[linkstart]);
           else
                   printf("Xr %.*s 1", (int)j, &buf[linkstart]);
   
           return(1);
   }
   
   /*
    * Doclifting: if we're a bold "-xx" and we're in the SYNOPSIS section,
    * then it's likely that we're a flag.
    * Our flag might be followed by an argument, so make sure that we're
    * accounting for that, too.
    * If we don't have a flag at all, however, then assume we're an "Ar".
    */
   static void
   dosynopsisfl(const char *buf, size_t *start, size_t end)
   {
           size_t   i;
   again:
           assert(*start + 1 < end);
           assert('-' == buf[*start]);
   
           if ( ! isalnum((int)buf[*start + 1]) &&
                   '?' != buf[*start + 1] &&
                   '-' != buf[*start + 1]) {
                   (*start)--;
                   fputs("Ar ", stdout);
                   return;
           }
   
           (*start)++;
           for (i = *start; i < end; i++)
                   if (isalnum((int)buf[i]))
                           continue;
                   else if ('?' == buf[i])
                           continue;
                   else if ('-' == buf[i])
                           continue;
                   else if ('_' == buf[i])
                           continue;
                   else
                           break;
   
           assert(i < end);
   
           if ( ! (' ' == buf[i] || '>' == buf[i])) {
                   printf("Ar ");
                   return;
           }
   
           printf("Fl ");
           if (end - *start > 1 &&
                   isupper((int)buf[*start]) &&
                   islower((int)buf[*start + 1]) &&
                   (end - *start == 2 ||
                    ' ' == buf[*start + 2]))
                   printf("\\&");
           printf("%.*s ", (int)(i - *start), &buf[*start]);
           *start = i;
   
           if (' ' == buf[i]) {
                   while (i < end && ' ' == buf[i])
                           i++;
                   assert(i < end);
                   if ('-' == buf[i]) {
                           *start = i;
                           goto again;
                   }
                   printf("Ar ");
                   *start = i;
           }
   }
   
   /*
  * We're at the character in front of a format code, which is structured   * We're at the character in front of a format code, which is structured
  * like X<...> and can contain nested format codes.   * like X<...> and can contain nested format codes.
  * This consumes the whole format code, and any nested format codes, til   * This consumes the whole format code, and any nested format codes, til
Line 166  formatescape(const char *buf, size_t *start, size_t en
Line 374  formatescape(const char *buf, size_t *start, size_t en
  * been printed to the current line.   * been printed to the current line.
  * If "nomacro", then we don't print any macros, just contained data   * If "nomacro", then we don't print any macros, just contained data
  * (e.g., following "Sh" or "Nm").   * (e.g., following "Sh" or "Nm").
    * "pos" is only significant in SYNOPSIS, and should be 0 when invoked
    * as the first format code on a line (for decoration as an "Nm"),
    * non-zero otherwise.
  * Return whether we've printed a macro or not--in other words, whether   * Return whether we've printed a macro or not--in other words, whether
  * this should trigger a subsequent newline (this should be ignored when   * this should trigger a subsequent newline (this should be ignored when
  * reentrant).   * reentrant).
  */   */
 static int  static int
 formatcode(const char *buf, size_t *start,  formatcode(struct state *st, const char *buf, size_t *start,
         size_t end, int reentrant, int nomacro)          size_t end, int reentrant, int nomacro, int pos)
 {  {
         enum fmt         fmt;          enum fmt         fmt;
         size_t           i, j, dsz;          size_t           i, j, dsz;
Line 278  formatcode(const char *buf, size_t *start, 
Line 489  formatcode(const char *buf, size_t *start, 
                         printf("Em ");                          printf("Em ");
                         break;                          break;
                 case (FMT_BOLD):                  case (FMT_BOLD):
                           if (SECT_SYNOPSIS == st->sect) {
                                   if (1 == dsz && '-' == buf[*start])
                                           dosynopsisfl(buf, start, end);
                                   else if (0 == pos)
                                           printf("Nm ");
                                   else
                                           printf("Ar ");
                                   break;
                           }
                         printf("Sy ");                          printf("Sy ");
                         break;                          break;
                 case (FMT_CODE):                  case (FMT_CODE):
                         printf("Qo Li ");                          printf("Qo Li ");
                         break;                          break;
                 case (FMT_LINK):                  case (FMT_LINK):
                         printf("Lk ");                          /* Try to link; use "No" if it's empty. */
                           if ( ! trylink(buf, start, end, dsz))
                                   printf("No ");
                         break;                          break;
                 case (FMT_FILE):                  case (FMT_FILE):
                         printf("Pa ");                          printf("Pa ");
                         break;                          break;
                 case (FMT_NBSP):                  case (FMT_NBSP):
                         /* TODO. */  
                         printf("No ");                          printf("No ");
                         break;                          break;
                 default:                  default:
Line 326  formatcode(const char *buf, size_t *start, 
Line 547  formatcode(const char *buf, size_t *start, 
                         }                          }
                 }                  }
                 if (*start + 1 < end && '<' == buf[*start + 1]) {                  if (*start + 1 < end && '<' == buf[*start + 1]) {
                         formatcode(buf, start, end, 1, nomacro);                          formatcode(st, buf, start, end, 1, nomacro, 1);
                         continue;                          continue;
                 }                  }
   
Line 381  formatcode(const char *buf, size_t *start, 
Line 602  formatcode(const char *buf, size_t *start, 
  * Calls formatcode() til the end of a paragraph.   * Calls formatcode() til the end of a paragraph.
  */   */
 static void  static void
 formatcodeln(const char *buf, size_t *start, size_t end, int nomacro)  formatcodeln(struct state *st, const char *buf,
           size_t *start, size_t end, int nomacro)
 {  {
   
         last = ' ';          last = ' ';
         while (*start < end)  {          while (*start < end)  {
                 if (*start + 1 < end && '<' == buf[*start + 1]) {                  if (*start + 1 < end && '<' == buf[*start + 1]) {
                         formatcode(buf, start, end, 1, nomacro);                          formatcode(st, buf, start, end, 1, nomacro, 1);
                         continue;                          continue;
                 }                  }
                 /*                  /*
Line 487  command(struct state *st, const char *buf, size_t star
Line 709  command(struct state *st, const char *buf, size_t star
                  * how pod2man handles it.                   * how pod2man handles it.
                  */                   */
                 printf(".Sh ");                  printf(".Sh ");
                 st->isname = 0;                  st->sect = SECT_NONE;
                 if (end - start == 4)                  if (end - start == 4) {
                         if (0 == memcmp(&buf[start], "NAME", 4))                          if (0 == memcmp(&buf[start], "NAME", 4))
                                 st->isname = 1;                                  st->sect = SECT_NAME;
                 formatcodeln(buf, &start, end, 1);                  } else if (end - start == 8) {
                           if (0 == memcmp(&buf[start], "SYNOPSIS", 8))
                                   st->sect = SECT_SYNOPSIS;
                   }
                   formatcodeln(st, buf, &start, end, 1);
                 putchar('\n');                  putchar('\n');
                 st->haspar = 1;                  st->haspar = 1;
                 break;                  break;
         case (CMD_HEAD2):          case (CMD_HEAD2):
                 printf(".Ss ");                  printf(".Ss ");
                 formatcodeln(buf, &start, end, 1);                  formatcodeln(st, buf, &start, end, 1);
                 putchar('\n');                  putchar('\n');
                 st->haspar = 1;                  st->haspar = 1;
                 break;                  break;
         case (CMD_HEAD3):          case (CMD_HEAD3):
                 puts(".Pp");                  puts(".Pp");
                 printf(".Em ");                  printf(".Em ");
                 formatcodeln(buf, &start, end, 0);                  formatcodeln(st, buf, &start, end, 0);
                 putchar('\n');                  putchar('\n');
                 puts(".Pp");                  puts(".Pp");
                 st->haspar = 1;                  st->haspar = 1;
Line 512  command(struct state *st, const char *buf, size_t star
Line 738  command(struct state *st, const char *buf, size_t star
         case (CMD_HEAD4):          case (CMD_HEAD4):
                 puts(".Pp");                  puts(".Pp");
                 printf(".No ");                  printf(".No ");
                 formatcodeln(buf, &start, end, 0);                  formatcodeln(st, buf, &start, end, 0);
                 putchar('\n');                  putchar('\n');
                 puts(".Pp");                  puts(".Pp");
                 st->haspar = 1;                  st->haspar = 1;
Line 566  command(struct state *st, const char *buf, size_t star
Line 792  command(struct state *st, const char *buf, size_t star
                 switch (st->lstack[st->lpos - 1]) {                  switch (st->lstack[st->lpos - 1]) {
                 case (LIST_TAG):                  case (LIST_TAG):
                         printf(".It ");                          printf(".It ");
                         formatcodeln(buf, &start, end, 0);                          formatcodeln(st, buf, &start, end, 0);
                         putchar('\n');                          putchar('\n');
                         break;                          break;
                 case (LIST_ENUM):                  case (LIST_ENUM):
Line 646  verbatim(struct state *st, const char *buf, size_t sta
Line 872  verbatim(struct state *st, const char *buf, size_t sta
 }  }
   
 /*  /*
    * See dosynopsisop().
    */
   static int
   hasmatch(const char *buf, size_t start, size_t end)
   {
           size_t   stack;
   
           for (stack = 0; start < end; start++)
                   if (buf[start] == '[')
                           stack++;
                   else if (buf[start] == ']' && 0 == stack)
                           return(1);
                   else if (buf[start] == ']')
                           stack--;
           return(0);
   }
   
   /*
    * If we're in the SYNOPSIS section and we've encounter braces in an
    * ordinary paragraph, then try to see whether we're an [-option].
    * Do this, if we're an opening bracket, by first seeing if we have a
    * matching end via hasmatch().
    * If we're an ending bracket, see if we have a stack already.
    */
   static int
   dosynopsisop(const char *buf, int *last,
           size_t *start, size_t end, size_t *opstack)
   {
   
           assert('[' == buf[*start] || ']' == buf[*start]);
   
           if ('[' == buf[*start] && hasmatch(buf, *start + 1, end)) {
                   if ('\n' != *last)
                           putchar('\n');
                   puts(".Oo");
                   (*opstack)++;
           } else if ('[' == buf[*start])
                   return(0);
   
           if (']' == buf[*start] && *opstack > 0) {
                   if ('\n' != *last)
                           putchar('\n');
                   puts(".Oc");
                   (*opstack)--;
           } else if (']' == buf[*start])
                   return(0);
   
           (*start)++;
           *last = '\n';
           while (' ' == buf[*start])
                   (*start)++;
           return(1);
   }
   
   /*
    * Format multiple "Nm" manpage names in the NAME section.
    */
   static void
   donamenm(struct state *st, const char *buf, size_t *start, size_t end)
   {
           size_t   word;
   
           while (*start < end && ' ' == buf[*start])
                   (*start)++;
   
           if (end == *start) {
                   puts(".Nm unknown");
                   return;
           }
   
           while (*start < end) {
                   fputs(".Nm ", stdout);
                   for (word = *start; word < end; word++)
                           if (',' == buf[word])
                                   break;
                   formatcodeln(st, buf, start, word, 1);
                   if (*start == end) {
                           putchar('\n');
                           continue;
                   }
                   assert(',' == buf[*start]);
                   puts(" ,");
                   (*start)++;
                   while (*start < end && ' ' == buf[*start])
                           (*start)++;
           }
   }
   
   /*
  * Ordinary paragraph.   * Ordinary paragraph.
  * Well, this is really the hardest--POD seems to assume that, for   * Well, this is really the hardest--POD seems to assume that, for
  * example, a leading space implies a newline, and so on.   * example, a leading space implies a newline, and so on.
Line 656  verbatim(struct state *st, const char *buf, size_t sta
Line 971  verbatim(struct state *st, const char *buf, size_t sta
 static void  static void
 ordinary(struct state *st, const char *buf, size_t start, size_t end)  ordinary(struct state *st, const char *buf, size_t start, size_t end)
 {  {
         size_t          i, j;          size_t          i, j, opstack;
           int             seq;
   
         if ( ! st->parsing || st->paused)          if ( ! st->parsing || st->paused)
                 return;                  return;
Line 667  ordinary(struct state *st, const char *buf, size_t sta
Line 983  ordinary(struct state *st, const char *buf, size_t sta
          * we're in "name - description" format.           * we're in "name - description" format.
          * To wit, print out a "Nm" and "Nd" in that format.           * To wit, print out a "Nm" and "Nd" in that format.
          */           */
         if (st->isname) {          if (SECT_NAME == st->sect) {
                 for (i = end - 1; i > start; i--)                  for (i = end - 2; i > start; i--)
                         if ('-' == buf[i])                          if ('-' == buf[i] && ' ' == buf[i + 1])
                                 break;                                  break;
                 if ('-' == buf[i]) {                  if ('-' == buf[i]) {
                         j = i;                          j = i;
Line 677  ordinary(struct state *st, const char *buf, size_t sta
Line 993  ordinary(struct state *st, const char *buf, size_t sta
                         for ( ; i > start; i--)                          for ( ; i > start; i--)
                                 if ('-' != buf[i])                                  if ('-' != buf[i])
                                         break;                                          break;
                         printf(".Nm ");                          donamenm(st, buf, &start, i + 1);
                         formatcodeln(buf, &start, i + 1, 1);  
                         putchar('\n');  
                         start = j + 1;                          start = j + 1;
                         printf(".Nd ");                          while (start < end && ' ' == buf[start])
                         formatcodeln(buf, &start, end, 1);                                  start++;
                           fputs(".Nd ", stdout);
                           formatcodeln(st, buf, &start, end, 1);
                         putchar('\n');                          putchar('\n');
                         return;                          return;
                 }                  }
Line 693  ordinary(struct state *st, const char *buf, size_t sta
Line 1009  ordinary(struct state *st, const char *buf, size_t sta
   
         st->haspar = 0;          st->haspar = 0;
         last = '\n';          last = '\n';
           opstack = 0;
   
         while (start < end) {          for (seq = 0; start < end; seq++) {
                 /*                  /*
                  * Loop til we get either to a newline or escape.                   * Loop til we get either to a newline or escape.
                  * Escape initial control characters.                   * Escape initial control characters.
Line 708  ordinary(struct state *st, const char *buf, size_t sta
Line 1025  ordinary(struct state *st, const char *buf, size_t sta
                                 printf("\\&");                                  printf("\\&");
                         else if ('\n' == last && '\'' == buf[start])                          else if ('\n' == last && '\'' == buf[start])
                                 printf("\\&");                                  printf("\\&");
                           /*
                            * If we're in the SYNOPSIS, have square
                            * brackets indicate that we're opening and
                            * closing an optional context.
                            */
                           if (SECT_SYNOPSIS == st->sect &&
                                   ('[' == buf[start] ||
                                    ']' == buf[start]) &&
                                   dosynopsisop(buf, &last,
                                           &start, end, &opstack))
                                   continue;
                         putchar(last = buf[start++]);                          putchar(last = buf[start++]);
                         if ('\\' == last)                          if ('\\' == last)
                                 putchar('e');                                  putchar('e');
Line 722  ordinary(struct state *st, const char *buf, size_t sta
Line 1050  ordinary(struct state *st, const char *buf, size_t sta
                          * following that, a newline.                           * following that, a newline.
                          * Consume all whitespace so we don't                           * Consume all whitespace so we don't
                          * accidentally start an implicit literal line.                           * accidentally start an implicit literal line.
                            * If the macro ends with a flush comma or
                            * period, let mdoc(7) handle it for us.
                          */                           */
                         if (formatcode(buf, &start, end, 0, 0)) {                          if (formatcode(st, buf, &start, end, 0, 0, seq)) {
                                   if ((start == end - 1 ||
                                           (start < end - 1 &&
                                            (' ' == buf[start + 1] ||
                                             '\n' == buf[start + 1]))) &&
                                           ('.' == buf[start] ||
                                            ',' == buf[start])) {
                                           putchar(' ');
                                           putchar(buf[start++]);
                                   }
                                 putchar(last = '\n');                                  putchar(last = '\n');
                                 while (start < end && ' ' == buf[start])                                  while (start < end && ' ' == buf[start])
                                         start++;                                          start++;
Line 752  ordinary(struct state *st, const char *buf, size_t sta
Line 1091  ordinary(struct state *st, const char *buf, size_t sta
                         for ( ; start < end; start++)                          for ( ; start < end; start++)
                                 if (' ' != buf[start] && '\t' != buf[start])                                  if (' ' != buf[start] && '\t' != buf[start])
                                         break;                                          break;
                 } else if (start < end) {                  }
                         /*  
                          * Default: print the character.  
                          * Escape initial control characters.  
                          */  
                         if ('\n' == last && '.' == buf[start])  
                                 printf("\\&");  
                         else if ('\n' == last && '\'' == buf[start])  
                                 printf("\\&");  
                         putchar(last = buf[start++]);  
                         if ('\\' == last)  
                                 putchar('e');  
                 }  
         }          }
   
         if (last != '\n')          if (last != '\n')
Line 828  dofile(const struct args *args, const char *fname, 
Line 1155  dofile(const struct args *args, const char *fname, 
                 if (NULL != (cp = strrchr(title, '.'))) {                  if (NULL != (cp = strrchr(title, '.'))) {
                         *cp++ = '\0';                          *cp++ = '\0';
                         if (0 == strcmp(cp, "pm"))                          if (0 == strcmp(cp, "pm"))
                                 section = "3p";                                  section = PERL_SECTION;
                 }                  }
         }          }
   

Legend:
Removed from v.1.8  
changed lines
  Added in v.1.21

CVSweb