[BACK]Return to parse.c CVS log [TXT][DIR] Up to [cvsweb.bsd.lv] / docbook2mdoc

Diff for /docbook2mdoc/parse.c between version 1.13 and 1.14

version 1.13, 2019/04/03 17:53:02 version 1.14, 2019/04/05 14:37:36
Line 30 
Line 30 
  * The implementation of the DocBook parser.   * The implementation of the DocBook parser.
  */   */
   
   enum    pstate {
           PARSE_ELEM,
           PARSE_TAG,
           PARSE_ARG,
           PARSE_SQ,
           PARSE_DQ
   };
   
 /*  /*
  * Global parse state.   * Global parse state.
  * Keep this as simple and small as possible.   * Keep this as simple and small as possible.
Line 582  parse_free(struct parse *p)
Line 590  parse_free(struct parse *p)
         free(p);          free(p);
 }  }
   
   static void
   increment(struct parse *p, char *b, size_t *pend, int refill)
   {
           if (refill) {
                   if (b[*pend] == '\n') {
                           p->nline++;
                           p->ncol = 1;
                   } else
                           p->ncol++;
           }
           ++*pend;
   }
   
 /*  /*
  * Advance the pend pointer to the next character in the charset.   * Advance the pend pointer to the next character in the charset.
  * If the charset starts with a space, it stands for any whitespace.   * If the charset starts with a space, it stands for any whitespace.
Line 592  parse_free(struct parse *p)
Line 613  parse_free(struct parse *p)
  */   */
 static int  static int
 advance(struct parse *p, char *b, size_t rlen, size_t *pend,  advance(struct parse *p, char *b, size_t rlen, size_t *pend,
     const char *charset)      const char *charset, int refill)
 {  {
         int              space;          int              space;
   
Line 602  advance(struct parse *p, char *b, size_t rlen, size_t 
Line 623  advance(struct parse *p, char *b, size_t rlen, size_t 
         } else          } else
                 space = 0;                  space = 0;
   
         p->nline = p->line;          if (refill) {
         p->ncol = p->col;                  p->nline = p->line;
                   p->ncol = p->col;
           }
         while (*pend < rlen) {          while (*pend < rlen) {
                 if (b[*pend] == '\n') {  
                         p->nline++;  
                         p->ncol = 1;  
                 } else  
                         p->ncol++;  
                 if (space && isspace((unsigned char)b[*pend]))                  if (space && isspace((unsigned char)b[*pend]))
                         break;                          break;
                 if (strchr(charset, b[*pend]) != NULL)                  if (strchr(charset, b[*pend]) != NULL)
                         break;                          break;
                 ++*pend;                  increment(p, b, pend, refill);
         }          }
         if (*pend == rlen) {          if (*pend == rlen) {
                 b[rlen] = '\0';                  b[rlen] = '\0';
                 return 1;                  return refill;
         } else          } else
                 return 0;                  return 0;
 }  }
   
 struct ptree *  size_t
 parse_file(struct parse *p, int fd, const char *fname)  parse_string(struct parse *p, char *b, size_t rlen,
       enum pstate *pstate, int refill)
 {  {
         char             b[4096];  
         char            *cp;          char            *cp;
         ssize_t          rsz;   /* Return value from read(2). */  
         size_t           rlen;  /* Number of bytes in b[]. */  
         size_t           poff;  /* Parse offset in b[]. */          size_t           poff;  /* Parse offset in b[]. */
         size_t           pend;  /* Offset of the end of the current word. */          size_t           pend;  /* Offset of the end of the current word. */
         int              in_tag, in_arg, in_quotes, elem_end;          int              elem_end;
   
         p->fname = fname;          pend = 0;
         p->nline = 1;          for (;;) {
         p->ncol = 1;  
         rlen = 0;  
         in_tag = in_arg = in_quotes = 0;  
   
         /*                  /* Proceed to the next token, skipping whitespace. */
          * Read loop.  
          *  
          * We have to enter the read loop once more even on EOF  
          * because the previous token may have been incomplete,  
          * such that it asked for more input.  
          * Once rsz is 0, incomplete tokens will no longer ask  
          * for more input but instead use whatever there is,  
          * and then exit the read loop.  
          * The minus one on the size limit for read(2) is needed  
          * such that advance() can set b[rlen] to NUL when needed.  
          */  
   
         while ((rsz = read(fd, b + rlen, sizeof(b) - rlen - 1)) >= 0) {                  if (refill) {
                 if ((rlen += rsz) == 0)                          p->line = p->nline;
                           p->col = p->ncol;
                   }
                   if ((poff = pend) == rlen)
                         break;                          break;
                   if (isspace((unsigned char)b[pend])) {
                           increment(p, b, &pend, refill);
                           continue;
                   }
   
                 /* Token loop. */                  /*
                    * The following four cases (ARG, TAG, and starting an
                    * entity or a tag) all parse a word or quoted string.
                    * If that extends beyond the read buffer and the last
                    * read(2) still got data, they all break out of the
                    * token loop to request more data from the read loop.
                    *
                    * Also, three of them detect self-closing tags, those
                    * ending with "/>", setting the flag elem_end and
                    * calling xml_elem_end() at the very end, after
                    * handling the attribute value, attribute name, or
                    * tag name, respectively.
                    */
   
                 pend = 0;                  /* Parse an attribute value. */
                 for (;;) {  
   
                         /* Proceed to the next token, skipping whitespace. */                  if (*pstate >= PARSE_ARG) {
                           if (*pstate == PARSE_ARG &&
                         p->line = p->nline;                              (b[pend] == '\'' || b[pend] == '"')) {
                         p->col = p->ncol;                                  *pstate = b[pend] == '"' ?
                         if ((poff = pend) == rlen)                                      PARSE_DQ : PARSE_SQ;
                                 break;                                  increment(p, b, &pend, refill);
                         if (isspace((unsigned char)b[pend])) {  
                                 if (b[pend++] == '\n') {  
                                         p->nline++;  
                                         p->ncol = 1;  
                                 } else  
                                         p->ncol++;  
                                 continue;                                  continue;
                         }                          }
                           if (advance(p, b, rlen, &pend,
                         /*                              *pstate == PARSE_DQ ? "\"" :
                          * The following four cases (in_arg, in_tag, and                              *pstate == PARSE_SQ ? "'" : " >", refill))
                          * starting an entity or a tag) all parse a word                                  break;
                          * or quoted string.  If that extends beyond the                          *pstate = PARSE_TAG;
                          * read buffer and the last read(2) still got                          elem_end = 0;
                          * data, they all break out of the token loop                          if (b[pend] == '>') {
                          * to request more data from the read loop.                                  *pstate = PARSE_ELEM;
                          *                                  if (pend > 0 && b[pend - 1] == '/') {
                          * Also, three of them detect self-closing tags,                                          b[pend - 1] = '\0';
                          * those ending with "/>", setting the flag                                          elem_end = 1;
                          * elem_end and calling xml_elem_end() at the  
                          * very end, after handling the attribute value,  
                          * attribute name, or tag name, respectively.  
                          */  
   
                         /* Parse an attribute value. */  
   
                         if (in_arg) {  
                                 if (in_quotes == 0 &&  
                                     (b[pend] == '\'' || b[pend] == '"')) {  
                                         in_quotes = b[pend] == '"' ? 2 : 1;  
                                         p->ncol++;  
                                         pend++;  
                                         continue;  
                                 }                                  }
                                 if (advance(p, b, rlen, &pend,                          }
                                     in_quotes == 2 ? "\"" :                          b[pend] = '\0';
                                     in_quotes == 1 ? "'" : " >") && rsz > 0)                          if (pend < rlen)
                                         break;                                  increment(p, b, &pend, refill);
                                 in_arg = in_quotes = elem_end = 0;                          xml_attrval(p, b + poff);
                                 if (b[pend] == '>') {                          if (elem_end)
                                         in_tag = 0;                                  xml_elem_end(p, NULL);
                                         if (pend > 0 && b[pend - 1] == '/') {  
                                                 b[pend - 1] = '\0';  
                                                 elem_end = 1;  
                                         }  
                                 }  
                                 b[pend] = '\0';  
                                 if (pend < rlen)  
                                         pend++;  
                                 xml_attrval(p, b + poff);  
                                 if (elem_end)  
                                         xml_elem_end(p, NULL);  
   
                         /* Look for an attribute name. */                  /* Look for an attribute name. */
   
                         } else if (in_tag) {                  } else if (*pstate == PARSE_TAG) {
                                 if (advance(p, b, rlen, &pend, " =>") &&                          if (advance(p, b, rlen, &pend, " =>", refill))
                                     rsz > 0)                                  break;
                                         break;                          elem_end = 0;
                                 elem_end = 0;                          switch (b[pend]) {
                                 switch (b[pend]) {                          case '>':
                                 case '>':                                  *pstate = PARSE_ELEM;
                                         in_tag = 0;                                  if (pend > 0 && b[pend - 1] == '/') {
                                         if (pend > 0 && b[pend - 1] == '/') {                                          b[pend - 1] = '\0';
                                                 b[pend - 1] = '\0';                                          elem_end = 1;
                                                 elem_end = 1;  
                                         }  
                                         break;  
                                 case '=':  
                                         in_arg = 1;  
                                         break;  
                                 default:  
                                         break;  
                                 }                                  }
                                 b[pend] = '\0';                                  break;
                                 if (pend < rlen)                          case '=':
                                         pend++;                                  *pstate = PARSE_ARG;
                                 xml_attrkey(p, b + poff);                                  break;
                                 if (elem_end)                          default:
                                         xml_elem_end(p, NULL);                                  break;
                           }
                           b[pend] = '\0';
                           if (pend < rlen)
                                   increment(p, b, &pend, refill);
                           xml_attrkey(p, b + poff);
                           if (elem_end)
                                   xml_elem_end(p, NULL);
   
                         /* Begin an opening or closing tag. */                  /* Begin an opening or closing tag. */
   
                         } else if (b[poff] == '<') {                  } else if (b[poff] == '<') {
                                 if (advance(p, b, rlen, &pend, " >") &&                          if (advance(p, b, rlen, &pend, " >", refill))
                                     rsz > 0)                                  break;
                                         break;                          if (pend > poff + 3 &&
                                 if (pend > poff + 3 &&                              strncmp(b + poff, "<!--", 4) == 0) {
                                     strncmp(b + poff, "<!--", 4) == 0) {  
   
                                         /* Skip a comment. */                                  /* Skip a comment. */
   
                                         cp = strstr(b + pend - 2, "-->");                                  cp = strstr(b + pend - 2, "-->");
                                         if (cp == NULL) {                                  if (cp == NULL) {
                                                 if (rsz > 0) {                                          if (refill)
                                                         pend = rlen;                                                  break;
                                                         break;                                          cp = b + rlen;
                                                 }  
                                                 cp = b + rlen;  
                                         } else  
                                                 cp += 3;  
                                         while (b + pend < cp) {  
                                                 if (b[++pend] == '\n') {  
                                                         p->nline++;  
                                                         p->ncol = 1;  
                                                 } else  
                                                         p->ncol++;  
                                         }  
                                         continue;  
                                 }  
                                 elem_end = 0;  
                                 if (b[pend] != '>')  
                                         in_tag = 1;  
                                 else if (pend > 0 && b[pend - 1] == '/') {  
                                         b[pend - 1] = '\0';  
                                         elem_end = 1;  
                                 }  
                                 b[pend] = '\0';  
                                 if (pend < rlen)  
                                         pend++;  
                                 if (b[++poff] == '/') {  
                                         elem_end = 1;  
                                         poff++;  
                                 } else                                  } else
                                         xml_elem_start(p, b + poff);                                          cp += 3;
                                 if (elem_end)                                  while (b + pend < cp)
                                         xml_elem_end(p, b + poff);                                          increment(p, b, &pend, refill);
                                   continue;
                           }
                           elem_end = 0;
                           if (b[pend] != '>')
                                   *pstate = PARSE_TAG;
                           else if (pend > 0 && b[pend - 1] == '/') {
                                   b[pend - 1] = '\0';
                                   elem_end = 1;
                           }
                           b[pend] = '\0';
                           if (pend < rlen)
                                   increment(p, b, &pend, refill);
                           if (b[++poff] == '/') {
                                   elem_end = 1;
                                   poff++;
                           } else
                                   xml_elem_start(p, b + poff);
                           if (elem_end)
                                   xml_elem_end(p, b + poff);
   
                         /* Process an entity. */                  /* Process an entity. */
   
                         } else if (b[poff] == '&') {                  } else if (b[poff] == '&') {
                                 if (advance(p, b, rlen, &pend, ";") &&                          if (advance(p, b, rlen, &pend, ";", refill))
                                     rsz > 0)                                  break;
                                         break;                          b[pend] = '\0';
                                 b[pend] = '\0';                          if (pend < rlen)
                                 if (pend < rlen)                                  increment(p, b, &pend, refill);
                                         pend++;                          xml_entity(p, b + poff + 1);
                                 xml_entity(p, b + poff + 1);  
   
                         /* Process text up to the next tag or entity. */                  /* Process text up to the next tag, entity, or EOL. */
   
                         } else {                  } else {
                                 if (advance(p, b, rlen, &pend, "<&") == 0)                          advance(p, b, rlen, &pend, "<&", refill);
                                         p->ncol--;                          xml_char(p, b + poff, pend - poff);
                                 xml_char(p, b + poff, pend - poff);  
                         }  
                 }                  }
           }
           return poff;
   }
   
                 /* Buffer exhausted; shift left and re-fill. */  struct ptree *
   parse_file(struct parse *p, int fd, const char *fname)
   {
           char             b[4096];
           ssize_t          rsz;   /* Return value from read(2). */
           size_t           rlen;  /* Number of bytes in b[]. */
           size_t           poff;  /* Parse offset in b[]. */
           enum pstate      pstate;
   
           p->fname = fname;
           p->nline = 1;
           p->ncol = 1;
           pstate = PARSE_ELEM;
           rlen = 0;
   
           /*
            * Read loop.
            *
            * If the previous token was incomplete and asked for more
            * input, we have to enter the read loop once more even on EOF.
            * Once rsz is 0, incomplete tokens will no longer ask
            * for more input but instead use whatever there is,
            * and then exit the read loop.
            * The minus one on the size limit for read(2) is needed
            * such that advance() can set b[rlen] to NUL when needed.
            */
   
           while ((rsz = read(fd, b + rlen, sizeof(b) - rlen - 1)) >= 0 &&
               (rlen += rsz) > 0) {
                   poff = parse_string(p, b, rlen, &pstate, rsz > 0);
                   /* Buffer exhausted; shift left and re-fill. */
                 assert(poff > 0);                  assert(poff > 0);
                 memmove(b, b + poff, rlen - poff);  
                 rlen -= poff;                  rlen -= poff;
                   memmove(b, b + poff, rlen);
         }          }
         if (rsz < 0) {          if (rsz < 0) {
                 perror(fname);                  perror(fname);

Legend:
Removed from v.1.13  
changed lines
  Added in v.1.14

CVSweb