欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

深入V8引擎-AST(4)

程序员文章站 2022-07-09 20:54:50
(再声明一下,为了简单暴力的讲解AST的转换过程,这里的编译内容以"'Hello' + ' World'"作为案例) 上一篇基本上花了一整篇讲完了scanner的Init方法,接下来就是Scan了,Init的方法基本上都是在Stream类下操作,但是本节回到了scanner层级。 虽然这里只有简简单 ......

(再声明一下,为了简单暴力的讲解ast的转换过程,这里的编译内容以"'hello' + ' world'"作为案例)

上一篇基本上花了一整篇讲完了scanner的init方法,接下来就是scan了,init的方法基本上都是在stream类下操作,但是本节回到了scanner层级。

/**
 * scan
 * 仅仅只涉及next_指针
 */
void scanner::scan() { scan(next_); }
void scanner::scan(tokendesc* next_desc) {
  next_desc->token = scansingletoken();
  /**
   * 设置当前词法的结束位置
   */
  next_desc->location.end_pos = source_pos();
}

虽然这里只有简简单单的两步(砍掉了所有的check和debug内容),但这个scansingletoken已经够讲了。从字面意思理解,就是对单个词法的解析,源码如下。

/**
 * 这个scansingletoken方法可tm太长了
 */
v8_inline token::value scanner::scansingletoken() {
  token::value token;
  do {
    /**
     * 设置当前词法的起始位置
     */
    next().location.beg_pos = source_pos();
    /**
     * ascii码是从0 ~ 127
     * 简单的判断一下合法性
     */
    if (v8_likely(static_cast<unsigned>(c0_) <= kmaxascii)) {
      /**
       * 这是一个mapping数组
       * 对所有的unicode => ascii做了映射
       */
      token = one_char_tokens[c0_];
      /**
       * 包含非常多的case...先不展开了
       * 根据token类型进行不同的处理
       */
      switch (token) {
        case token::lparen:
        case token::rparen:
        // 其他单符号...
          // one character tokens.
          return select(token);
        case token::string:
          return scanstring();

        // 更多...
        default:
          unreachable();
      }
    }
    /**
     * 处理结束符、空格、异常符号等特殊情况
     */
    // ...
  } while (token == token::whitespace);

  return token;
}

作为一个词法解析方法,长度其实还是可以接受的,已经删掉了大部分的case判断,由于本系列专注于"'hello' + ' world'"的编译,所以留下了string类型。

讲两个点,第一个是那个source_pos,位置的属性和方法是真的多,比较简单,看看就行了。

/**
 * 上一篇解析了第一个字符 所以pos移动到了1
 * 然而记录location需要从头开始 所以这里做了一个偏移
 */
static const int kcharacterlookaheadbuffersize = 1;
int source_pos() {
  return static_cast<int>(source_->pos()) - kcharacterlookaheadbuffersize;
}

然后那个mapping数组可以稍微给一下出处,源码如下。

/**
 * 总结起来就是getonechartoken(0),getonechartoken(1),...,getonechartoken(127)全部调用一遍
 * 其中isdecimaldigit负责判断是否是数字
 * 而isasciiidentifier负责判断是否是标识符,例如$、_、a-z等等
 * 最后生成的one_char_tokens数组下标代表unicode编码 值代表对应的token类型
 */

#define int_0_to_127_list(v)                                          \
v(0)   v(1)   v(2)   v(3)   v(4)   v(5)   v(6)   v(7)   v(8)   v(9)   \
// ...
v(120) v(121) v(122) v(123) v(124) v(125) v(126) v(127)

static const constexpr token::value one_char_tokens[128] = {
#define call_get_scan_flags(n) getonechartoken(n),
    int_0_to_127_list(call_get_scan_flags)
#undef call_get_scan_flags
};

constexpr token::value getonechartoken(char c) {
  // clang-format off
  return
    c == '(' ? token::lparen :
    c == ')' ? token::rparen :
    // 其余字符...
    isdecimaldigit(c) ? token::number :
    isasciiidentifier(c) ? token::identifier :
    token::illegal;
}

之前说过,c0_代表的是当前解析字符的unicode编码,于是这里直接通过数组索引查找其对应的类型,按照例子中,我们的字符是一个单引号,而单引号的类型如下。

/**
 * 单双引号均会被识别为字符串标记
 * 而es6的模板字符串比较特殊 暂时不搞他
 */
c == '"' ? token::string :
c == '\'' ? token::string :
c == '`' ? token::template_span :

所以,当前token被赋值为token::string,因此,case分支进入scanstring的方法。这个方法内容比较多,下一篇讲吧,午休时间。