深入V8引擎-AST(4)

程序员文章站 2022-04-15 14:06:03

(再声明一下，为了简单暴力的讲解AST的转换过程，这里的编译内容以"'Hello' + ' World'"作为案例) 上一篇基本上花了一整篇讲完了scanner的Init方法，接下来就是Scan了，Init的方法基本上都是在Stream类下操作，但是本节回到了scanner层级。虽然这里只有简简单 ......

(再声明一下，为了简单暴力的讲解ast的转换过程，这里的编译内容以"'hello' + ' world'"作为案例)

上一篇基本上花了一整篇讲完了scanner的init方法，接下来就是scan了，init的方法基本上都是在stream类下操作，但是本节回到了scanner层级。

/**
 * scan
 * 仅仅只涉及next_指针
 */
void scanner::scan() { scan(next_); }
void scanner::scan(tokendesc* next_desc) {
  next_desc->token = scansingletoken();
  /**
   * 设置当前词法的结束位置
   */
  next_desc->location.end_pos = source_pos();
}

虽然这里只有简简单单的两步(砍掉了所有的check和debug内容)，但这个scansingletoken已经够讲了。从字面意思理解，就是对单个词法的解析，源码如下。

/**
 * 这个scansingletoken方法可tm太长了
 */
v8_inline token::value scanner::scansingletoken() {
  token::value token;
  do {
    /**
     * 设置当前词法的起始位置
     */
    next().location.beg_pos = source_pos();
    /**
     * ascii码是从0 ~ 127
     * 简单的判断一下合法性
     */
    if (v8_likely(static_cast<unsigned>(c0_) <= kmaxascii)) {
      /**
       * 这是一个mapping数组
       * 对所有的unicode => ascii做了映射
       */
      token = one_char_tokens[c0_];
      /**
       * 包含非常多的case...先不展开了
       * 根据token类型进行不同的处理
       */
      switch (token) {
        case token::lparen:
        case token::rparen:
        // 其他单符号...
          // one character tokens.
          return select(token);
        case token::string:
          return scanstring();

        // 更多...
        default:
          unreachable();
      }
    }
    /**
     * 处理结束符、空格、异常符号等特殊情况
     */
    // ...
  } while (token == token::whitespace);

  return token;
}

作为一个词法解析方法，长度其实还是可以接受的，已经删掉了大部分的case判断，由于本系列专注于"'hello' + ' world'"的编译，所以留下了string类型。

讲两个点，第一个是那个source_pos，位置的属性和方法是真的多，比较简单，看看就行了。

/**
 * 上一篇解析了第一个字符 所以pos移动到了1
 * 然而记录location需要从头开始 所以这里做了一个偏移
 */
static const int kcharacterlookaheadbuffersize = 1;
int source_pos() {
  return static_cast<int>(source_->pos()) - kcharacterlookaheadbuffersize;
}

然后那个mapping数组可以稍微给一下出处，源码如下。

/**
 * 总结起来就是getonechartoken(0),getonechartoken(1),...,getonechartoken(127)全部调用一遍
 * 其中isdecimaldigit负责判断是否是数字
 * 而isasciiidentifier负责判断是否是标识符，例如$、_、a-z等等
 * 最后生成的one_char_tokens数组下标代表unicode编码 值代表对应的token类型
 */

#define int_0_to_127_list(v)                                          \
v(0)   v(1)   v(2)   v(3)   v(4)   v(5)   v(6)   v(7)   v(8)   v(9)   \
// ...
v(120) v(121) v(122) v(123) v(124) v(125) v(126) v(127)

static const constexpr token::value one_char_tokens[128] = {
#define call_get_scan_flags(n) getonechartoken(n),
    int_0_to_127_list(call_get_scan_flags)
#undef call_get_scan_flags
};

constexpr token::value getonechartoken(char c) {
  // clang-format off
  return
    c == '(' ? token::lparen :
    c == ')' ? token::rparen :
    // 其余字符...
    isdecimaldigit(c) ? token::number :
    isasciiidentifier(c) ? token::identifier :
    token::illegal;
}

之前说过，c0_代表的是当前解析字符的unicode编码，于是这里直接通过数组索引查找其对应的类型，按照例子中，我们的字符是一个单引号，而单引号的类型如下。

/**
 * 单双引号均会被识别为字符串标记
 * 而es6的模板字符串比较特殊 暂时不搞他
 */
c == '"' ? token::string :
c == '\'' ? token::string :
c == '`' ? token::template_span :

所以，当前token被赋值为token::string，因此，case分支进入scanstring的方法。这个方法内容比较多，下一篇讲吧，午休时间。

上一篇： MySQL的join使用

下一篇： Android Activity启动流程， app启动流程，APK打包流程， APK安装过程

深入V8引擎-AST(4)

深入V8引擎-AST(3)

JavaScript深入浅出第4课：V8引擎是如何工作的？

深入出不来nodejs源码-V8引擎初探

深入V8引擎-Time模块介绍

深入V8引擎-Time核心方法之mac篇

深入V8引擎-AST(4)

深入V8引擎-AST(1)

深入V8引擎-初始化之InitPlatform

深入V8引擎-引擎内部类管理解析

深入V8引擎-AST(5)