深入V8引擎-AST(4)
程序员文章站
2022-04-15 14:06:03
(再声明一下,为了简单暴力的讲解AST的转换过程,这里的编译内容以"'Hello' + ' World'"作为案例) 上一篇基本上花了一整篇讲完了scanner的Init方法,接下来就是Scan了,Init的方法基本上都是在Stream类下操作,但是本节回到了scanner层级。 虽然这里只有简简单 ......
(再声明一下,为了简单暴力的讲解ast的转换过程,这里的编译内容以"'hello' + ' world'"作为案例)
上一篇基本上花了一整篇讲完了scanner的init方法,接下来就是scan了,init的方法基本上都是在stream类下操作,但是本节回到了scanner层级。
/** * scan * 仅仅只涉及next_指针 */ void scanner::scan() { scan(next_); } void scanner::scan(tokendesc* next_desc) { next_desc->token = scansingletoken(); /** * 设置当前词法的结束位置 */ next_desc->location.end_pos = source_pos(); }
虽然这里只有简简单单的两步(砍掉了所有的check和debug内容),但这个scansingletoken已经够讲了。从字面意思理解,就是对单个词法的解析,源码如下。
/** * 这个scansingletoken方法可tm太长了 */ v8_inline token::value scanner::scansingletoken() { token::value token; do { /** * 设置当前词法的起始位置 */ next().location.beg_pos = source_pos(); /** * ascii码是从0 ~ 127 * 简单的判断一下合法性 */ if (v8_likely(static_cast<unsigned>(c0_) <= kmaxascii)) { /** * 这是一个mapping数组 * 对所有的unicode => ascii做了映射 */ token = one_char_tokens[c0_]; /** * 包含非常多的case...先不展开了 * 根据token类型进行不同的处理 */ switch (token) { case token::lparen: case token::rparen: // 其他单符号... // one character tokens. return select(token); case token::string: return scanstring(); // 更多... default: unreachable(); } } /** * 处理结束符、空格、异常符号等特殊情况 */ // ... } while (token == token::whitespace); return token; }
作为一个词法解析方法,长度其实还是可以接受的,已经删掉了大部分的case判断,由于本系列专注于"'hello' + ' world'"的编译,所以留下了string类型。
讲两个点,第一个是那个source_pos,位置的属性和方法是真的多,比较简单,看看就行了。
/** * 上一篇解析了第一个字符 所以pos移动到了1 * 然而记录location需要从头开始 所以这里做了一个偏移 */ static const int kcharacterlookaheadbuffersize = 1; int source_pos() { return static_cast<int>(source_->pos()) - kcharacterlookaheadbuffersize; }
然后那个mapping数组可以稍微给一下出处,源码如下。
/** * 总结起来就是getonechartoken(0),getonechartoken(1),...,getonechartoken(127)全部调用一遍 * 其中isdecimaldigit负责判断是否是数字 * 而isasciiidentifier负责判断是否是标识符,例如$、_、a-z等等 * 最后生成的one_char_tokens数组下标代表unicode编码 值代表对应的token类型 */ #define int_0_to_127_list(v) \ v(0) v(1) v(2) v(3) v(4) v(5) v(6) v(7) v(8) v(9) \ // ... v(120) v(121) v(122) v(123) v(124) v(125) v(126) v(127) static const constexpr token::value one_char_tokens[128] = { #define call_get_scan_flags(n) getonechartoken(n), int_0_to_127_list(call_get_scan_flags) #undef call_get_scan_flags }; constexpr token::value getonechartoken(char c) { // clang-format off return c == '(' ? token::lparen : c == ')' ? token::rparen : // 其余字符... isdecimaldigit(c) ? token::number : isasciiidentifier(c) ? token::identifier : token::illegal; }
之前说过,c0_代表的是当前解析字符的unicode编码,于是这里直接通过数组索引查找其对应的类型,按照例子中,我们的字符是一个单引号,而单引号的类型如下。
/** * 单双引号均会被识别为字符串标记 * 而es6的模板字符串比较特殊 暂时不搞他 */ c == '"' ? token::string : c == '\'' ? token::string : c == '`' ? token::template_span :
所以,当前token被赋值为token::string,因此,case分支进入scanstring的方法。这个方法内容比较多,下一篇讲吧,午休时间。