[转]大数据处理三小题。Can you? ^_^

程序员文章站 2022-07-14 16:58:08

...

无挑战，不工作之三 - 开发工程师招聘

1：概述题

都知道数据库使用索引能够提高效率，为什么，用自己的理解简单描述。

这道题是后面n多题的基础。

2：实战题

引用

2.1
借了一道据说是腾讯面试的题目，和我当年在某公司商业分析部招聘的题目几乎一样，这道题很有代表性，拿出来说一下。
现在有个文件里有40亿条无重复整型数，为4字节无符号数，或者说，0 到 2的32次方。下面要求你写一个程序，列出所有 0 -2的32次方里，该文件不存在的整数。注意你的系统可用内存是有限的，也许只有1G或2G。如果这40亿条有重复，有什么区别？

引用

2.2
一个很典型常见问题，对用户做地区判定，比如新浪首页，百度新闻首页，会根据不同地区用户显示当地的新闻；比如百度，谷歌搜索结果会根据不同用户地区显示不同广告。这个是基于用户ip地址的，ip地址区间是国际组织分配的，非常散列，并不是严谨的顺序，现在已知有10万段的ip地址对应段。在高并发情况下，如何在用户访问的时候快速返回该用户对应的地区，给出你的方法和要点。注意，效率是考核的关键，如果一秒钟无法实现超过1000次不同ip的查询结果（单台双至强服务器只做该查询的情况下），效率肯定不行的。

引用

2.3
又一个典型问题，目前*有屏蔽词表，每个网站都要遵守，发帖的时候会自动替换屏蔽词；另一个场景是诸如新浪新闻等媒体往往有商业词表，发新闻的时候会自动建立关键词铆接。这个相当于一个简单的基于词典的分词系统，下面的问题就是，如何实现一个快速有效的，基于自定义词典精确匹配的分词系统，一是要满足每
天几万篇，几十万篇文章发布的要求；另一个必须的要求是，当词库倍增扩展时（比如10万词），效率的影响不允许是线性降低的。

如果您愿意接受挑战，与我们一起创业，创造大局面，欢迎将您的答案发送到 caozheng@gmail.com

，谢谢。优秀的答案我会尽可能回复，谢谢。

原文： http://hi.baidu.com/caoz/blog/item/2902baa153984b86471064fd.html

上一篇：看高手代码--从小case学大道理

下一篇： ORACLE 安装心得