欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

怎么从一堆英文名称里找出中国人?

程序员文章站 2023-12-30 12:24:46
...
有一堆的英文名称列表
Sjoerd van Tuinen
Ulisses Caramaschi
Ulisses Caramaschi
Pankaj Sekhsaria
Brandon Ballengée
Prima Adi Yoga
Mehmet Tunçer
Guoyou Zhang
Jose Carlos Mariategui
Cesar Amorós
Anne Pyburn
Bruce D Patterson
Nancy Sevcenko
Dwirienna Adiyanti
Ulises Chavez Jimenez

里面夹杂着中国人的英文名,比如Guoyou Zhang,怎么用程序能够快速地筛选出中国人姓名。
可以有中文姓氏和常用汉字的拼音列表。不知道用php程序怎么写?

回复内容:

有一堆的英文名称列表
Sjoerd van Tuinen
Ulisses Caramaschi
Ulisses Caramaschi
Pankaj Sekhsaria
Brandon Ballengée
Prima Adi Yoga
Mehmet Tunçer
Guoyou Zhang
Jose Carlos Mariategui
Cesar Amorós
Anne Pyburn
Bruce D Patterson
Nancy Sevcenko
Dwirienna Adiyanti
Ulises Chavez Jimenez

里面夹杂着中国人的英文名,比如Guoyou Zhang,怎么用程序能够快速地筛选出中国人姓名。
可以有中文姓氏和常用汉字的拼音列表。不知道用php程序怎么写?

只能找个库匹配了。
如果这是你们产品经理提出来的,请果断让他放弃这个想法。

这个网上很多吧 ,给个链接

参考excel的识别方式看看

汉字区分出来比较容易啦
主要是如何区分英文与拼音

我的想法是找个拼音库,然后对比找出拼音,判断是否中国人姓名

你可以看下面的链接下,看下里面的源码是否可以做拼音库
http://www.oschina.net/code/snippet_862384_25415

需要一个中文拼音的分词库!!!否则无法实现!!!

不知道php怎么处理,Java的话可以用pinyin4j从百家姓生成一份姓氏拼音表再匹配

没有十分准确的办法,因为没办法严格区分。即便你能整理一个拼音库,也有很多问题。举个例子,一位嫁给老外的女士,改用丈夫姓氏,对比库无法处理。藏蒙等少数民族的名字无法处理。韩国、泰国等国家有姓氏的拼写方式和中文重合。

本质是区分拼音和英文单词,用正则匹配:
1.拿常用姓氏的拼音结尾规则去匹配所有姓名,拿到初筛数据。
2.大部分的汉子拼音都由声母和韵母结合构成,利用这个规则进一步检验初筛数据

你说Marry Zhang这个是中国人还是外国人呢?
能匹配的前提是别像外企一样让中国人非得给自己起个洋名

同样的Mike是英文的麦克还是中文的米克呢?这个问题倒是不大

相关标签: php

上一篇:

下一篇: